-
arXiv论文数据集arXivDataset-abhishekydav
arXiv论文数据集arXivDataset-abhishekydav 数据来源:互联网公开数据 标签:arXiv, 论文数据, 机器学习, 数据挖掘, 学术研究, 自然语言处理, 科技文献, 信息检索 数据概述:该数据集包含来自arXiv的学术论文数据,记录了大量科学和技术领域的研究论文信息。主要特征如下:... -
俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell
俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell 数据来源:互联网公开数据 标签:新闻文本,自然语言处理,文本分析,情感分析,俄语,数据集,文本分类,信息检索 数据概述: 该数据集包含了来自Lenta.ru和Fontanka.ru两个俄罗斯新闻网站的文本数据,记录了新闻文章的详细信息。主要特征如下:... -
PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick
PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick 数据来源:互联网公开数据 标签:PDF文档,文本提取,数据挖掘,自然语言处理,信息检索,文档分析,机器学习,数据集 数据概述:... -
网页抓取数据集CrawlData-fdfyaytkt
网页抓取数据集CrawlData-fdfyaytkt 数据来源:互联网公开数据 标签:网页抓取,数据集,文本分析,自然语言处理,网络数据,信息检索,数据挖掘,网络爬虫 数据概述: 该数据集包含了从互联网上抓取到的网页内容数据,涵盖了各种主题和来源。主要特征如下: 时间跨度: 数据记录的时间范围不定,取决于网页抓取的具体时间。 地理范围:... -
最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary
最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary 数据来源:互联网公开数据 标签:问答系统,数据集,自然语言处理,机器学习,文本理解,信息检索,人工智能,数据挖掘 数据概述: 该数据集包含来自问答系统相关研究的数据,记录了问答系统的训练和评估数据。主要特征如下:... -
Naver博客文章搜索结果数据集NaverBlogSearchResultsDataset-wysohn2
Naver博客文章搜索结果数据集NaverBlogSearchResultsDataset-wysohn2 数据来源:互联网公开数据 标签:博客,搜索,数据集,自然语言处理,文本分析,韩国,社交媒体,信息检索 数据概述: 该数据集包含来自Naver博客的搜索结果数据,记录了用户在Naver博客平台上进行的搜索查询及其相关的文章信息。主要特征如下:... -
人物维基百科传记文本数据集PeopleWikipediaBiographyTextDataset-jainprashant07
人物维基百科传记文本数据集PeopleWikipediaBiographyTextDataset-jainprashant07 数据来源:互联网公开数据 标签:人物传记, 文本数据, 维基百科, 自然语言处理, 文本分析, 传记信息, 知识图谱, 信息检索 数据概述:... -
垃圾文本识别数据集RubbishTextDataset-sokoface
垃圾文本识别数据集RubbishTextDataset-sokoface 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,垃圾信息过滤,机器学习,文本分类,信息检索,数据挖掘 数据概述: 该数据集包含来自互联网的垃圾文本数据,记录了各种形式的垃圾信息,如广告、诈骗、低俗内容等。主要特征如下:... -
向量化文本处理数据集VectorisedTextDataset-rhianarmstrong
向量化文本处理数据集VectorisedTextDataset-rhianarmstrong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本分析,向量化,深度学习,信息检索 数据概述: 该数据集包含来自互联网的文本数据,经过向量化处理,适用于自然语言处理和机器学习任务。主要特征如下:... -
垃圾邮件与正常邮件数据集CombinedSpamandHamEmailDataset-mlane43210
垃圾邮件与正常邮件数据集CombinedSpamandHamEmailDataset-mlane43210 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,自然语言处理,文本分析,机器学习,信息检索,电子邮件 数据概述: 该数据集整合了垃圾邮件和正常邮件的文本内容,用于邮件分类、垃圾邮件检测等任务。主要特征如下:... -
维基百科摘要数据集Wiki-SumDataset-sandeep16064
维基百科摘要数据集Wiki-SumDataset-sandeep16064 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,机器学习,信息检索,文本分析,知识图谱,语言模型 数据概述: 该数据集包含来自维基百科的文本及对应的摘要数据,记录了维基百科条目的详细内容和自动生成的摘要信息。主要特征如下:... -
虚假新闻检测训练数据集FakeNewsDetectionTrainingDataset-shyamgsundhar
虚假新闻检测训练数据集FakeNewsDetectionTrainingDataset-shyamgsundhar 数据来源:互联网公开数据 标签:虚假新闻,数据集,文本分析,自然语言处理,机器学习,信息检索,新闻报道,舆情分析 数据概述: 该数据集包含了大量用于虚假新闻检测的文本数据,旨在帮助研究人员和开发者构建和评估虚假新闻检测模型。主要特征如下:... -
文本预处理语料库TextPreprocessingCorpus-dinhnhattruong
文本预处理语料库TextPreprocessingCorpus-dinhnhattruong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本挖掘,数据清洗,语言学,信息检索 数据概述:该数据集包含了来自互联网和公开出版物的文本数据,适用于文本预处理、自然语言处理等任务。主要特征如下:... -
文件检索增强生成数据集RAGFilesDataset-anrenk
文件检索增强生成数据集RAGFilesDataset-anrenk 数据来源:互联网公开数据 标签:数据集,信息检索,自然语言处理,生成式AI,文件处理,知识管理,AI应用,文本分析 数据概述:该数据集包含用于检索增强生成(RAG)任务的多格式文件数据,记录了各类文档、文本和文件的检索与生成数据。主要特征如下:... -
标题:文本标题提取数据集(Hasninasri Title Extraction Dataset)
标题:文本标题提取数据集(Hasninasri Title Extraction Dataset) 数据来源:互联网公开数据 标签:文本分析,标题提取,自然语言处理,机器学习,文本挖掘,NLP,数据集,信息检索 数据概述: 该数据集由Hasninasri提供,旨在用于文本标题的提取和生成任务,包含大量的文本内容及其对应的标题。主要特征如下:... -
博客分类数据集BlogsClassificationDataset-atharvpatawar
博客分类数据集BlogsClassificationDataset-atharvpatawar 数据来源:互联网公开数据 标签:博客,分类,数据集,自然语言处理,文本分析,机器学习,信息检索,文本挖掘 数据概述:该数据集包含来自多个来源的博客文章数据,记录了各类博客的内容及其对应的分类标签。主要特征如下:... -
BM25文档检索与信息提取数据集BM25DocumentRetrievalandInformationExtractionDataset-dinhnhattruong
BM25文档检索与信息提取数据集BM25DocumentRetrievalandInformationExtractionDataset-dinhnhattruong 数据来源:互联网公开数据 标签:文档检索,信息提取,数据集,信息检索,自然语言处理,机器学习,文本挖掘,数据科学 数据概述:... -
Windows系统注释数据集-luckyrxy
Windows系统注释数据集-luckyrxy 数据来源:互联网公开数据 标签:Windows,操作系统,数据集,注释,软件工程,文本分析,自然语言处理,信息检索 数据概述: 该数据集包含Windows操作系统相关的注释信息,旨在提供关于Windows系统功能、代码、API等的详细描述。主要特征如下:... -
LSH算法输出数据集LSHAlgorithmOutputDataset-aniladepu
LSH算法输出数据集LSHAlgorithmOutputDataset-aniladepu 数据来源:互联网公开数据 标签:算法输出,局部敏感哈希,数据集,数据处理,机器学习,数据挖掘,计算机科学,信息检索 数据概述: 该数据集包含来自局部敏感哈希(LSH)算法的输出结果,记录了LSH算法在处理大规模数据时的哈希结果。主要特征如下:... -
信息检索与机器阅读理解数据集MSMARCODataset-parthplc
信息检索与机器阅读理解数据集MSMARCODataset-parthplc 数据来源:互联网公开数据 标签:信息检索,机器阅读理解,数据集,自然语言处理,搜索技术,人工智能,深度学习,文本分类 数据概述: 该数据集由微软(Microsoft)发布,主要记录了面向大规模信息检索和机器阅读理解任务的数据。主要特征如下:...