-
维基百科计算机科学文章数据集-mohamedamgad2002
维基百科计算机科学文章数据集-mohamedamgad2002 数据来源:互联网公开数据 标签:计算机科学,维基百科,数据集,文本分析,自然语言处理,信息检索,学术研究,知识图谱 数据概述: 该数据集包含了维基百科上关于计算机科学领域的文章数据,旨在为计算机科学领域的研究和应用提供支持。主要特征如下:... -
BERT语义匹配索赔数据集Sim-BERTClaimDataset-hhhurenyuan
BERT语义匹配索赔数据集Sim-BERTClaimDataset-hhhurenyuan 数据来源:互联网公开数据 标签:自然语言处理,文本匹配,数据集,机器学习,语义分析,索赔处理,信息检索,人工智能 数据概述:该数据集包含来自多个来源的索赔文本数据,记录了索赔文本及其相似性匹配对,适用于语义匹配和索赔处理任务。主要特征如下:... -
法律领域摘要数据集-valleyy
法律领域摘要数据集-valleyy 数据来源:互联网公开数据 标签:法律,数据集,文本摘要,自然语言处理,机器学习,法律文书,信息检索,人工智能 数据概述: 该数据集包含了来自法律领域的文本数据,主要用于文本摘要任务。主要特征如下: 时间跨度: 数据记录的时间范围不限,涵盖了不同时期的法律文书。 地理范围:... -
文本嵌入向量处理数据集-mrwynx
文本嵌入向量处理数据集-mrwynx 数据来源:互联网公开数据 标签:自然语言处理,文本分析,嵌入向量,数据集,机器学习,语义分析,信息检索,向量空间 数据概述: 该数据集包含了经过处理的文本嵌入向量,旨在用于各种自然语言处理任务。主要特征如下: 时间跨度:数据记录的时间跨度不限,取决于原始文本数据的时间范围。... -
社交媒体虚假新闻检测数据集SocialMediaFakeNewsDetectionDataset-pornimaveer
社交媒体虚假新闻检测数据集SocialMediaFakeNewsDetectionDataset-pornimaveer 数据来源:互联网公开数据 标签:社交媒体,虚假新闻,NLP,文本分类,机器学习,自然语言处理,信息检索,谣言检测 数据概述: 该数据集包含来自社交媒体平台的文本数据,用于虚假新闻的检测与分析。主要特征如下:... -
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja
泰卢固语维基百科数据数据集TeluguWikipediaDataDataset-asrsaiteja 数据来源:互联网公开数据 标签:维基百科,泰卢固语,文本分析,自然语言处理,数据集,语言学,信息检索,文本挖掘 数据概述: 该数据集包含来自泰卢固语维基百科的文章数据,记录了泰卢固语维基百科中所有文章的详细信息。主要特征如下:... -
印度新闻头条数据集IndiaNewsHeadlineDataset-srsujon
印度新闻头条数据集IndiaNewsHeadlineDataset-srsujon 数据来源:互联网公开数据 标签:新闻头条,数据集,自然语言处理,文本分析,情感分析,机器学习,信息检索,媒体研究 数据概述:该数据集包含来自印度主要新闻媒体的新闻头条数据,记录了不同时间段的新闻标题。主要特征如下: 时间跨度:数据记录的时间范围从2013年到2022年。... -
arXiv论文数据集arXivDataset-abhishekydav
arXiv论文数据集arXivDataset-abhishekydav 数据来源:互联网公开数据 标签:arXiv, 论文数据, 机器学习, 数据挖掘, 学术研究, 自然语言处理, 科技文献, 信息检索 数据概述:该数据集包含来自arXiv的学术论文数据,记录了大量科学和技术领域的研究论文信息。主要特征如下:... -
俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell
俄罗斯新闻文本数据集Lenta-FontankaDataset-hosstell 数据来源:互联网公开数据 标签:新闻文本,自然语言处理,文本分析,情感分析,俄语,数据集,文本分类,信息检索 数据概述: 该数据集包含了来自Lenta.ru和Fontanka.ru两个俄罗斯新闻网站的文本数据,记录了新闻文章的详细信息。主要特征如下:... -
PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick
PDF文档内容提取与分析数据集PDFDataContentExtractionandAnalysisDataset-straathofrick 数据来源:互联网公开数据 标签:PDF文档,文本提取,数据挖掘,自然语言处理,信息检索,文档分析,机器学习,数据集 数据概述:... -
网页抓取数据集CrawlData-fdfyaytkt
网页抓取数据集CrawlData-fdfyaytkt 数据来源:互联网公开数据 标签:网页抓取,数据集,文本分析,自然语言处理,网络数据,信息检索,数据挖掘,网络爬虫 数据概述: 该数据集包含了从互联网上抓取到的网页内容数据,涵盖了各种主题和来源。主要特征如下: 时间跨度: 数据记录的时间范围不定,取决于网页抓取的具体时间。 地理范围:... -
最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary
最终数据问答数据集FinalDataQuestionAnswerDataset-tasneemalbokary 数据来源:互联网公开数据 标签:问答系统,数据集,自然语言处理,机器学习,文本理解,信息检索,人工智能,数据挖掘 数据概述: 该数据集包含来自问答系统相关研究的数据,记录了问答系统的训练和评估数据。主要特征如下:... -
Naver博客文章搜索结果数据集NaverBlogSearchResultsDataset-wysohn2
Naver博客文章搜索结果数据集NaverBlogSearchResultsDataset-wysohn2 数据来源:互联网公开数据 标签:博客,搜索,数据集,自然语言处理,文本分析,韩国,社交媒体,信息检索 数据概述: 该数据集包含来自Naver博客的搜索结果数据,记录了用户在Naver博客平台上进行的搜索查询及其相关的文章信息。主要特征如下:... -
人物维基百科传记文本数据集PeopleWikipediaBiographyTextDataset-jainprashant07
人物维基百科传记文本数据集PeopleWikipediaBiographyTextDataset-jainprashant07 数据来源:互联网公开数据 标签:人物传记, 文本数据, 维基百科, 自然语言处理, 文本分析, 传记信息, 知识图谱, 信息检索 数据概述:... -
垃圾文本识别数据集RubbishTextDataset-sokoface
垃圾文本识别数据集RubbishTextDataset-sokoface 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,垃圾信息过滤,机器学习,文本分类,信息检索,数据挖掘 数据概述: 该数据集包含来自互联网的垃圾文本数据,记录了各种形式的垃圾信息,如广告、诈骗、低俗内容等。主要特征如下:... -
向量化文本处理数据集VectorisedTextDataset-rhianarmstrong
向量化文本处理数据集VectorisedTextDataset-rhianarmstrong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本分析,向量化,深度学习,信息检索 数据概述: 该数据集包含来自互联网的文本数据,经过向量化处理,适用于自然语言处理和机器学习任务。主要特征如下:... -
垃圾邮件与正常邮件数据集CombinedSpamandHamEmailDataset-mlane43210
垃圾邮件与正常邮件数据集CombinedSpamandHamEmailDataset-mlane43210 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,自然语言处理,文本分析,机器学习,信息检索,电子邮件 数据概述: 该数据集整合了垃圾邮件和正常邮件的文本内容,用于邮件分类、垃圾邮件检测等任务。主要特征如下:... -
维基百科摘要数据集Wiki-SumDataset-sandeep16064
维基百科摘要数据集Wiki-SumDataset-sandeep16064 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,机器学习,信息检索,文本分析,知识图谱,语言模型 数据概述: 该数据集包含来自维基百科的文本及对应的摘要数据,记录了维基百科条目的详细内容和自动生成的摘要信息。主要特征如下:... -
虚假新闻检测训练数据集FakeNewsDetectionTrainingDataset-shyamgsundhar
虚假新闻检测训练数据集FakeNewsDetectionTrainingDataset-shyamgsundhar 数据来源:互联网公开数据 标签:虚假新闻,数据集,文本分析,自然语言处理,机器学习,信息检索,新闻报道,舆情分析 数据概述: 该数据集包含了大量用于虚假新闻检测的文本数据,旨在帮助研究人员和开发者构建和评估虚假新闻检测模型。主要特征如下:... -
文本预处理语料库TextPreprocessingCorpus-dinhnhattruong
文本预处理语料库TextPreprocessingCorpus-dinhnhattruong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本挖掘,数据清洗,语言学,信息检索 数据概述:该数据集包含了来自互联网和公开出版物的文本数据,适用于文本预处理、自然语言处理等任务。主要特征如下:...