-
新闻组文本分类数据集20NewsgroupsDataset-aniket13r
新闻组文本分类数据集20NewsgroupsDataset-aniket13r 数据来源:互联网公开数据 标签:文本分类,自然语言处理,数据集,机器学习,新闻,文本分析,主题建模,信息检索 数据概述: 该数据集包含了大约20,000篇新闻组文档,涵盖了20个不同的新闻组主题。主要特征如下: 时间跨度:数据收集的时间范围大约在1990年代初期。... -
检索公共测试数据集-nhutchung
检索公共测试数据集-nhutchung 数据来源:互联网公开数据 标签:信息检索,数据集,文本分析,机器学习,自然语言处理,搜索,评估,测试 数据概述: 该数据集包含用于信息检索任务的公开测试数据,记录了检索系统性能的评估指标。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于具体数据集的发布时间。... -
文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai
文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai 数据来源:互联网公开数据 标签:文本处理,TF-IDF,数据集,自然语言处理,特征提取,机器学习,信息检索,文本分析 数据概述: 该数据集专注于文本编码与TF-IDF(词频-逆文档频率)权重计算,记录了文本数据经过处理后的特征向量。主要特征如下:... -
情感分析比赛数据集IsemevalDataset-adityaraghuvanshi999
情感分析比赛数据集IsemevalDataset-adityaraghuvanshi999 数据来源:互联网公开数据 标签:情感分析,数据集,自然语言处理,文本挖掘,机器学习,社交媒体,学术研究,信息检索 数据概述:该数据集来自情感分析比赛,主要记录了社交媒体上的文本数据及其对应的情感标签,适用于情感分析,自然语言处理等任务。主要特征如下:... -
互联网新闻摘要数据集HSXLNETSummaryDataset-gayatriilan
互联网新闻摘要数据集HSXLNETSummaryDataset-gayatriilan 数据来源:互联网公开数据 标签:新闻摘要,数据集,自然语言处理,文本分析,机器学习,信息检索,媒体研究,互联网新闻 数据概述: 该数据集包含来自互联网新闻网站的新闻文章及其对应的摘要,适用于新闻摘要生成,文本摘要技术研究等任务。主要特征如下:... -
互联网档案数据下载量数据集InternetArchiveDatasetDownloadVolumeDataset-schooljh
互联网档案数据下载量数据集InternetArchiveDatasetDownloadVolumeDataset-schooljh 数据来源:互联网公开数据 标签:互联网档案,下载量,数据集,数据分析,信息检索,数字图书馆,开放数据,学术研究 数据概述: 该数据集包含来自互联网档案(Internet... -
法律文本预处理数据集PreprocessingLegalDataDataset-philanpersonal
法律文本预处理数据集PreprocessingLegalDataDataset-philanpersonal 数据来源:互联网公开数据 标签:法律,文本预处理,数据集,自然语言处理,法律科技,机器学习,文本分析,信息检索 数据概述: 该数据集包含经过预处理的法律文本数据,主要用于自然语言处理和机器学习任务。主要特征如下:... -
索赔检测数据集ClaimDetectionDataset-shankhad
索赔检测数据集ClaimDetectionDataset-shankhad 数据来源:互联网公开数据 标签:索赔检测,数据集,自然语言处理,机器学习,文本分析,信息检索,法律研究,数据分析 数据概述: 该数据集包含来自多个来源的索赔信息,记录了索赔文本及其真假标签。主要特征如下: 时间跨度: 数据记录的时间范围从2010年到2020年。 地理范围:... -
雅虎新闻分类数据集YahooNewsModifiedDataset-rupeshsahoo123
雅虎新闻分类数据集YahooNewsModifiedDataset-rupeshsahoo123 数据来源:互联网公开数据 标签:新闻分类,文本分析,自然语言处理,机器学习,数据集,信息检索,文本挖掘,人工智能 数据概述: 该数据集包含来自雅虎新闻平台修改后的新闻文章数据,记录了新闻内容及其分类标签。主要特征如下:... -
对话摘要数据集SAMSUM-jainikkhil
对话摘要数据集SAMSUM-jainikkhil 数据来源:互联网公开数据 标签:对话摘要,文本摘要,自然语言处理,数据集,机器学习,语言模型,文本分析,信息检索 数据概述:该数据集包含来自社交媒体平台的对话摘要数据,记录了用户之间的对话及其对应的摘要。主要特征如下: 时间跨度:数据记录的时间范围未知。... -
维基百科条目提取数据集Wiki-ExtractsDataset-davandenakker
维基百科条目提取数据集Wiki-ExtractsDataset-davandenakker 数据来源:互联网公开数据 标签:维基百科,文本数据,数据集,自然语言处理,机器学习,信息检索,知识图谱,数据挖掘 数据概述: 该数据集包含从维基百科提取的条目数据,记录了维基百科中各类主题的文本信息。主要特征如下:... -
词云生成与分析数据集WordCloudGenerationandAnalysisDataset-omkarm0542
词云生成与分析数据集WordCloudGenerationandAnalysisDataset-omkarm0542 数据来源:互联网公开数据 标签:词云,文本分析,数据集,数据可视化,自然语言处理,关键词提取,频率分析,信息检索 数据概述: 该数据集包含用于词云生成和分析的文本数据,记录了不同来源的文本内容和对应的词频信息。主要特征如下: 时间跨度:... -
网页抓取数据提取数据集WebScrapingDataExtractionDataset-muhammadusman996
网页抓取数据提取数据集WebScrapingDataExtractionDataset-muhammadusman996 数据来源:互联网公开数据 标签:网页抓取,数据提取,数据集,网络爬虫,数据分析,信息检索,互联网研究,公开数据 数据概述: 该数据集通过网页抓取技术从多个互联网网站提取信息,记录了各类网页内容的数据。主要特征如下:... -
越南语停用词数据集VLSPStopwordsVietnameseDataset-phttrnnguyngia
越南语停用词数据集VLSPStopwordsVietnameseDataset-phttrnnguyngia 数据来源:互联网公开数据 标签:自然语言处理,文本分析,停用词,越南语,数据集,语言学,文本挖掘,信息检索 数据概述: 该数据集包含了越南语的停用词列表,旨在帮助文本处理和自然语言处理任务。主要特征如下:... -
计算机科学国际会议论文标题与摘要数据集-ICIST-2011-2013-2019-milanzdravkovic
计算机科学国际会议论文标题与摘要数据集-ICIST-2011-2013-2019-milanzdravkovic 数据来源:互联网公开数据 标签:计算机科学,论文,摘要,会议,文本挖掘,自然语言处理,学术研究,信息检索 数据概述: 本数据集收录了2011年至2019年间(2012年除外)国际信息社会与技术大会(ICIST, International... -
智能问答聊天机器人用户交互与知识检索数据集-sadmansakibmahi
智能问答聊天机器人用户交互与知识检索数据集-sadmansakibmahi 数据来源:互联网公开数据 标签:聊天机器人,自然语言处理,问答系统,知识库,信息检索,文本处理,用户交互,Wikipedia,数据分析 数据概述:... -
StackOverflow开发者问答数据分析与标签分类数据集
StackOverflow开发者问答数据分析与标签分类数据集 数据来源:互联网公开数据 标签:Stack Overflow, 开发者问答, 编程, 技术, 标签, 数据分析, 自然语言处理, 信息检索 数据概述: 本数据集包含了从Stack Overflow网站抓取的大量问题数据,数据内容涵盖了开发者在Stack... -
亚马逊客户评论数据集
亚马逊客户评论数据集 数据来源:互联网公开数据 标签:电商平台,用户评论,情感分析,自然语言处理,信息检索,机器学习,产品体验,地域差异,促销意图 数据概述:... -
媒体偏见识别基准数据集
媒体偏见识别基准数据集 数据来源:互联网公开数据 标签:媒体偏见,基准数据集,自然语言处理,机器学习,文本分析,信息检索,偏见检测,多任务学习 数据概述: 本数据集是全球首个用于媒体偏见识别的统一基准数据集集合(MBIB - Media Bias Identification... -
自然问答数据集
自然问答数据集 数据来源:互联网公开数据 标签:自然问答,问答系统,自然语言处理,机器学习,数据预处理,问答生成,信息检索 数据概述: 本数据集由Google AI...