-
多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung
多新闻摘要数据集MultiNewsDataset-nguyenvuthanhtung 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,新闻,机器学习,信息检索,深度学习,语言模型 数据概述: 该数据集包含来自新闻网站的多个新闻报道及其对应的摘要,旨在用于文本摘要任务。主要特征如下:... -
奥利维亚搜索数据集OliviaFinderRepoFinalDataset-danielalonsob
奥利维亚搜索数据集OliviaFinderRepoFinalDataset-danielalonsob 数据来源:互联网公开数据 标签:社交媒体,用户画像,文本分析,情感分析,数据集,数据挖掘,自然语言处理,信息检索 数据概述: 该数据集来源于奥利维亚搜索项目,主要记录了社交媒体平台上用户发布的内容,旨在构建用户画像和进行情感分析。主要特征如下:... -
主动学习信息检索数据集ActiveLearningInformationRetrievalDataset-divyadarapuneni
主动学习信息检索数据集ActiveLearningInformationRetrievalDataset-divyadarapuneni 数据来源:互联网公开数据 标签:主动学习,信息检索,数据集,文本分类,机器学习,自然语言处理,算法评估,学术研究 数据概述: 该数据集包含用于主动学习在信息检索领域中的应用的数据。主要特征如下: 时间跨度:... -
Quora问答平台问题对数据集QuoraQuestionPairsDataset-bhattacharjeeajay12
Quora问答平台问题对数据集QuoraQuestionPairsDataset-bhattacharjeeajay12 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,文本分析,机器学习,语义相似度,文本匹配,信息检索 数据概述: 该数据集包含来自Quora问答平台的问题对数据,记录了用户提交的成对问题及其相似性标签。主要特征如下:... -
新闻主题分类数据集-lysatrf
新闻主题分类数据集-lysatrf 数据来源:互联网公开数据 标签:文本分类,自然语言处理,数据集,新闻,机器学习,主题建模,舆情分析,信息检索 数据概述:该数据集包含来自新闻网站的文章数据,记录了新闻文章的内容及其对应的主题分类。主要特征如下: 时间跨度:数据记录的时间范围不明确,但包含了近期的新闻文章。... -
信息检索研究数据集-khamalking
信息检索研究数据集-khamalking 数据来源:互联网公开数据 标签:信息检索,数据集,文本分析,自然语言处理,机器学习,搜索,语义理解,文本挖掘 数据概述: 该数据集包含用于信息检索领域的研究和评估的文本数据。主要特征如下: 时间跨度:数据记录的时间跨度不定,取决于具体的数据来源,但通常涵盖了近年来公开的文本和文档。... -
多领域语义匹配数据集MSMARCOModifiedDataset-n068968
多领域语义匹配数据集MSMARCOModifiedDataset-n068968 数据来源:互联网公开数据 标签:自然语言处理,语义匹配,数据集,机器学习,信息检索,文本分类,深度学习,数据挖掘 数据概述: 该数据集是对MSMARCO数据集的改进版,包含来自多个领域的语义匹配数据,用于训练和评估文本匹配模型。主要特征如下:... -
布拉斯-数字图书馆数据集Bolsa-DLDataset-luisandresgarcia
布拉斯-数字图书馆数据集Bolsa-DLDataset-luisandresgarcia 数据来源:互联网公开数据 标签:数字图书馆,数据集,文本分析,信息检索,机器学习,学术资源,自然语言处理,知识管理 数据概述: 该数据集包含来自布拉斯-数字图书馆(Bolsa-DL)的文本数据,记录了该数字图书馆中的学术文献和书籍信息。主要特征如下:... -
文本分类数据集SISTextClassificationDataset-senylar
文本分类数据集SISTextClassificationDataset-senylar 数据来源:互联网公开数据 标签:文本分类,数据集,自然语言处理,机器学习,文本分析,数据挖掘,信息检索,人工智能 数据概述: 该数据集为SIS项目的一部分,主要包含用于文本分类任务的文本数据。主要特征如下:... -
微软大规模机器阅读理解数据集MSMARCO的多元排序MNR数据-jack1019
微软大规模机器阅读理解数据集MSMARCO的多元排序MNR数据-jack1019 数据来源:互联网公开数据 标签:机器阅读理解,自然语言处理,信息检索,数据集,排序学习,深度学习,问答系统,文本匹配 数据概述: 该数据集包含来自微软大规模机器阅读理解(MS MARCO)数据集的多元排序(MNR)数据,专门用于信息检索和问答系统的研究。主要特征如下:... -
法律文档检索数据集BKALegalDocumentRetrievalCorpus-ictunivers
法律文档检索数据集BKALegalDocumentRetrievalCorpus-ictunivers 数据来源:互联网公开数据 标签:法律,文档检索,数据集,信息检索,自然语言处理,文本分类,法律科技,机器学习 数据概述: 该数据集包含来自德国联邦刑事警察局(BKA)的法律文档检索数据,记录了法律文档的检索和分类信息。主要特征如下:... -
二战意大利潜艇相关文本信息数据集WorldWarIIItalianSubmarineTextInformation-winter666
二战意大利潜艇相关文本信息数据集WorldWarIIItalianSubmarineTextInformation-winter666 数据来源:互联网公开数据 标签:潜艇, 二战, 意大利海军, 军事历史, 文本分析, 信息检索, 历史文献, 军事装备 数据概述:... -
恩桑尼摘要数据集EnsaniAbstractsDataset-amirpourmand
恩桑尼摘要数据集EnsaniAbstractsDataset-amirpourmand 数据来源:互联网公开数据 标签:摘要,数据集,学术研究,文本分析,自然语言处理,机器学习,信息检索,科学文献 数据概述:该数据集包含来自恩桑尼(ENSANI)项目的学术摘要数据,记录了多个学科领域的研究论文摘要。主要特征如下:... -
学术出版物数据集DBLPv13SampleDataset-nikitamineev
学术出版物数据集DBLPv13SampleDataset-nikitamineev 数据来源:互联网公开数据 标签:学术研究,出版物,数据集,引用分析,机器学习,数据挖掘,信息检索,数据科学 数据概述: 该数据集包含来自DBLP计算机科学出版物数据库的样本数据,记录了学术出版物的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。... -
Web搜索与数据挖掘竞赛WSDMCup数据集WebSearchandDataMiningCompetitionDataset-vicks18
Web搜索与数据挖掘竞赛WSDMCup数据集WebSearchandDataMiningCompetitionDataset-vicks18 数据来源:互联网公开数据 标签:数据挖掘,搜索引擎,机器学习,文本分析,信息检索,推荐系统,数据集,算法竞赛 数据概述:该数据集来自Web搜索与数据挖掘竞赛(WSDM... -
数据2019年4月至9月搜索Feed新闻聚合数据集RSSFeedApril-September2019fromSearchFeedIME-davidesantangelo
2019年4月至9月搜索Feed新闻聚合数据集RSSFeedApril-September2019fromSearchFeedIME-davidesantangelo 数据来源:互联网公开数据 标签:新闻聚合,数据集,RSS,文本分析,信息检索,机器学习,媒体研究,网络数据 数据概述:... -
新闻订阅源数据RSSNewsFeedData-kopaldixit
新闻订阅源数据RSSNewsFeedData-kopaldixit 数据来源:互联网公开数据 标签:新闻,RSS,数据集,自然语言处理,文本分析,信息检索,机器学习,新闻聚合 数据概述: 该数据集包含来自RSS新闻订阅源的数据,记录了新闻文章的标题、摘要、正文、发布时间、来源网站等信息。主要特征如下:... -
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:... -
Sber银行问答数据集SberQADataset-theerror
Sber银行问答数据集SberQADataset-theerror 数据来源:互联网公开数据 标签:问答系统,自然语言处理,数据集,机器学习,人工智能,银行服务,客户支持,信息检索 数据概述:该数据集由Sber银行提供,包含了一系列用户与银行客服之间的问答对话,适用于自然语言处理和问答系统的研究。主要特征如下:... -
计算机科学领域论文数据集DBLP-curiousaniruddha
计算机科学领域论文数据集DBLP-curiousaniruddha 数据来源:互联网公开数据 标签:论文,数据集,计算机科学,学术,出版物,信息检索,数据挖掘,自然语言处理 数据概述:该数据集包含来自DBLP(数字图书馆与出版物)的数据,记录了计算机科学领域的学术论文出版信息。主要特征如下:...