-
维基百科法语数据集WikipediaFrenchDataset-manueldesiretaira
维基百科法语数据集WikipediaFrenchDataset-manueldesiretaira 数据来源:互联网公开数据 标签:维基百科,法语,数据集,自然语言处理,文本分析,语言学,机器学习,信息检索 数据概述: 该数据集包含来自维基百科的法语语言内容,记录了多个领域的百科全书条目。主要特征如下:... -
新闻分类数据集NewsCategoryDataset-aishwaryamathala
新闻分类数据集NewsCategoryDataset-aishwaryamathala 数据来源:互联网公开数据 标签:新闻分类,数据集,机器学习,自然语言处理,文本分析,信息检索,媒体研究,文本挖掘 数据概述:该数据集包含来自多个新闻来源的新闻文章,记录了不同类别的新闻内容。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。... -
假新闻识别数据集FNC-1-FakeNewsChallenge-hnganhtrn
假新闻识别数据集FNC-1-FakeNewsChallenge-hnganhtrn 数据来源:互联网公开数据 标签:假新闻,新闻,文本分析,自然语言处理,机器学习,情感分析,信息检索,文本分类 数据概述: 该数据集来自假新闻挑战赛(Fake News Challenge,FNC-1),旨在促进假新闻的自动检测和识别。主要特征如下:... -
词性标注英文语料库数据集TaggedWordsDataset-ramakrushnamohapatra
词性标注英文语料库数据集TaggedWordsDataset-ramakrushnamohapatra 数据来源:互联网公开数据 标签:词性标注,数据集,自然语言处理,机器学习,语言学,文本分析,学术研究,信息检索 数据概述:该数据集包含来自Penn Treebank的词性标注数据,记录了英文文本中每个单词的词性和上下文信息。主要特征如下:... -
新冠疫情问答数据集CovidSQUAD-lachonman2
新冠疫情问答数据集CovidSQUAD-lachonman2 数据来源:互联网公开数据 标签:新冠疫情,问答数据,自然语言处理,信息检索,机器学习,健康科学,公众健康,数据集 数据概述:该数据集包含来自多个来源的新冠疫情相关问答数据,记录了与新冠疫情相关的常见问题及其详细解答。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。... -
自然语言处理与开放域问答数据集NLPOpen-DomainQuestionAnsweringDataset-zepedaerik
自然语言处理与开放域问答数据集NLPOpen-DomainQuestionAnsweringDataset-zepedaerik 数据来源:互联网公开数据 标签:自然语言处理,开放域问答,数据集,文本理解,机器学习,信息检索,人工智能,语言模型 数据概述: 该数据集包含来自开放域问答任务的数据,记录了用户提出的问题及对应的答案。主要特征如下:... -
电影推荐系统数据集MovieRecommendationSystemDataset-hemangbairwa
电影推荐系统数据集MovieRecommendationSystemDataset-hemangbairwa 数据来源:互联网公开数据 标签:电影推荐,数据集,用户行为,机器学习,推荐系统,数据挖掘,商业智能,信息检索 数据概述: 该数据集包含来自在线电影推荐平台的数据,记录了用户对电影的评价和互动行为。主要特征如下:... -
邮件分类数据集EmailCategoriesDataset-tobniislam
邮件分类数据集EmailCategoriesDataset-tobniislam 数据来源:互联网公开数据 标签:邮件分类,文本分析,自然语言处理,数据集,机器学习,情感分析,文本挖掘,信息检索 数据概述: 该数据集包含来自不同来源的电子邮件数据,旨在用于邮件分类和文本分析任务。主要特征如下: 时间跨度:数据记录的时间范围跨度不明确,取决于具体来源。... -
新闻分类数据集AgNewsClassificationDataset-jatinsareen
新闻分类数据集AgNewsClassificationDataset-jatinsareen 数据来源:互联网公开数据 标签:新闻分类,数据集,自然语言处理,文本分析,机器学习,深度学习,文本挖掘,信息检索 数据概述:该数据集包含来自Ag News的数据,记录了各类新闻文章的标题和内容,适用于新闻分类和文本分析任务。主要特征如下:... -
英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608
英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608 数据来源:互联网公开数据 标签:新闻,文本,数据集,自然语言处理,机器学习,文本分类,信息检索,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文章文本,涵盖多个新闻类别。主要特征如下:... -
样本索引数据集SampleIndexDataset-edmundng200
样本索引数据集SampleIndexDataset-edmundng200 数据来源:互联网公开数据 标签:索引,数据集,文本分析,自然语言处理,信息检索,机器学习,数据挖掘,样本 数据概述: 该数据集包含样本索引数据,记录了文本样本与索引之间的对应关系。主要特征如下: 时间跨度:数据记录的时间范围不限,取决于样本数据的更新频率。... -
美国专利商标局专利词汇数据集USPTOWordsDataset-durrivedfunktor
美国专利商标局专利词汇数据集USPTOWordsDataset-durrivedfunktor 数据来源:互联网公开数据 标签:专利,词汇,数据集,文本分析,自然语言处理,知识产权,机器学习,信息检索 数据概述: 该数据集包含来自美国专利商标局(USPTO)的专利文本数据,记录了专利文件中的关键词汇和术语。主要特征如下:... -
歧义数据分析数据集AmbiguousDataAnalysisDataset-aryatrivedi
歧义数据分析数据集AmbiguousDataAnalysisDataset-aryatrivedi 数据来源:互联网公开数据 标签:数据分析,歧义数据,文本挖掘,自然语言处理,数据集,信息检索,机器学习,语义分析 数据概述: 该数据集包含用于研究和分析歧义数据的数据,旨在探索和处理文本数据中存在的歧义性。主要特征如下:... -
国家别名对照数据集-andreneedsambulance
国家别名对照数据集-andreneedsambulance 数据来源:互联网公开数据 标签:国家,别名,地理,数据,信息检索,自然语言处理,地图绘制,数据清洗 数据概述: 该数据集包含了国家及其常用别名的数据,旨在提供国家名称和常用替代称呼之间的映射关系。主要特征如下: 时间跨度:数据持续更新,涵盖了不同时期和语境下的国家别名。... -
证据处理流程数据集DataProcessforEvidenceDataset-davidnguyens12
证据处理流程数据集DataProcessforEvidenceDataset-davidnguyens12 数据来源:互联网公开数据 标签:证据处理,数据集,文本分析,自然语言处理,信息检索,司法,机器学习,数据清洗 数据概述: 该数据集包含了用于证据处理流程的数据,记录了从原始证据到分析结果的各个环节。主要特征如下:... -
问题与答案链接数据集QuestionandAnswerURLsDataset-aniken
问题与答案链接数据集QuestionandAnswerURLsDataset-aniken 数据来源:互联网公开数据 标签:问答数据,数据集,网络爬取,文本分析,信息检索,机器学习,自然语言处理,知识图谱 数据概述: 该数据集包含来自互联网的问答数据,记录了各种问题及其对应的答案链接。主要特征如下: 时间跨度:数据记录的时间范围从近年到当前。... -
电影问答与对话系统数据集RAGMovieContextDataset-vantanle71
电影问答与对话系统数据集RAGMovieContextDataset-vantanle71 数据来源:互联网公开数据 标签:电影,问答系统,数据集,自然语言处理,对话系统,信息检索,人工智能,机器学习 数据概述: 该数据集包含来自电影领域的对话和问答数据,记录了电影相关信息和用户提问的回答。主要特征如下:... -
英-马尔地语双语翻译数据集-mayakaripel
英-马尔地语双语翻译数据集-mayakaripel 数据来源:互联网公开数据 标签:英-马尔地语,双语翻译,机器翻译,NLP,语言学习,数据集,信息检索,情感分析,知识转移 数据概述: 本数据集包含成对的英-马尔地语翻译句子,为机器翻译和其他跨语言自然语言处理(NLP)任务提供了宝贵的资源。数据集中的每一对句子都是彼此的翻译,适用于开发和评估英-... -
国际法律信息检索竞赛COLIEE2024图卷积网络数据集COLIEE2024GCNDataset-nguynkhnhhuyn
国际法律信息检索竞赛COLIEE2024图卷积网络数据集COLIEE2024GCNDataset-nguynkhnhhuyn 数据来源:互联网公开数据 标签:法律文本,信息检索,图卷积网络,数据集,自然语言处理,机器学习,法律科技,文本分析 数据概述: 该数据集来源于国际法律信息检索竞赛(COLIEE... -
PDF文档摘要提取数据集DrivePDFDataset-atif10
PDF文档摘要提取数据集DrivePDFDataset-atif10 数据来源:互联网公开数据 标签:PDF文档,文本摘要,数据集,自然语言处理,机器学习,信息检索,文档分析,NLP 数据概述: 该数据集包含来自Google Drive的PDF文档及其对应的摘要文本。主要特征如下: 时间跨度: 数据记录的时间跨度不明确,取决于文档的创建和上传时间。...