-
文章元数据数据集ArticleMeta-dataDataset-gautamsandeep
文章元数据数据集ArticleMeta-dataDataset-gautamsandeep 数据来源:互联网公开数据 标签:元数据,数据集,信息检索,文本分析,自然语言处理,学术研究,知识发现,数据挖掘 数据概述:该数据集包含来自学术文章的元数据,记录了文章的各种信息,如标题,摘要,作者,关键词,出版日期,期刊信息等。主要特征如下:... -
萨斯特拉大学Sastraedu网页爬取邻接表数据集-ashiktcy
萨斯特拉大学Sastraedu网页爬取邻接表数据集-ashiktcy 数据来源:互联网公开数据 标签:网页爬取,邻接表,数据集,网络分析,图数据,信息检索,教育,大学 数据概述: 该数据集包含了从萨斯特拉大学(Sastraedu)官方网站爬取的网页邻接表信息。主要特征如下: 时间跨度:数据爬取时间为[具体爬取时间,例如2024年5月]。... -
自然语言处理与相似度计算训练数据集ParmexTrainSpaCySimilarityDataset-agmeque
自然语言处理与相似度计算训练数据集ParmexTrainSpaCySimilarityDataset-agmeque 数据来源:互联网公开数据 标签:自然语言处理,相似度计算,数据集,文本分析,机器学习,深度学习,语义分析,信息检索 数据概述: 该数据集包含用于训练自然语言处理模型的数据,专注于文本相似度计算任务。主要特征如下:... -
文档摘要生成数据集DocumentAbstractiveSummarizationGivenQueryDataset-jastorj
文档摘要生成数据集DocumentAbstractiveSummarizationGivenQueryDataset-jastorj 数据来源:互联网公开数据 标签:文档摘要,摘要生成,自然语言处理,机器学习,文本分析,问答系统,数据集,信息检索 数据概述:该数据集包含来自多个来源的文档及其对应的摘要,适用于基于查询的文档摘要生成任务。主要特征如下:... -
自然语言处理生成答案数据集NIRGeneratedAnswersDataset-mrsimple07
自然语言处理生成答案数据集NIRGeneratedAnswersDataset-mrsimple07 数据来源:互联网公开数据 标签:自然语言处理,生成答案,数据集,机器学习,文本分析,人工智能,信息检索,语言模型 数据概述: 该数据集包含由自然语言处理技术生成的答案,适用于对话系统,问答系统等任务。主要特征如下:... -
语义相似度评估数据集LSASimilarityDataset-sagarrathore
语义相似度评估数据集LSASimilarityDataset-sagarrathore 数据来源:互联网公开数据 标签:语义分析,数据集,自然语言处理,文本相似度,机器学习,信息检索,学术研究,文本挖掘 数据概述: 该数据集包含来自多个来源的文本数据,记录了文本对之间的相似度评分,适用于语义相似度评估,文本聚类等任务。主要特征如下:... -
学术论文标识符数据集ArXivID数据集-bartoszmaj
学术论文标识符数据集ArXivID数据集-bartoszmaj 数据来源:互联网公开数据 标签:学术论文,数据集,标识符,机器学习,自然语言处理,文献管理,知识图谱,信息检索 数据概述:该数据集包含来自ArXiv的学术论文标识符数据,记录了学术论文的唯一标识符(ArXiv ID)。主要特征如下: 时间跨度:数据记录的时间范围从1991年到现代。... -
电影推荐系统数据集MoviesRecommenderDataset-mohdfirhat
电影推荐系统数据集MoviesRecommenderDataset-mohdfirhat 数据来源:互联网公开数据 标签:电影推荐,数据集,用户行为,协同过滤,机器学习,数据挖掘,个性化推荐,信息检索 数据概述: 该数据集包含来自电影推荐系统的用户行为数据,记录了用户对电影的评价,评分及交互信息。主要特征如下:... -
文档分类数据集DocClassificationDataset-aryangaikwad
文档分类数据集DocClassificationDataset-aryangaikwad 数据来源:互联网公开数据 标签:文档分类,数据集,自然语言处理,机器学习,文本分析,信息检索,文本分类,人工智能 数据概述: 该数据集包含来自多个来源的文档数据,记录了各类文档的文本内容和类别标签。主要特征如下: 时间跨度:数据记录的时间范围从近年到现代。... -
国际新闻分析数据集NewsCountryDataset-emreasln
国际新闻分析数据集NewsCountryDataset-emreasln 数据来源:互联网公开数据 标签:新闻分析,国际新闻,数据集,文本挖掘,自然语言处理,全球政治,事件检测,信息检索 数据概述:该数据集包含来自全球多个主要新闻网站和媒体平台的国际新闻报道,记录了不同国家和地区的重要新闻事件和动态。主要特征如下:... -
家得宝产品搜索描述数据集HomeDepotProductSearchDescriptionDataset-riteshpatil8998
家得宝产品搜索描述数据集HomeDepotProductSearchDescriptionDataset-riteshpatil8998 数据来源:互联网公开数据 标签:零售业,产品搜索,数据集,文本挖掘,自然语言处理,信息检索,机器学习,电商 数据概述: 该数据集包含了家得宝(Home... -
垃圾邮件与正常邮件数据集Spam-HamEmailDataset-sarthak4u
垃圾邮件与正常邮件数据集Spam-HamEmailDataset-sarthak4u 数据来源:互联网公开数据 标签:垃圾邮件,正常邮件,电子邮件,文本分类,自然语言处理,机器学习,文本分析,信息检索 数据概述: 该数据集包含来自公开邮箱的垃圾邮件(Spam)和正常邮件(Ham)数据,用于训练和评估垃圾邮件检测模型。主要特征如下:... -
BBC新闻数据集BBCNewsDataset-shineucc
BBC新闻数据集BBCNewsDataset-shineucc 数据来源:互联网公开数据 标签:新闻,数据集,文本分析,自然语言处理,机器学习,媒体研究,情感分析,信息检索 数据概述:该数据集包含来自BBC新闻网站的新闻文章数据,记录了不同类别新闻文章的内容。主要特征如下: 时间跨度:数据记录的时间范围从2004年到2005年。... -
新闻文章内容相似度分析矩阵数据集-manishkumar866115
新闻文章内容相似度分析矩阵数据集-manishkumar866115 数据来源:互联网公开数据 标签:新闻,文本分析,相似度,自然语言处理,机器学习,信息检索,文本挖掘,语义分析 数据概述: 该数据集包含新闻文章内容相似度分析矩阵数据,记录了不同新闻文章之间的相似度得分。主要特征如下: 时间跨度:数据记录的时间范围不明确,取决于新闻文章的发布时间。... -
问答数据集涵盖广泛主题的高质量问答内容
标题:问答数据集涵盖广泛主题的高质量问答内容 数据内容:该数据集包含问答对的结构化信息,主要包括以下字段: - question:问题描述,包含3510种不同值 - answer:对应问题的答案,包含3512种不同值 - (未命名字段):3725种不同值,可能是问题类别或其他元数据 数据来源:互联网公开数据... -
俄罗斯新闻文章分类数据集ArticlesClassificationinRussianDataset-anastasiyanoskina
俄罗斯新闻文章分类数据集ArticlesClassificationinRussianDataset-anastasiyanoskina 数据来源:互联网公开数据 标签:新闻分类,数据集,文本分析,机器学习,自然语言处理,信息检索,语言技术,俄语处理 数据概述:... -
印度新闻摘要数据集InshortsHindiDataTest-shivamsourav2002
印度新闻摘要数据集InshortsHindiDataTest-shivamsourav2002 数据来源:互联网公开数据 标签:新闻摘要,自然语言处理,文本分析,印度新闻,数据集,机器翻译,文本分类,信息检索 数据概述: 该数据集包含来自Inshorts平台的印度新闻摘要数据,用于文本摘要,自然语言处理等任务。主要特征如下:... -
预训练标签数据集Pred-trainTagsDataset-ananyaajoshi
预训练标签数据集Pred-trainTagsDataset-ananyaajoshi 数据来源:互联网公开数据 标签:预训练,标签,数据集,自然语言处理,文本分类,信息检索,机器学习,深度学习 数据概述: 该数据集包含了用于预训练的标签数据,旨在支持各种自然语言处理任务,例如文本分类,信息检索等。主要特征如下: 时间跨度:... -
知识竞赛问答数据集Jeopardy-QuestionandAnswerDataset-mattjberry
知识竞赛问答数据集Jeopardy-QuestionandAnswerDataset-mattjberry 数据来源:互联网公开数据 标签:知识竞赛,问答数据,数据集,自然语言处理,文本挖掘,机器学习,教育技术,信息检索 数据概述: 该数据集包含来自知识竞赛节目《Jeopardy!》的问答数据,记录了节目中提出的各类问题及其对应的答案。主要特征如下:... -
跨领域开放域问答数据集COSMOSQADataset-sidop21
跨领域开放域问答数据集COSMOSQADataset-sidop21 数据来源:互联网公开数据 标签:开放域问答,自然语言处理,数据集,机器学习,对话系统,信息检索,文本理解,知识图谱 数据概述: 该数据集包含来自COSMOS项目的开放域问答数据,记录了用户提出的各种问题及其对应的答案。主要特征如下:...