-
数学文献标题数据集2000年数学文献标题数据集-felipealbiere
数学文献标题数据集2000年数学文献标题数据集-felipealbiere 数据来源:互联网公开数据 标签:数学文献,数据集,学术研究,标题分析,机器学习,自然语言处理,信息检索,学术资源 数据概述: 该数据集包含来自互联网公开资源的2000年数学文献标题数据,记录了该年度发表的数学论文标题。主要特征如下: 时间跨度:数据记录的时间范围为2000年。... -
中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk
中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk 数据来源:互联网公开数据 标签:文本分析,数据集,聚类算法,自然语言处理,机器学习,文本分类,信息检索,数据挖掘 数据概述: 该数据集由中国人民大学提供,专注于文本数据的聚类分析。主要特征如下: 时间跨度:数据记录的时间范围未明确说明,推测为近年数据。... -
问答对数据集Question-AnswerDataset-shadesh
问答对数据集Question-AnswerDataset-shadesh 数据来源:互联网公开数据 标签:问答,自然语言处理,数据集,文本生成,信息检索,人工智能,机器学习,知识图谱 数据概述: 该数据集包含大量的问答对,记录了问题和相应的答案。主要特征如下: 时间跨度:数据记录的时间跨度不固定,取决于数据来源,涵盖不同时间段。... -
维基百科字母顺序分类数据集WikiAZDataset-fidanmusazade
维基百科字母顺序分类数据集WikiAZDataset-fidanmusazade 数据来源:互联网公开数据 标签:维基百科,数据集,字母分类,文本挖掘,信息检索,自然语言处理,机器学习,知识图谱 数据概述: 该数据集包含来自维基百科的数据,记录了维基百科条目按照字母顺序分类的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从维基百科的创建至今。... -
中文文本摘要评估数据集AACLSumEvalCombinedData-shantanupatankar
中文文本摘要评估数据集AACLSumEvalCombinedData-shantanupatankar 数据来源:互联网公开数据 标签:文本摘要评估,自然语言处理,数据集,机器学习,信息检索,学术研究,语言学,文本分析... -
Quora问答配对训练数据集QuoraQuestionPairTrainingDataset-ankitnarang
Quora问答配对训练数据集QuoraQuestionPairTrainingDataset-ankitnarang 数据来源:互联网公开数据 标签:问答配对,数据集,自然语言处理,文本相似度,机器学习,数据挖掘,信息检索,知识图谱 数据概述: 该数据集包含来自Quora问答平台的配对问题数据,记录了成对的问题及其相似性标签。主要特征如下:... -
垃圾邮件过滤数据集PudhusuSpamHamDataset-gopikavs
垃圾邮件过滤数据集PudhusuSpamHamDataset-gopikavs 数据来源:互联网公开数据 标签:垃圾邮件,邮件过滤,数据集,自然语言处理,文本分类,机器学习,信息检索,垃圾邮件检测 数据概述: 该数据集包含了大量标记为垃圾邮件(spam)和正常邮件(ham)的邮件数据,主要用于垃圾邮件过滤模型的训练和评估。主要特征如下:... -
美国政府数据集标题数据集Data-govDatasetTitlesDataset-travistyler
美国政府数据集标题数据集Data-govDatasetTitlesDataset-travistyler 数据来源:互联网公开数据 标签:政府数据,数据集,开放数据,数据分析,公共服务,数据挖掘,信息检索,文本分析 数据概述: 该数据集包含了来自美国政府开放数据平台Data.gov的各种数据集标题。主要特征如下:... -
电子邮件垃圾邮件过滤数据集Spambase数据集-otaviomserra
电子邮件垃圾邮件过滤数据集Spambase数据集-otaviomserra 数据来源:互联网公开数据 标签:垃圾邮件,电子邮件,文本分类,机器学习,数据集,自然语言处理,信息检索,数据挖掘 数据概述: 该数据集包含来自 UCI 机器学习数据库的电子邮件数据,用于垃圾邮件过滤研究。主要特征如下: 时间跨度:数据记录时间不明确,但可推断为收集于互联网早期。... -
Seneweb网站新闻文章数据集-barabaradiop
Seneweb网站新闻文章数据集-barabaradiop 数据来源:互联网公开数据 标签:新闻文章,数据集,文本分析,自然语言处理,情感分析,舆情分析,新闻媒体,信息检索 数据概述:该数据集包含来自Seneweb网站的新闻文章数据,记录了Seneweb网站发布的各类新闻文章信息。主要特征如下:... -
科研论文数据分析集ArXiv论文数据集2023-hhgttg
科研论文数据分析集ArXiv论文数据集2023-hhgttg 数据来源:互联网公开数据 标签:科研论文,数据集,机器学习,自然语言处理,学术研究,文本分析,知识图谱,信息检索 数据概述: 该数据集包含来自ArXiv的10000篇科研论文数据,记录了论文的主要信息,包括标题,作者,摘要,主题分类,引用次数等。主要特征如下:... -
计算机科学领域论文研究方向数据集DBLP-jakboss
计算机科学领域论文研究方向数据集DBLP-jakboss 数据来源:互联网公开数据 标签:学术研究,计算机科学,论文,数据集,关键词分析,文本挖掘,自然语言处理,信息检索 数据概述:该数据集包含来自DBLP(Digital Bibliography & Library... -
自然语言处理新闻文章数据集NLPNewsArticleDataset-saumyamishrads
自然语言处理新闻文章数据集NLPNewsArticleDataset-saumyamishrads 数据来源:互联网公开数据 标签:自然语言处理,新闻文章,数据集,文本分析,机器学习,信息检索,文本挖掘,新闻学 数据概述:该数据集包含来自多个新闻网站的文章数据,记录了大量的新闻报道信息。主要特征如下:... -
垃圾邮件分类数据集SpamMailsClassificationDataset-pg1007
垃圾邮件分类数据集SpamMailsClassificationDataset-pg1007 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,文本分析,自然语言处理,机器学习,信息检索,文本挖掘 数据概述: 该数据集包含大量的电子邮件数据,用于垃圾邮件的识别和分类。主要特征如下: 时间跨度:数据记录的时间范围未知,但包含不同时期的电子邮件。... -
生物医学问答数据集QNA-Bio-1024-donutkashvi
生物医学问答数据集QNA-Bio-1024-donutkashvi 数据来源:互联网公开数据 标签:生物医学,问答系统,数据集,自然语言处理,机器学习,医疗健康,医学知识,信息检索 数据概述: 该数据集包含来自多个生物医学领域的问答数据,旨在用于构建和评估生物医学问答系统。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。... -
维基百科文章向量文件数据集WikipediaArticlesVectorFileDataset-sachinsk
维基百科文章向量文件数据集WikipediaArticlesVectorFileDataset-sachinsk 数据来源:互联网公开数据 标签:维基百科,文章向量,自然语言处理,数据集,机器学习,文本分析,词嵌入,信息检索 数据概述: 该数据集包含来自维基百科的文章向量数据,记录了维基百科文章的词嵌入向量。主要特征如下: 时间跨度:... -
文本特征提取TF-IDF提交数据集TF-IDFSubmissionDataset-panser
文本特征提取TF-IDF提交数据集TF-IDFSubmissionDataset-panser 数据来源:互联网公开数据 标签:文本分析,TF-IDF,数据集,自然语言处理,机器学习,信息检索,文本挖掘,文本特征 数据概述: 该数据集包含来自公开提交的文本特征提取数据,记录了通过TF-IDF方法提取的文本特征。主要特征如下:... -
垃圾邮件检测语料库数据集SpamAssassinCorpusDataset-shobhab
垃圾邮件检测语料库数据集SpamAssassinCorpusDataset-shobhab 数据来源:互联网公开数据 标签:垃圾邮件,文本分类,自然语言处理,数据集,机器学习,邮件过滤,文本分析,信息检索 数据概述:该数据集包含来自SpamAssassin项目的邮件数据,用于训练和测试垃圾邮件过滤系统。主要特征如下:... -
泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss
泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss 数据来源:互联网公开数据 标签:新闻分类,文本处理,数据集,机器学习,自然语言处理,多语言,信息检索,数据挖掘 数据概述: 该数据集包含来自泰国新闻网站的新闻文章数据,记录了不同类别新闻的分类信息。主要特征如下:... -
多分类电子邮件数据集-amalverma27
多分类电子邮件数据集-amalverma27 数据来源:互联网公开数据 标签:电子邮件,文本分类,垃圾邮件检测,自然语言处理,机器学习,数据集,邮件安全,信息检索 数据概述: 该数据集包含电子邮件数据,旨在用于文本分类和垃圾邮件检测任务。主要特征如下: 时间跨度:数据记录的时间跨度不明确,但包含历史邮件数据。...