-
电子邮件垃圾邮件检测数据集-salonimourya
电子邮件垃圾邮件检测数据集-salonimourya 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件,数据集,文本分类,自然语言处理,机器学习,信息检索,数据挖掘 数据概述: 该数据集包含电子邮件数据,用于垃圾邮件检测。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了电子邮件产生的历史数据。... -
元数据管理与知识图谱构建数据集MetzooPR2Dataset-eltongas2018
元数据管理与知识图谱构建数据集MetzooPR2Dataset-eltongas2018 数据来源:互联网公开数据 标签:数据管理,知识图谱,元数据,数据集,信息检索,机器学习,语义分析,数据处理 数据概述: 该数据集由Metzoo项目提供,专注于元数据管理和知识图谱构建任务。主要特征如下: 时间跨度:数据记录的时间范围从2018年到2020年。... -
有限波斯语信息检索数据集LimitedPersianInformationRetrievalDataset-amirali10281
有限波斯语信息检索数据集LimitedPersianInformationRetrievalDataset-amirali10281 数据来源:互联网公开数据 标签:信息检索,波斯语,数据集,自然语言处理,机器学习,文本分类,多语言处理,语言技术 数据概述:... -
文档过滤与分类数据集FilteredDocumentsDataset-pragunsrivastava
文档过滤与分类数据集FilteredDocumentsDataset-pragunsrivastava 数据来源:互联网公开数据 标签:文档处理,数据集,文本分类,自然语言处理,机器学习,信息检索,文本分析,数据挖掘 数据概述: 该数据集包含经过过滤和分类的文档数据,记录了各类文档的文本内容和分类标签。主要特征如下: 时间跨度:... -
信息检索查询数据集RetrievalQueriesDataset-gsaichaitanya
信息检索查询数据集RetrievalQueriesDataset-gsaichaitanya 数据来源:互联网公开数据 标签:信息检索,查询分析,数据集,搜索引擎,自然语言处理,数据挖掘,人工智能,机器学习 数据概述: 该数据集包含了来自多个搜索引擎和在线信息检索系统的用户查询数据,记录了用户在搜索过程中的查询语句及相关信息。主要特征如下:... -
虚假新闻识别数据集RealFakeNewsDataset-abdelrhamanfakhry
虚假新闻识别数据集RealFakeNewsDataset-abdelrhamanfakhry 数据来源:互联网公开数据 标签:新闻,虚假信息,数据集,文本分析,自然语言处理,机器学习,舆情分析,信息检索 数据概述: 该数据集包含来自不同来源的新闻文章,旨在用于虚假新闻的检测和识别研究。主要特征如下:... -
数据2015至2023年卫报新闻链接数据集TheGuardianNewsLinksfrom2015to2023Dataset-kiet21042003
2015至2023年卫报新闻链接数据集TheGuardianNewsLinksfrom2015to2023Dataset-kiet21042003 数据来源:互联网公开数据 标签:新闻媒体,数据集,时间序列,文本分析,机器学习,新闻研究,数据挖掘,信息检索 数据概述:... -
越南维基百科抄袭检测数据集VietnameseWikipediaPlagiarismDetectionDataset-dungg1810
越南维基百科抄袭检测数据集VietnameseWikipediaPlagiarismDetectionDataset-dungg1810 数据来源:互联网公开数据 标签:数据集,抄袭检测,文本分析,自然语言处理,机器学习,学术诚信,信息检索,越南语 数据概述: 该数据集包含来自越南维基百科的文本数据,记录了用于抄袭检测的文本样本。主要特征如下:... -
麻省理工学院图书馆藏书信息数据集MITLibraryCollectionDataset-shtrausslearning
麻省理工学院图书馆藏书信息数据集MITLibraryCollectionDataset-shtrausslearning 数据来源:互联网公开数据 标签:图书馆,藏书,数据集,文献计量学,学术研究,信息检索,知识管理,数据分析 数据概述:该数据集包含来自麻省理工学院(MIT)图书馆的藏书信息,记录了MIT图书馆馆藏的详细信息。主要特征如下:... -
谷歌图书搜索结果数据集GoogleBooksDataResponseDataset-navyachallagulla
谷歌图书搜索结果数据集GoogleBooksDataResponseDataset-navyachallagulla 数据来源:互联网公开数据 标签:图书,搜索,数据集,自然语言处理,文本分析,信息检索,机器学习,学术研究 数据概述: 该数据集包含来自谷歌图书搜索的响应数据,记录了用户在谷歌图书上进行搜索后得到的图书信息。主要特征如下:... -
谷歌搜索信息数据集GoogleSearchInformationDataset-mugentk
谷歌搜索信息数据集GoogleSearchInformationDataset-mugentk 数据来源:互联网公开数据 标签:搜索引擎,搜索行为,数据集,自然语言处理,用户行为分析,数据挖掘,信息检索,文本分析 数据概述: 该数据集包含来自谷歌搜索的公开信息,记录了用户的搜索查询,搜索结果,以及相关的用户交互行为。主要特征如下:... -
新冠疫情相关文章数据集COVID-19RelatedArticlesDataset-parkyoona
新冠疫情相关文章数据集COVID-19RelatedArticlesDataset-parkyoona 数据来源:互联网公开数据 标签:公共卫生,新冠疫情,数据集,文本分析,自然语言处理,疾病传播,信息检索,医学研究 数据概述: 该数据集包含来自互联网公开渠道的新冠疫情相关文章数据,记录了关于新冠疫情的各类报道,研究论文和新闻资讯。主要特征如下:... -
学术分析数据集AcademicAnalysisDataset-satyaprakashshukl
学术分析数据集AcademicAnalysisDataset-satyaprakashshukl 数据来源:互联网公开数据 标签:学术研究,数据集,文本分析,机器学习,教育技术,信息检索,数据分析,学术资源 数据概述: 该数据集包含来自学术机构的研究数据,记录了学术领域的文献,论文和研究成果的详细信息。主要特征如下: 时间跨度:... -
文本摘要数据集TextSummarizationDataset-dngnguynanh12
文本摘要数据集TextSummarizationDataset-dngnguynanh12 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,机器学习,深度学习,NLP,文本分析,信息检索 数据概述: 该数据集包含大量文本及其对应的摘要,旨在用于训练和评估文本摘要模型。主要特征如下:... -
LLM提示词恢复数据集LLMDataforPromptRecoveryDataset-ehsaasdhand
LLM提示词恢复数据集LLMDataforPromptRecoveryDataset-ehsaasdhand 数据来源:互联网公开数据 标签:大型语言模型,提示词,数据集,自然语言处理,信息检索,机器学习,文本分析,模型训练 数据概述: 该数据集包含了用于研究和开发大型语言模型(LLM)提示词恢复技术的数据。主要特征如下:... -
电影列表数据集MoviesListDataset-shreyanslakade
电影列表数据集MoviesListDataset-shreyanslakade 数据来源:互联网公开数据 标签:电影,数据集,娱乐产业,数据分析,多媒体,信息检索,文化研究,机器学习 数据概述: 该数据集包含来自互联网的电影列表数据,记录了各类电影的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。... -
拉脱维亚语问答数据集LatvianQuestion-AnswerDataset-valdispterisotais
拉脱维亚语问答数据集LatvianQuestion-AnswerDataset-valdispterisotais 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,拉脱维亚语,文本分析,机器学习,语言学,信息检索 数据概述: 该数据集包含了拉脱维亚语的问答对,旨在促进拉脱维亚语自然语言处理领域的研究和应用。主要特征如下: 时间跨度:... -
arXiv计算机科学论文多标签分类数据集-约20万篇-v1
arXiv计算机科学论文多标签分类数据集-约20万篇-v1 数据来源:互联网公开数据 标签:arXiv,计算机科学,论文,多标签分类,文本分类,自然语言处理,机器学习,主题建模,信息检索 数据概述:... -
网页链接失效检测数据集-abdelazizfaramawy
网页链接失效检测数据集-abdelazizfaramawy 数据来源:互联网公开数据 标签:网页链接,失效检测,数据集,网络爬虫,数据清洗,网络安全,信息检索,数据分析 数据概述: 该数据集包含了从互联网上抓取的网页链接,并记录了它们的有效性状态。主要特征如下: 时间跨度: 数据记录的时间跨度不固定,取决于网页抓取的时间。 地理范围:... -
主题分类数据集TopicsClassificationDataset-luisfredgs
主题分类数据集TopicsClassificationDataset-luisfredgs 数据来源:互联网公开数据 标签:主题分类,数据集,文本分析,机器学习,自然语言处理,信息检索,分类算法,数据分析 数据概述:该数据集包含来自多个来源的文本数据,记录了不同主题的文档或文本片段。主要特征如下: 时间跨度:数据记录的时间范围从近年到现代。...