数据集 - 海数据

垃圾邮件与非垃圾邮件分类数据集Spam-HamData-liaichimustapha

2025年4月23日

垃圾邮件与非垃圾邮件分类数据集Spam-HamData-liaichimustapha 数据来源：互联网公开数据标签：邮件分类，垃圾邮件，数据集，文本分析，机器学习，自然语言处理，分类算法，网络安全数据概述：该数据集包含来自公开邮件收集项目的数据，记录了电子邮件的分类信息，主要分为垃圾邮件（spam）和非垃圾邮件（ham）。主要特征如下：...

ZIP

虚假-垃圾与真实信息分类统一数据集-saharshml

2025年4月23日

虚假-垃圾与真实信息分类统一数据集-saharshml 数据来源：互联网公开数据标签：虚假信息,垃圾信息,真实信息,文本分类,自然语言处理,机器学习,社交媒体,电子邮件,短信,新闻文章数据概述：...

ZIP

Medium文章阅读时长预测数据集-vineeth1999

2025年4月23日

Medium文章阅读时长预测数据集-vineeth1999 数据来源：互联网公开数据标签：文本分析，阅读时长预测，数据集，自然语言处理，机器学习，用户行为分析，内容推荐，数据挖掘数据概述：该数据集包含了来自Medium平台的文章数据和用户阅读时长信息，用于预测文章的阅读时长。主要特征如下：...

ZIP

论坛用户行为数据集ForumsUserBehaviorDataset-shahdhassan42

2025年4月23日

论坛用户行为数据集ForumsUserBehaviorDataset-shahdhassan42 数据来源：互联网公开数据标签：论坛，用户行为，数据集，社交网络，行为分析，数据挖掘，自然语言处理，社区研究数据概述：该数据集包含来自互联网论坛的用户行为数据，记录了用户在论坛中的互动行为，如发帖，回帖，点赞，关注等。主要特征如下：...

ZIP

自然语言处理数据集NLP数据集-mkmanoj353

2025年4月23日

自然语言处理数据集NLP数据集-mkmanoj353 数据来源：互联网公开数据标签：自然语言处理，数据集，文本分析，机器学习，人工智能，语言模型，文本分类，情感分析数据概述：该数据集包含来自多个来源的自然语言处理数据，记录了大量文本数据以支持各种NLP任务。主要特征如下：时间跨度：数据记录的时间范围从2010年到2023年。...

ZIP

英语学习提示数据集SunbirdEnglishPromptsDataset-mekaneeky

2025年4月23日

英语学习提示数据集SunbirdEnglishPromptsDataset-mekaneeky 数据来源：互联网公开数据标签：英语学习，数据集，语言教育，教学资源，机器学习，自然语言处理，教育技术，学习工具数据概述：该数据集包含来自Sunbird平台的英语学习提示数据，记录了适用于英语学习者的学习提示和练习材料。主要特征如下：...

ZIP

文本分析工具数据集TextAnalysisToolDataset-jaynadkarni

2025年4月23日

文本分析工具数据集TextAnalysisToolDataset-jaynadkarni 数据来源：互联网公开数据标签：文本分析，自然语言处理，数据集，机器学习，情感分析，文本挖掘，语言模型，数据科学数据概述：该数据集包含来自多个公开来源的文本数据，记录了各类文本内容的详细信息。主要特征如下：时间跨度：数据记录的时间范围从2010年至今。...

ZIP

印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3

2025年4月23日

印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3 数据来源：互联网公开数据标签：印尼语，语料库，文本数据，自然语言处理，语言学，词汇分析，文本挖掘，机器学习数据概述：该数据集收录了来自印尼语语料库 Nusantara (Korpus Nusantara)...

ZIP

增强数据集2AugmentedData2Dataset-ahmedmohamed365

2025年4月23日

增强数据集2AugmentedData2Dataset-ahmedmohamed365 数据来源：互联网公开数据标签：数据增强，数据集，机器学习，深度学习，数据预处理，计算机视觉，自然语言处理，人工智能数据概述：该数据集为增强数据集2项目的一部分，主要包含通过数据增强技术生成的数据，适用于机器学习，深度学习等任务。主要特征如下：...

ZIP

中文情感分析数据集ChnSentiCorp-HTL-AllDataset-honyuu

2025年4月23日

中文情感分析数据集ChnSentiCorp-HTL-AllDataset-honyuu 数据来源：互联网公开数据标签：情感分析，自然语言处理，文本分类，中文，数据集，评论，机器学习，情感识别数据概述：该数据集包含来自ChnSentiCorp的中文情感分析数据，涵盖了酒店评论文本。主要特征如下：...

ZIP

推特灾难事件数据集DisasterTwitterData-riturajsingh99

2025年4月23日

推特灾难事件数据集DisasterTwitterData-riturajsingh99 数据来源：互联网公开数据标签：推特，灾难事件，自然语言处理，文本分析，机器学习，社交媒体，舆情分析，危机管理数据概述：该数据集包含来自推特（Twitter）的公开数据，记录了与灾难事件相关的内容。主要特征如下：...

ZIP

印度地址相似度分析数据集-karan510

2025年4月23日

印度地址相似度分析数据集-karan510 数据来源：互联网公开数据标签：地址数据，印度，数据清洗，地理信息，机器学习，文本分析，相似度计算，自然语言处理数据概述：该数据集包含了来自印度地区的地址数据，主要用于地址相似度分析和数据清洗。主要特征如下：时间跨度：数据记录时间跨度不限，主要为历史地址数据。...

ZIP

英国广播公司BBC2017年新闻文章文本数据集-aggle6666

2025年4月23日

英国广播公司BBC2017年新闻文章文本数据集-aggle6666 数据来源：互联网公开数据标签：新闻文章,BBC,文本数据,自然语言处理,NLP,文本挖掘,新闻,2017年,英国,媒体数据概述：本数据集包含了2017年从英国广播公司（BBC）新闻网站抓取的新闻文章。数据集提供了大量文本数据，涵盖了广泛的新闻主题。数据用途概述：...

ZIP

波斯语翻译英语验证数据集ParsinluTranslationEN-FAValidationDataset-nouriehmadanian

2025年4月23日

波斯语翻译英语验证数据集ParsinluTranslationEN-FAValidationDataset-nouriehmadanian 数据来源：互联网公开数据标签：机器翻译，波斯语，英语，数据集，自然语言处理，文本翻译，语言学，验证数据概述：该数据集包含来自Parsinlu项目，用于验证波斯语到英语翻译模型的性能。主要特征如下：...

ZIP

CommonLit阅读理解文本特征数据集-douglaskgaraujo

2025年4月23日

CommonLit阅读理解文本特征数据集-douglaskgaraujo 数据来源：互联网公开数据标签：文本特征,阅读理解,可读性,自然语言处理,教育,CommonLit,文本分析,机器学习数据概述：本数据集是对CommonLit阅读理解挑战赛提供的文本数据进行特征计算的结果。...

ZIP

足球新闻分类数据集FootballNewsClassificationDataset-wilbertch

2025年4月23日

足球新闻分类数据集FootballNewsClassificationDataset-wilbertch 数据来源：互联网公开数据标签：体育新闻，文本分类，数据集，机器学习，自然语言处理，数据分析，新闻分类，人工智能数据概述：该数据集包含来自多个新闻来源的足球新闻文章，记录了不同类型的足球新闻报道。主要特征如下：...

ZIP

推特灾害检测数据集TwitterDisasterDetectionDataset-sankaraassane

2025年4月23日

推特灾害检测数据集TwitterDisasterDetectionDataset-sankaraassane 数据来源：互联网公开数据标签：社交媒体，灾害检测，数据集，文本分析，机器学习，自然语言处理，信息挖掘，应急响应数据概述：该数据集包含来自推特平台的数据，记录了用户发布的与灾害相关的推文内容。主要特征如下：...

ZIP

孟加拉语维基百科文本数据集

2025年4月23日

孟加拉语维基百科文本数据集数据来源：互联网公开数据标签：孟加拉语,维基百科,文本数据,自然语言处理,机器学习,语言模型,文本挖掘数据概述：...

ZIP

Quora问答对语义相似度预测数据集

2025年4月23日

Quora问答对语义相似度预测数据集数据来源：互联网公开数据标签：自然语言处理,语义相似度,问答对,文本匹配,机器学习,Quora,Kaggle,文本分析数据概述：本数据集源自Kaggle竞赛Quora问答对，用于预测给定的问答对中，哪一对问题具有相同的含义。数据集包含了大量Quora平台上的问题对，每个问题对都标注了它们是否语义相似。...

ZIP

德国到英语翻译数据集GermantoEnglishTranslationDataset-jamesbond00700

2025年4月23日

德国到英语翻译数据集GermantoEnglishTranslationDataset-jamesbond00700 数据来源：互联网公开数据标签：翻译，语言处理，数据集，机器学习，自然语言处理，双语，文本分析，人工智能数据概述：该数据集包含来自互联网的德语到英语的平行文本数据，记录了德语原文及其对应的英语翻译。主要特征如下：...

ZIP

找到11,987个数据集

注册成功！