-
垃圾邮件与非垃圾邮件分类数据集Spam-HamData-liaichimustapha
垃圾邮件与非垃圾邮件分类数据集Spam-HamData-liaichimustapha 数据来源:互联网公开数据 标签:邮件分类,垃圾邮件,数据集,文本分析,机器学习,自然语言处理,分类算法,网络安全 数据概述: 该数据集包含来自公开邮件收集项目的数据,记录了电子邮件的分类信息,主要分为垃圾邮件(spam)和非垃圾邮件(ham)。主要特征如下:... -
虚假-垃圾与真实信息分类统一数据集-saharshml
虚假-垃圾与真实信息分类统一数据集-saharshml 数据来源:互联网公开数据 标签:虚假信息,垃圾信息,真实信息,文本分类,自然语言处理,机器学习,社交媒体,电子邮件,短信,新闻文章 数据概述:... -
Medium文章阅读时长预测数据集-vineeth1999
Medium文章阅读时长预测数据集-vineeth1999 数据来源:互联网公开数据 标签:文本分析,阅读时长预测,数据集,自然语言处理,机器学习,用户行为分析,内容推荐,数据挖掘 数据概述: 该数据集包含了来自Medium平台的文章数据和用户阅读时长信息,用于预测文章的阅读时长。主要特征如下:... -
论坛用户行为数据集ForumsUserBehaviorDataset-shahdhassan42
论坛用户行为数据集ForumsUserBehaviorDataset-shahdhassan42 数据来源:互联网公开数据 标签:论坛,用户行为,数据集,社交网络,行为分析,数据挖掘,自然语言处理,社区研究 数据概述: 该数据集包含来自互联网论坛的用户行为数据,记录了用户在论坛中的互动行为,如发帖,回帖,点赞,关注等。主要特征如下:... -
自然语言处理数据集NLP数据集-mkmanoj353
自然语言处理数据集NLP数据集-mkmanoj353 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,机器学习,人工智能,语言模型,文本分类,情感分析 数据概述:该数据集包含来自多个来源的自然语言处理数据,记录了大量文本数据以支持各种NLP任务。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。... -
英语学习提示数据集SunbirdEnglishPromptsDataset-mekaneeky
英语学习提示数据集SunbirdEnglishPromptsDataset-mekaneeky 数据来源:互联网公开数据 标签:英语学习,数据集,语言教育,教学资源,机器学习,自然语言处理,教育技术,学习工具 数据概述:该数据集包含来自Sunbird平台的英语学习提示数据,记录了适用于英语学习者的学习提示和练习材料。主要特征如下:... -
文本分析工具数据集TextAnalysisToolDataset-jaynadkarni
文本分析工具数据集TextAnalysisToolDataset-jaynadkarni 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,机器学习,情感分析,文本挖掘,语言模型,数据科学 数据概述: 该数据集包含来自多个公开来源的文本数据,记录了各类文本内容的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年至今。... -
印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3
印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3 数据来源:互联网公开数据 标签:印尼语,语料库,文本数据,自然语言处理,语言学,词汇分析,文本挖掘,机器学习 数据概述: 该数据集收录了来自印尼语语料库 Nusantara (Korpus Nusantara)... -
增强数据集2AugmentedData2Dataset-ahmedmohamed365
增强数据集2AugmentedData2Dataset-ahmedmohamed365 数据来源:互联网公开数据 标签:数据增强,数据集,机器学习,深度学习,数据预处理,计算机视觉,自然语言处理,人工智能 数据概述: 该数据集为增强数据集2项目的一部分,主要包含通过数据增强技术生成的数据,适用于机器学习,深度学习等任务。主要特征如下:... -
中文情感分析数据集ChnSentiCorp-HTL-AllDataset-honyuu
中文情感分析数据集ChnSentiCorp-HTL-AllDataset-honyuu 数据来源:互联网公开数据 标签:情感分析,自然语言处理,文本分类,中文,数据集,评论,机器学习,情感识别 数据概述: 该数据集包含来自ChnSentiCorp的中文情感分析数据,涵盖了酒店评论文本。主要特征如下:... -
推特灾难事件数据集DisasterTwitterData-riturajsingh99
推特灾难事件数据集DisasterTwitterData-riturajsingh99 数据来源:互联网公开数据 标签:推特,灾难事件,自然语言处理,文本分析,机器学习,社交媒体,舆情分析,危机管理 数据概述: 该数据集包含来自推特(Twitter)的公开数据,记录了与灾难事件相关的内容。主要特征如下:... -
印度地址相似度分析数据集-karan510
印度地址相似度分析数据集-karan510 数据来源:互联网公开数据 标签:地址数据,印度,数据清洗,地理信息,机器学习,文本分析,相似度计算,自然语言处理 数据概述:该数据集包含了来自印度地区的地址数据,主要用于地址相似度分析和数据清洗。主要特征如下: 时间跨度:数据记录时间跨度不限,主要为历史地址数据。... -
英国广播公司BBC2017年新闻文章文本数据集-aggle6666
英国广播公司BBC2017年新闻文章文本数据集-aggle6666 数据来源:互联网公开数据 标签:新闻文章,BBC,文本数据,自然语言处理,NLP,文本挖掘,新闻,2017年,英国,媒体 数据概述: 本数据集包含了2017年从英国广播公司(BBC)新闻网站抓取的新闻文章。数据集提供了大量文本数据,涵盖了广泛的新闻主题。 数据用途概述:... -
波斯语翻译英语验证数据集ParsinluTranslationEN-FAValidationDataset-nouriehmadanian
波斯语翻译英语验证数据集ParsinluTranslationEN-FAValidationDataset-nouriehmadanian 数据来源:互联网公开数据 标签:机器翻译,波斯语,英语,数据集,自然语言处理,文本翻译,语言学,验证 数据概述: 该数据集包含来自Parsinlu项目,用于验证波斯语到英语翻译模型的性能。主要特征如下:... -
CommonLit阅读理解文本特征数据集-douglaskgaraujo
CommonLit阅读理解文本特征数据集-douglaskgaraujo 数据来源:互联网公开数据 标签:文本特征,阅读理解,可读性,自然语言处理,教育,CommonLit,文本分析,机器学习 数据概述: 本数据集是对CommonLit阅读理解挑战赛提供的文本数据进行特征计算的结果。... -
足球新闻分类数据集FootballNewsClassificationDataset-wilbertch
足球新闻分类数据集FootballNewsClassificationDataset-wilbertch 数据来源:互联网公开数据 标签:体育新闻,文本分类,数据集,机器学习,自然语言处理,数据分析,新闻分类,人工智能 数据概述: 该数据集包含来自多个新闻来源的足球新闻文章,记录了不同类型的足球新闻报道。主要特征如下:... -
推特灾害检测数据集TwitterDisasterDetectionDataset-sankaraassane
推特灾害检测数据集TwitterDisasterDetectionDataset-sankaraassane 数据来源:互联网公开数据 标签:社交媒体,灾害检测,数据集,文本分析,机器学习,自然语言处理,信息挖掘,应急响应 数据概述: 该数据集包含来自推特平台的数据,记录了用户发布的与灾害相关的推文内容。主要特征如下:... -
孟加拉语维基百科文本数据集
孟加拉语维基百科文本数据集 数据来源:互联网公开数据 标签:孟加拉语,维基百科,文本数据,自然语言处理,机器学习,语言模型,文本挖掘 数据概述:... -
Quora问答对语义相似度预测数据集
Quora问答对语义相似度预测数据集 数据来源:互联网公开数据 标签:自然语言处理,语义相似度,问答对,文本匹配,机器学习,Quora,Kaggle,文本分析 数据概述: 本数据集源自Kaggle竞赛Quora问答对,用于预测给定的问答对中,哪一对问题具有相同的含义。 数据集包含了大量Quora平台上的问题对,每个问题对都标注了它们是否语义相似。... -
德国到英语翻译数据集GermantoEnglishTranslationDataset-jamesbond00700
德国到英语翻译数据集GermantoEnglishTranslationDataset-jamesbond00700 数据来源:互联网公开数据 标签:翻译,语言处理,数据集,机器学习,自然语言处理,双语,文本分析,人工智能 数据概述: 该数据集包含来自互联网的德语到英语的平行文本数据,记录了德语原文及其对应的英语翻译。主要特征如下:...