数据集 - 海数据

原生与非原生英语数据集

2025年4月15日

原生与非原生英语数据集数据来源：互联网公开数据标签：英语学习,语言分析,原生英语,非原生英语,NLP,句子检测,文本分类数据概述：...

ZIP

阿尔巴尼亚假新闻语料库

2025年4月15日

阿尔巴尼亚假新闻语料库数据来源：互联网公开数据标签：假新闻检测,自然语言处理,阿尔巴尼亚语,文本分类,数据研究,信息真实性评估,新闻传播学数据概述：本数据集源自研究论文《Albanian fake news...

ZIP

阿拉伯文新闻文本摘要数据集

2025年4月15日

阿拉伯文新闻文本摘要数据集数据来源：互联网公开数据标签：阿拉伯语,新闻文本,文本摘要,数据集,自然语言处理,文本分类,机器学习数据概述：...

ZIP

广告垃圾邮件数据集

2025年4月15日

广告垃圾邮件数据集数据来源：互联网公开数据标签：广告邮件,垃圾邮件,文本分类,自然语言处理,网络安全, 数据概述：...

ZIP

说唱歌词NLP数据集

2025年4月15日

说唱歌词NLP数据集数据来源：互联网公开数据标签：说唱,歌词,NLP,文本分析,文本预处理,文本分类,音乐分析数据概述：本数据集收录了来自11位不同艺术家的说唱歌词，包括Drake、J. Cole、Kendrick Lamar、Eminem、Nas、Skepta、Rapsody、Nicki...

ZIP

阿拉伯语新闻文本分类语料库

2025年4月15日

阿拉伯语新闻文本分类语料库数据来源：互联网公开数据标签：阿拉伯语,新闻,文本分类,自然语言处理,机器学习,语料库数据概述：本数据集包含以阿拉伯语撰写的新闻文本，涵盖了9个不同的新闻类别，以CSV格式存储。数据集旨在为阿拉伯语新闻文本的分类任务提供支持，包含数万条新闻数据，每条数据均标注了具体的类别信息。数据用途概述：...

ZIP

印度网民对科技产品情感分析数据集2021

2025年4月15日

印度网民对科技产品情感分析数据集2021 数据来源：互联网公开数据标签：情感分析,社交媒体分析,自然语言处理,消费者反馈,科技产品,印度,文本分类数据概述：...

ZIP

推特情感分析竞赛伪标签推文数据集-2020年

2025年4月15日

推特情感分析竞赛伪标签推文数据集-2020年数据来源：互联网公开数据标签：推特,情感分析,自然语言处理,伪标签,文本分类,竞赛,机器学习,社交媒体数据概述：...

ZIP

星巴克评论数据集

2025年4月15日

星巴克评论数据集数据来源：互联网公开数据标签：星巴克,评论,情感分析,自然语言处理,文本分类,数据清洗,商业分析数据概述：本数据集包含700条星巴克评论数据，涵盖5个字段：用户名称、位置、日期、评分和评论内容。评论内容为原始文本，未经过预处理。数据集旨在为自然语言处理任务提供基础数据支持，适用于情感分析、文本分类等场景。数据用途概述：...

ZIP

基于文本的分类数据集

2025年4月15日

基于文本的分类数据集数据来源：互联网公开数据标签：文本分类,区块链,机器学习,自然语言处理,数据标注,监督学习,领域特定文本数据概述本数据集旨在基于文本内容对样本进行分类，数据来源于区块链领域相关的文本资料。数据集包含两部分内容： -...

ZIP

英国广播公司BBC新闻文章文本分类数据集

2025年4月15日

英国广播公司BBC新闻文章文本分类数据集数据来源：互联网公开数据标签：新闻文章,文本分类,自然语言处理,机器学习,BBC,媒体,文本数据,分类任务数据概述：...

ZIP

以色列与哈马斯冲突新闻报道数据集2021-2023

2025年4月15日

以色列与哈马斯冲突新闻报道数据集2021-2023 数据来源：互联网公开数据标签：以色列,哈马斯,中东冲突,新闻报道,媒体分析,情感分析,关键词提取,时间序列分析,文本分类数据概述：本数据集收录了2021年至2023年间来自Al Jazeera的以色列-...

ZIP

ODS-NLP多分类文本电影评分数据集2024

2025年4月15日

ODS-NLP多分类文本电影评分数据集2024 数据来源：互联网公开数据标签：文本分类,多分类,电影评分,评分预测,NLP,机器学习,基线模型,对数回归,CatBoost,LSTM,Transformer 数据概述：本数据集来自ODS（Open Data...

ZIP

数据20新闻组文本分类研究数据集2023

2025年4月15日

数据20新闻组文本分类研究数据集2023 数据来源：互联网公开数据标签：文本分类,自然语言处理,20新闻组,数据清洗,机器学习,情感分析,主题建模数据概述：本数据集是基于scikit-...

ZIP

印度移动与非移动技术文章及推文数据集2023

2025年4月15日

印度移动与非移动技术文章及推文数据集2023 数据来源：互联网公开数据标签：移动技术,非移动技术,文章,推文,文本分类,文本预处理,翻译,音译,印度,多语言数据概述：...

ZIP

土耳其语文本分类预处理数据集

2025年4月15日

土耳其语文本分类预处理数据集数据来源：互联网公开数据标签：文本分类,土耳其语,预处理,机器学习,自然语言处理,文本挖掘数据概述：...

ZIP

社交媒体Twitter巴西葡萄牙语情感分析数据集

2025年4月15日

社交媒体Twitter巴西葡萄牙语情感分析数据集数据来源：互联网公开数据标签：情感分析,葡萄牙语,巴西,社交媒体文本,自然语言处理,文本分类,情绪识别数据概述本数据集为 Caramelo-Smile-V3 模型的情感分析训练数据，完全基于巴西葡萄牙语（PT-BR）。数据集构建自 Twitter...

ZIP

洋葱网讽刺新闻媒体内容数据集当前

2025年4月15日

洋葱网讽刺新闻媒体内容数据集当前数据来源：互联网公开数据标签：讽刺新闻,洋葱网,媒体内容,自然语言处理,文本分类,数据分析数据概述：本数据集收录了洋葱网（The Onion）发布的讽刺新闻内容，包括新闻标题、发布时间及详细内容。数据集涵盖当前时间段内的新闻内容，展示了洋葱网独特的讽刺风格和媒体内容创作特点。数据用途概述：...