数据集 - 海数据

孟加拉语-英语-印地语混合语言侮辱性语言识别数据集

2025年4月15日

孟加拉语-英语-印地语混合语言侮辱性语言识别数据集数据来源：互联网公开数据标签：侮辱性语言,代码混合,孟加拉语,英语,印地语,自然语言处理,文本分类,情感分析数据概述：...

ZIP

烂番茄电影评论情感分析数据集1963-2021

2025年4月15日

烂番茄电影评论情感分析数据集1963-2021 数据来源：互联网公开数据标签：电影评论,情感分析,自然语言处理,机器学习,文本分类数据概述：本数据集包含了来自烂番茄网站的5,331条正面和5,331条负面电影评论，总计10,662条评论记录。每条评论均已被处理，数据集中包含评论文本和对应的情感标签（正面或负面）。该数据集最初由Bo...

ZIP

分类推文数据集

2025年4月15日

分类推文数据集数据来源：互联网公开数据标签：社交媒体,情感分析,网络安全,仇恨言论,网络欺凌,自杀倾向,机器学习,文本分类数据概述本数据集由原始的“可疑推文”数据集经过进一步精细化处理而成，旨在更详细地对推文进行分类。数据集中包含了推文文本及其分类标签，推文内容被分为“可疑”或“非可疑”。对于标记为“可疑”的推文，进一步细分为以下子类别： -...

ZIP

Eminem专辑YouTube评论垃圾邮件分类数据集

2025年4月15日

Eminem专辑YouTube评论垃圾邮件分类数据集数据来源：互联网公开数据标签：Eminem, YouTube, 评论, 垃圾邮件, 自然语言处理, 机器学习, 文本分类, 社交媒体分析数据概述：本数据集由Ezhil...

ZIP

恐慌与忧虑情感语料库

2025年4月15日

恐慌与忧虑情感语料库数据来源：互联网公开数据标签：情感分析,多语言,panic,worry,文本分类,情绪识别,跨语言研究数据概述：...

ZIP

推特语言行为数据集

2025年4月15日

推特语言行为数据集数据来源：互联网公开数据标签：推特,语言行为,沟通分析,文本分类,社交网络分析,自然语言处理,社交媒体研究数据概述：...

ZIP

多语言大型语言模型生成文本数据集1963-2021

2025年4月15日

多语言大型语言模型生成文本数据集1963-2021 数据来源：互联网公开数据标签：大型语言模型,多语言,文本生成,机器学习,自然语言处理,人工智能,深度学习,神经网络,数据科学,文本分类,语言理解,文本挖掘数据概述：...

ZIP

尼泊尔语社交媒体情感分析数据集

2025年4月15日

尼泊尔语社交媒体情感分析数据集数据来源：互联网公开数据标签：情感分析,自然语言处理,尼泊尔语,社交媒体,文本分类,情感,NLP,机器学习数据概述：本数据集包含尼泊尔语社交媒体文本，并标注了情感极性。情感标签分为三类：积极（1），消极（0），和中性（2）。数据集来源于Hugging Face Datasets...

ZIP

社交媒体情感分析数据集-用户评论情感分类-训练与评估-公开

2025年4月15日

社交媒体情感分析数据集-用户评论情感分类-训练与评估-公开数据来源：互联网公开数据标签：情感分析,自然语言处理,社交媒体,用户评论,文本分类,机器学习,情感分类,正负中性数据概述：本数据集旨在支持社交媒体情感分析任务，涵盖了用户评论的情感倾向分类。数据集包含训练集、开发集和测试集，用于模型的训练、验证和评估。...

ZIP

全球多语言垃圾短信检测数据集1963-2021

2025年4月15日

全球多语言垃圾短信检测数据集1963-2021 数据来源：互联网公开数据标签：垃圾短信检测,多语言NLP,文本分类,跨语言分析,文本数据数据概述：...

ZIP

垃圾邮件分类文本数据集

2025年4月15日

垃圾邮件分类文本数据集数据来源：互联网公开数据标签：垃圾邮件,文本分类,二元分类,机器学习,数据标注,自然语言处理数据概述：...

ZIP

自然语言处理数据增强用反向翻译数据集

2025年4月15日

自然语言处理数据增强用反向翻译数据集数据来源：互联网公开数据标签：自然语言处理,数据增强,反向翻译,文本分类,多语言,数据集,机器学习,文本生成数据概述：本数据集包含了来自Contradictory, My Dear...

ZIP

虚假新闻内容检测数据集

2025年4月15日

虚假新闻内容检测数据集数据来源：互联网公开数据标签：虚假新闻,自然语言处理,NLP,内容检测,文本分类,社交媒体,新闻平台,机器学习数据概述...

ZIP

孟加拉语仇恨言论检测数据集

2025年4月15日

孟加拉语仇恨言论检测数据集数据来源：互联网公开数据标签：仇恨言论检测,孟加拉语,社交媒体分析,文本分类,自然语言处理,机器学习,语言资源数据概述：本数据集（BD-...

ZIP

多标签文本分类数据集

2025年4月15日

多标签文本分类数据集数据来源：互联网公开数据标签：多标签分类,文本分类,信息学,学术论文,机器学习,标签预测,自然语言处理数据概述...

ZIP

尼泊尔新闻文章文本分类与摘要数据集

2025年4月15日

尼泊尔新闻文章文本分类与摘要数据集数据来源：互联网公开数据标签：尼泊尔语,新闻文章,文本分类,文本摘要,自然语言处理,NLP,机器学习,文本数据数据概述：本数据集包含约7500篇尼泊尔语新闻文章，来源于多个尼泊尔新闻网站。数据集经过清洗，包含相对平衡的训练集和测试集，适用于训练和评估尼泊尔语文本分类模型和文本摘要模型。数据用途概述：...

ZIP

反垃圾邮件分类检测邮件数据集

2025年4月15日

反垃圾邮件分类检测邮件数据集数据来源：互联网公开数据标签：反垃圾邮件,邮件分类,机器学习,数据集,Spam,Ham,文本分类,自然语言处理数据概述：...

ZIP

IMDB5000电影数据集

2025年4月15日

IMDB5000电影数据集数据来源：互联网公开数据标签：电影评分,电影类型,电影描述,数据分析,文本分类,电影推荐,内容理解数据概述：本数据集包含了 9714 部电影的评分和类型信息，数据于 2020 年 5 月 13 日创建。数据集中每个电影条目包含两个主要字段： - desc：电影的简要描述，用于概括电影内容或主题。 -...