数据集

讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集

讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集数据来源：互联网公开数据标签：讽刺,情感分析,文本分类,自然语言处理,语料库,机器学习,社交媒体,语言学数据概述：本数据集是一个大规模的标注数据集，用于识别和区分讽刺性文本与非讽刺性文本。数据集包含大量句子，并对每个句子进行了“讽刺”（sarc）或“非讽刺”（notsarc）的标注。数据涵盖了不同类型的讽刺表达，并提供了详细的文本内容和标签信息。

数据集主要由以下几列构成：

语料库（Corpus）：表示语料库的类型，包括GEN（一般讽刺）、HYP（夸张）和RQ（反问）。
标签（Label）：表示回复话语的类别标签，可以是“sarc”（讽刺）或“notsarc”（非讽刺）。
ID：帖子的唯一标识符。不同数据集中具有相同ID的帖子之间没有关联。
文本（Text）：帖子的文本内容，标注了是否具有讽刺意味（即讽刺标签与该话语相关）。

数据用途概述：该数据集主要用于训练和评估讽刺检测模型，可应用于情感分析、文本分类、自然语言处理等多个研究领域。研究人员可以使用此数据集开发算法，自动识别社交媒体帖子、新闻文章等文本中的讽刺表达。此外，该数据集也适用于语言学研究，帮助分析讽刺语言的特征和表达方式。

数据与资源

讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集.zipZIP
1.02 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.02 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。