讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集
数据来源:互联网公开数据
标签:讽刺,情感分析,文本分类,自然语言处理,语料库,机器学习,社交媒体,语言学
数据概述:
本数据集是一个大规模的标注数据集,用于识别和区分讽刺性文本与非讽刺性文本。数据集包含大量句子,并对每个句子进行了“讽刺”(sarc)或“非讽刺”(notsarc)的标注。数据涵盖了不同类型的讽刺表达,并提供了详细的文本内容和标签信息。
数据集主要由以下几列构成:
- 语料库(Corpus):表示语料库的类型,包括GEN(一般讽刺)、HYP(夸张)和RQ(反问)。
- 标签(Label):表示回复话语的类别标签,可以是“sarc”(讽刺)或“notsarc”(非讽刺)。
- ID:帖子的唯一标识符。不同数据集中具有相同ID的帖子之间没有关联。
- 文本(Text):帖子的文本内容,标注了是否具有讽刺意味(即讽刺标签与该话语相关)。
数据用途概述:
该数据集主要用于训练和评估讽刺检测模型,可应用于情感分析、文本分类、自然语言处理等多个研究领域。研究人员可以使用此数据集开发算法,自动识别社交媒体帖子、新闻文章等文本中的讽刺表达。此外,该数据集也适用于语言学研究,帮助分析讽刺语言的特征和表达方式。