Jigsaw评论毒性标注数据集-2022-google

Jigsaw评论毒性标注数据集-2022-google 数据来源:互联网公开数据 标签:Jigsaw,评论,毒性标注,数据集,种族,性别,标注者身份,影响研究,ACM,CSCW,2022

数据概述: 本数据集包含来自Civil Comments数据集的25,500条评论,每条评论由5个来自不同标注组的标注者进行标注,总共产生382,500条标注数据。这些数据最初发布在Kaggle网站(https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification)上。数据集中的每个标注包含评论的唯一标识符、标注者的匿名标识符、针对特定类别的标注分数(如身份攻击、侮辱、污秽、威胁、毒性)以及评论的实际文本和标注者所属的群体(非洲裔美国人、LGBTQ、对照组)。

不同列的含义如下: - id:评论在Civil Comments数据集中的唯一标识符。 - unique_contributor_id:标注者的匿名标识符。 - identity_attack:标注者对“身份攻击”类别的评分,取值为-1(身份攻击)、0(不确定)、1(不是身份攻击)。 - insult:标注者对“侮辱”类别的评分,取值为-1(侮辱)、0(不确定)、1(不是侮辱)。 - obscene:标注者对“污秽”类别(即脏话)的评分,取值为-1(脏话)、0(不确定)、1(不是脏话)。 - threat:标注者对“威胁”类别的评分,取值为-1(威胁)、0(不确定)、1(不是威胁)。 - toxic_score:标注者对“毒性”类别的评分,取值为-2(非常有毒)、-1(有毒)、0(不确定)、1(无毒)。 - comment_text:评论的实际文本内容。 - rater_group:标注者所属的群体,取值为“African American”(非洲裔美国人)、“LGBTQ”(LGBTQ)、“Control”(对照组)。

数据用途概述: 该数据集适用于研究标注者身份如何影响毒性标注结果、探索不同群体的标注差异、分析评论的毒性特征以及提高文本分类的准确性和公平性。研究人员可以利用本数据集评估不同标注者群体之间的偏差,为改进毒性检测算法提供依据。记者和学者也可以用该数据集进行社会学和心理学研究,深入理解语言中的偏见和歧视。

引用说明: 在使用本数据集时,请参考以下文献: Nitesh Goyal, Ian D. Kivlichan, Rachel Rosen, Lucy Vasserman. "Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on Toxicity Annotation." To appear in ACM CSCW 2022.

注意事项: 数据集中存在一个重复的评论标识符“1.05408E+18”,可能是采样错误或其他处理错误导致的。我们在论文分析中排除了两个具有此标识符的评论,但在完整数据集中保留以确保数据的完整性。数据集中部分值为“null”,是因为标注者在标注时选择了“该评论是外语或出于其他原因无法理解”的选项(例如,乱码、不同方言等)。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 38.17 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。