数据集

Jigsaw评论毒性标注数据集-2022-google

Jigsaw评论毒性标注数据集-2022-google 数据来源：互联网公开数据标签：Jigsaw,评论,毒性标注,数据集,种族,性别,标注者身份,影响研究,ACM,CSCW,2022

数据概述：本数据集包含来自Civil Comments数据集的25,500条评论，每条评论由5个来自不同标注组的标注者进行标注，总共产生382,500条标注数据。这些数据最初发布在Kaggle网站（https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification）上。数据集中的每个标注包含评论的唯一标识符、标注者的匿名标识符、针对特定类别的标注分数（如身份攻击、侮辱、污秽、威胁、毒性）以及评论的实际文本和标注者所属的群体（非洲裔美国人、LGBTQ、对照组）。

不同列的含义如下： - id：评论在Civil Comments数据集中的唯一标识符。 - unique_contributor_id：标注者的匿名标识符。 - identity_attack：标注者对“身份攻击”类别的评分，取值为-1（身份攻击）、0（不确定）、1（不是身份攻击）。 - insult：标注者对“侮辱”类别的评分，取值为-1（侮辱）、0（不确定）、1（不是侮辱）。 - obscene：标注者对“污秽”类别（即脏话）的评分，取值为-1（脏话）、0（不确定）、1（不是脏话）。 - threat：标注者对“威胁”类别的评分，取值为-1（威胁）、0（不确定）、1（不是威胁）。 - toxic_score：标注者对“毒性”类别的评分，取值为-2（非常有毒）、-1（有毒）、0（不确定）、1（无毒）。 - comment_text：评论的实际文本内容。 - rater_group：标注者所属的群体，取值为“African American”（非洲裔美国人）、“LGBTQ”（LGBTQ）、“Control”（对照组）。

数据用途概述：该数据集适用于研究标注者身份如何影响毒性标注结果、探索不同群体的标注差异、分析评论的毒性特征以及提高文本分类的准确性和公平性。研究人员可以利用本数据集评估不同标注者群体之间的偏差，为改进毒性检测算法提供依据。记者和学者也可以用该数据集进行社会学和心理学研究，深入理解语言中的偏见和歧视。

引用说明：在使用本数据集时，请参考以下文献： Nitesh Goyal, Ian D. Kivlichan, Rachel Rosen, Lucy Vasserman. "Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on Toxicity Annotation." To appear in ACM CSCW 2022.

注意事项：数据集中存在一个重复的评论标识符“1.05408E+18”，可能是采样错误或其他处理错误导致的。我们在论文分析中排除了两个具有此标识符的评论，但在完整数据集中保留以确保数据的完整性。数据集中部分值为“null”，是因为标注者在标注时选择了“该评论是外语或出于其他原因无法理解”的选项（例如，乱码、不同方言等）。

数据与资源

versions_20250402115211.zipZIP
38.17 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	38.17 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Jigsaw评论毒性标注数据集-2022-google

数据与资源

附加信息

注册成功！