社交多注释者标注的英文仇恨言论数据集

社交多注释者标注的英文仇恨言论数据集 数据来源:互联网公开数据
标签:仇恨言论,自然语言处理,情感分析,社会研究,机器学习,言论分析,多层次标注

数据集简介: 本数据集由 Kennedy 等人于2020年在其研究论文中公开发布,旨在为仇恨言论检测提供一个经多方注释、多维标签的高质量数据资源。数据集包含39,565条在线评论文本,由7,912位注释者参与标注,合计135,556条记录(包含重复注释行)。核心目标变量为“仇恨言论得分”(hate speech score),此外还包括10个构成性标签,用于描述不同维度的攻击性语言、偏见或伤害程度,适用于监督学习、多任务建模与心理计量建模等研究场景。

字段定义(部分字段如下,完整结构请参照数据集实际文件):

comment_id:评论的唯一标识符

text:评论文本内容

annotator_id:标注者编号

hate_speech_score:仇恨言论得分(主变量,来源于Rasch建模)

label_x:构成性标签(共10项,如攻击性语言、侮辱性、仇视群体等)

agreement:注释一致性指标(如有)

comment_metadata:评论元数据,如来源平台、时间等(如提供)

数据特征:

数据来源:Kennedy et al.(2020),公开发布于 HuggingFace Datasets 平台

数据量:39,565条唯一评论,135,556条带注释样本

标注结构:多注释者、多标签;仇恨得分基于 Rasch 模型转换

标签类型:多标签分类 + 连续型得分变量

数据格式:通常为结构化表格(CSV/JSON)或HuggingFace Datasets格式

适用场景:

仇恨言论识别与内容审核模型训练

多任务学习(文本分类、多标签学习)

心理计量建模与主观标签变异分析

模型对群体偏见与伤害性内容的敏感性研究

社交平台内容治理策略开发与评估

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 26, 2025, 19:44 (UTC)
创建于 四月 26, 2025, 19:43 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。