社交多注释者标注的英文仇恨言论数据集
数据来源:互联网公开数据
标签:仇恨言论,自然语言处理,情感分析,社会研究,机器学习,言论分析,多层次标注
数据集简介:
本数据集由 Kennedy 等人于2020年在其研究论文中公开发布,旨在为仇恨言论检测提供一个经多方注释、多维标签的高质量数据资源。数据集包含39,565条在线评论文本,由7,912位注释者参与标注,合计135,556条记录(包含重复注释行)。核心目标变量为“仇恨言论得分”(hate speech score),此外还包括10个构成性标签,用于描述不同维度的攻击性语言、偏见或伤害程度,适用于监督学习、多任务建模与心理计量建模等研究场景。
字段定义(部分字段如下,完整结构请参照数据集实际文件):
comment_id:评论的唯一标识符
text:评论文本内容
annotator_id:标注者编号
hate_speech_score:仇恨言论得分(主变量,来源于Rasch建模)
label_x:构成性标签(共10项,如攻击性语言、侮辱性、仇视群体等)
agreement:注释一致性指标(如有)
comment_metadata:评论元数据,如来源平台、时间等(如提供)
数据特征:
数据来源:Kennedy et al.(2020),公开发布于 HuggingFace Datasets 平台
数据量:39,565条唯一评论,135,556条带注释样本
标注结构:多注释者、多标签;仇恨得分基于 Rasch 模型转换
标签类型:多标签分类 + 连续型得分变量
数据格式:通常为结构化表格(CSV/JSON)或HuggingFace Datasets格式
适用场景:
仇恨言论识别与内容审核模型训练
多任务学习(文本分类、多标签学习)
心理计量建模与主观标签变异分析
模型对群体偏见与伤害性内容的敏感性研究
社交平台内容治理策略开发与评估