数据集

社交多注释者标注的英文仇恨言论数据集

社交多注释者标注的英文仇恨言论数据集数据来源：互联网公开数据
标签：仇恨言论,自然语言处理,情感分析,社会研究,机器学习,言论分析,多层次标注

数据集简介：本数据集由 Kennedy 等人于2020年在其研究论文中公开发布，旨在为仇恨言论检测提供一个经多方注释、多维标签的高质量数据资源。数据集包含39,565条在线评论文本，由7,912位注释者参与标注，合计135,556条记录（包含重复注释行）。核心目标变量为“仇恨言论得分”（hate speech score），此外还包括10个构成性标签，用于描述不同维度的攻击性语言、偏见或伤害程度，适用于监督学习、多任务建模与心理计量建模等研究场景。

字段定义（部分字段如下，完整结构请参照数据集实际文件）：

comment_id：评论的唯一标识符

text：评论文本内容

annotator_id：标注者编号

hate_speech_score：仇恨言论得分（主变量，来源于Rasch建模）

label_x：构成性标签（共10项，如攻击性语言、侮辱性、仇视群体等）

agreement：注释一致性指标（如有）

comment_metadata：评论元数据，如来源平台、时间等（如提供）

数据特征：

数据来源：Kennedy et al.（2020），公开发布于 HuggingFace Datasets 平台

数据量：39,565条唯一评论，135,556条带注释样本

标注结构：多注释者、多标签；仇恨得分基于 Rasch 模型转换

标签类型：多标签分类 + 连续型得分变量

数据格式：通常为结构化表格（CSV/JSON）或HuggingFace Datasets格式

适用场景：

仇恨言论识别与内容审核模型训练

多任务学习（文本分类、多标签学习）

心理计量建模与主观标签变异分析

模型对群体偏见与伤害性内容的敏感性研究

社交平台内容治理策略开发与评估

数据与资源

社交多注释者标注的英文仇恨言论数据集.zipZIP
15.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	15.07 MiB
最后更新	2025年4月26日
创建于	2025年4月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

社交多注释者标注的英文仇恨言论数据集

数据与资源

附加信息

注册成功！