印度尼西亚仇恨言论语言分析数据集

印度尼西亚仇恨言论语言分析数据集 数据来源:互联网公开数据 标签:仇恨言论,语言分析,机器学习,文本挖掘,情绪分析,社会影响,数据标注

数据概述: 本数据集HateCheck是一个全面的诊断性数据集,旨在评估仇恨言论检测模型的性能。它包含3,728个经过验证的测试案例,这些案例被组织成29个功能测试,提供了对模型性能的有针对性的见解。其中,19个功能测试专注于特定类型的仇恨内容,11个功能测试涵盖了具有挑战性的非仇恨内容。该数据集使研究人员和从业人员能够识别仇恨言论检测模型中的系统性差距和偏见。

数据用途概述: 该数据集适用于评估和改善仇恨言论检测模型的性能。研究人员可以利用此数据集识别模型中的缺陷和偏差,从而提高模型的准确性。此外,该数据集也可用于教育培训,帮助学习者了解仇恨言论检测的技术和挑战。媒体和政策制定者可以利用这些见解来监测和应对社会中的仇恨言论问题。

数据结构: 每个测试案例包括以下字段: - functionality: 被测试的功能(例如,特定类型的仇恨言论)。 - case_id: 每个测试案例的唯一ID。 - test_case: 测试案例的文本内容。 - label_gold: 金标准标签(仇恨/非仇恨)。 - target_ident: 受影响的目标群体(如适用),例如女性、穆斯林。 - direction: 仇恨言论是针对个人还是群体。 - focus_words: 驱动仇恨言论或非仇恨言论的关键词汇或短语。 - focus_lemma: 关键词的词干形式。 - ref_case_id: 对比或更简单的参考案例ID(如适用)。 - templ_id: 生成测试案例的模板ID。

关键特征: HateCheck涵盖了广泛的仇恨言论和非仇恨言论示例,用于测试模型对细微差异(如一般仇恨、侮辱语和情境依赖性情况)的反应。它还包括针对七个受保护群体(女性、跨性别者、同性恋者、黑人、残疾人、穆斯林和移民)的案例。

引用: 如果您在工作中使用此数据集,请引用以下论文: @inproceedings{rottger-etal-2021-hatecheck,
title = "{H}ate{C}heck: 功能性测试用于仇恨言论检测模型",
author = {R{\"o}ttger, Paul 和 Vidgen, Bertie 和 Nguyen, Dong 和 Waseem, Zeerak 和 Margetts, Helen 和 Pierrehumbert, Janet},
booktitle = "第59届计算语言学协会年会和第11届国际计算语言学联合会议(卷1:长论文)的论文集",
month = aug,
year = "2021",
address = "在线",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2021.acl-long.4",
doi = "10.18653/v1/2021.acl-long.4",
pages = "4158",
}

许可: 本数据集遵循知识共享署名4.0国际许可协议(CC BY 4.0)。 注意:使用本数据集时需要适当署名。

更多信息: 论文:Röttger等人(2021)- HateCheck 仓库:HateCheck GitHub代码库 联系:paul.rottger@oii.ox.ac.uk

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 07:58 (UTC)
创建于 四月 15, 2025, 07:58 (UTC)