尼日利亚多语言仇恨言论数据集2024-sharonibejih
数据来源:互联网公开数据
标签:仇恨言论,尼日利亚,多语言,机器翻译,社交媒体,数据分析
数据概述:
本数据集是对现有NaijaHate数据集(Tonneau等,2024)的修改版。原始数据集包含尼日利亚的推文,主要使用英语,部分包含代码切换(英语与尼日利亚本地语言结合)。在本修改版本中,推文已被翻译成尼日利亚三种主要语言:伊博语、约鲁巴语和豪萨语。
目标:
本修改的目标是促进语言多样性,并支持在尼日利亚本地语言中检测仇恨言论。
翻译过程:
使用Facebook的NLLB(No Language Left Behind)多语言机器翻译模型,托管在HuggingFace上进行翻译。为了确保质量,翻译内容由语言专家进行了审核,纠正了识别出的误译。然而,审核过程不是全面的,可能仍有改进空间。
贡献呼吁:
本数据集向公众开放,欢迎审阅和贡献。用户被鼓励完善翻译,进一步增强数据集,特别是在解决剩余翻译不准确之处方面。
数据字段:
数据集保留了原始NaijaHate数据集中的类别标签和推文(文本),结构如下:
Class:文本所属类别,其中:
0 = 不是仇恨言论
1 = 中性
2 = 仇恨言论
Text:推文内容,以四种语言重复:英语、伊博语、约鲁巴语和豪萨语。每条文本在数据集中出现四次,带有相同的标签。
Language:文本的语言,指定为英语、伊博语、约鲁巴语或豪萨语。
数据用途概述:
该数据集适用于仇恨言论检测研究、多语言自然语言处理、社交媒体分析、教育和培训等场景。研究人员可以利用此数据集进行多语言仇恨言论检测的研究;开发者可以基于数据集开发相关应用;教育者可以利用数据集进行语言和文化多样性教育。数据集为促进尼日利亚多语言社交媒体内容的分析提供了宝贵的资源。