阿姆哈拉语Facebook仇恨言论检测数据集

数据集概述

本数据集从使用吉兹字母的活动家Facebook主页及其关注者评论中人工收集,经筛选规则(粉丝超5万、单帖评论超300、主语言为阿姆哈拉语)获取3万条数据,由不同背景的十位标注者按联合国及埃塞俄比亚相关定义标注为仇恨/非仇恨两类,进行字符清洗归一化处理。

文件详解

  • 目录: Posts and Labels/
  • 文件名称: Posts.txt,文件格式: TXT,内容为收集的Facebook帖子文本数据
  • 文件名称: Labels.txt,文件格式: TXT,内容为对应帖子的标注结果(Hate/Free)

适用场景

  • 自然语言处理研究: 用于阿姆哈拉语仇恨言论检测模型训练与评估
  • 社交媒体内容分析: 分析埃塞俄比亚Facebook平台仇恨言论传播特征
  • 跨语言文本分类: 探索低资源语言文本分类任务的标注方法与模型适配
  • 计算语言学应用: 研究阿姆哈拉语字符归一化对文本处理任务的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.98 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。