马来语_英语双语社交媒体仇恨言论检测数据集

数据集概述

本数据集包含两万六千九百八十五条马来语和英语的社交媒体帖子,用于二元仇恨言论检测任务。数据来自五个公开来源,经预处理后标注为仇恨或非仇恨类别,语言分布均衡,适用于多语言及低资源仇恨言论检测模型的训练与评估。

文件详解

  • 说明文档:
  • README.txt:TXT格式,介绍数据集的基本信息、来源及文件结构。
  • 数据文件:
  • bilingual_hatespeech_ms_en.csv:CSV格式,包含字段:
  • text:清洗后的社交媒体文本
  • label:二元仇恨言论标签(0=非仇恨,1=仇恨)
  • source:数据原始来源
  • lang:语言代码(en=英语,ms=马来语)

适用场景

  • 多语言仇恨言论检测模型的训练与评估
  • 低资源语言(马来语)仇恨言论检测研究
  • 社交媒体内容安全分析
  • 跨语言文本分类算法对比实验
  • 仇恨言论检测模型的公平性与偏见分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.26 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。