BOISHOMMO_标准化多标签孟加拉语仇恨言论数据集

数据集概述

该数据集是针对低资源语言孟加拉语的多标签仇恨言论分析资源,含2499条社交媒体评论,覆盖10个仇恨类别,标注经多数投票确定,含英文翻译,支持跨语言研究,突出标签不平衡性,适用于模型鲁棒性测试与不平衡分析。

文件详解

  • 文件名称:BOISHOMMO Dataset.zip
  • 文件格式:ZIP压缩包(.zip)
  • 内容说明:压缩包内包含标准化多标签孟加拉语仇恨言论数据集,具体字段及结构需解压后查看,原始数据含孟加拉语评论、英文翻译及10个仇恨类别的多标签标注

适用场景

  • 自然语言处理研究:用于开发和测试孟加拉语多标签仇恨言论检测模型
  • 低资源语言处理:探索针对形态丰富低资源语言的NLP技术
  • 不平衡数据学习:研究多标签不平衡场景下的数据增强、重采样等技术
  • 跨语言研究:基于英文翻译开展多语言仇恨言论检测的比较分析
  • 模型鲁棒性测试:作为基准数据集评估多标签分类模型的泛化能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.44 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。