BOISHOMMO_多标签孟加拉语仇恨言论数据集

数据集概述

该数据集针对孟加拉语等低资源语言缺乏仇恨言论数据集的问题,构建了包含两千余个标注样本的多标签仇恨言论数据集BOISHOMMO,覆盖种族、性别、宗教、政治等类别,支持孟加拉语仇恨言论检测研究。

文件详解

  • 文件名称:Bengali Heatspeech dataset.csv
  • 文件格式:CSV(.csv)
  • 字段映射:包含Text(文本内容)、Race(种族)、Behaviour(行为)、Physical(外貌)、Class(阶级)、Religion(宗教)、Disability(残疾)、Ethnicity(民族)、Gender(性别)、Sexual Orientation(性取向)、Political(政治)等字段,记录仇恨言论文本及对应多标签标注

适用场景

  • 低资源语言自然语言处理研究:开发孟加拉语仇恨言论检测模型
  • 多标签文本分类算法评估:验证模型处理复杂仇恨言论类别的能力
  • 语言特定挑战分析:研究孟加拉语仇恨言论的语义特征与标注规律
  • 社交媒体内容监管:为孟加拉语平台的有害内容识别提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.32 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。