孟加拉地区方言仇恨言论检测数据集BIDWESH

数据集概述

该数据集是首个针对孟加拉地区方言(诺阿卡利、吉大港、巴里萨尔)的仇恨言论检测基准语料库,含九千一百八十三个手动翻译标注实例,覆盖仇恨/非仇恨标签及十三类仇恨类型、七类目标群体,支持低资源方言语境下的多维度分析。

文件详解

  • BIDWESH Dataset.csv(CSV格式):核心数据集文件,包含吉大港、诺阿卡利、巴里萨尔方言文本,以及target(目标群体)、type(仇恨类型)、hate speech(仇恨言论标签)等标注字段
  • Regional Translated Texts.csv(CSV格式):含标准孟加拉语与吉大港、诺阿卡利、巴里萨尔方言的对应翻译文本,保留区域语言真实性

适用场景

  • 自然语言处理研究:用于训练和评估孟加拉地区方言仇恨言论检测模型
  • 计算语言学分析:探究低资源方言中仇恨表达的语言特征与分类体系
  • 社会科学研究:分析孟加拉不同地区仇恨言论的目标群体与类型分布
  • 多标签分类任务:开展仇恨言论检测、类型识别、目标群体定位的多维度分类研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.58 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。