孟加拉语仇恨与非仇恨语音音频数据集

数据集概述

该数据集包含三千条孟加拉语语音音频样本,分为仇恨、非仇恨和测试用非仇恨三类。仇恨类含两千条样本,涉及宗教歧视、性别骚扰等多种仇恨内容,并标注严重程度;非仇恨类含一千条中性内容样本;测试用非仇恨文件夹含额外测试样本,覆盖方言变体,由母语者人工标注。

文件详解

该数据集包含三个压缩文件,均位于data目录下,具体说明如下: - 文件名称: Hate-20250525T155437Z-1-001.zip:ZIP格式压缩文件,包含两千条仇恨类语音样本,每条样本标注轻度、中度或重度的严重程度,内容涉及宗教歧视、性别骚扰、政治攻击等多种仇恨类型。 - 文件名称: Non_Hate-20250525T155946Z-1-001.zip:ZIP格式压缩文件,包含一千条中性或非仇恨类语音样本。 - 文件名称: Test nh-20250525T160335Z-1-001.zip:ZIP格式压缩文件,包含额外的非仇恨类语音样本,用于测试用途。

适用场景

  • 仇恨语音检测模型训练: 用于训练和优化孟加拉语环境下仇恨语音自动识别算法。
  • 方言语音分析: 研究孟加拉语不同方言区域的语音特征与仇恨表达的关联。
  • 社会语言学研究: 分析仇恨语音在孟加拉语社会文化语境中的表现形式与严重程度分布。
  • 自然语言处理应用: 为孟加拉语语音情感分析、内容安全审核等下游任务提供标注数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 910.05 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。