孟加拉语攻击性与致命文本数据集

数据集概述

该数据集为用于识别和分类文本攻击性的孟加拉语数据集,包含四千零二十七条正式与非正式文本,按仇恨言论、破坏行为、暴行、无攻击性四类标注,附英文翻译,经多阶段预处理及双标注员标注、专家复核,为孟加拉语自然语言处理社区提供内容审核研究支持。

文件详解

  • 文件名称:BOLT.xlsx
  • 文件格式:Excel (.xlsx)
  • 字段映射:
  • Final Annotation:文本的最终攻击性分类标注
  • Text:原始孟加拉语文本
  • English Translation:对应文本的英文翻译内容

适用场景

  • 孟加拉语自然语言处理研究:用于训练和评估攻击性文本分类模型
  • 社交媒体内容审核:辅助平台识别仇恨言论、暴力威胁等有害内容
  • 语言数据分析:研究孟加拉语真实场景中的攻击性表达特征
  • 跨语言对比研究:结合英文翻译开展多语言文本攻击性检测的比较分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.08 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。