孟加拉语有毒语言精选数据集_ToxLex_bn

数据集概述

该数据集是从Facebook用户评论中提取的孟加拉语有毒语言精选数据集,包含社交媒体中使用的攻击性和辱骂性词汇。数据经过去重、匿名化处理,涵盖孟加拉语社交媒体有毒语言的人口统计和主题分布,用于有毒语言检测系统分类器的定义。

文件详解

  • 文件名称: ToxLex_bn output v1 29 January 2022.xlsx:Excel格式文件,包含1959行数据,每行代表一个有毒双词短语,包含转录、翻译、拼写标准、毒性程度等8个特征列。
  • 文件名称: ToxLex_bn output v2 April 26 2022.xlsx:Excel格式文件,为数据集的第二版,结构与第一版类似,包含相同的特征列。

数据来源

Facebook公开页面

适用场景

  • 自然语言处理研究: 用于训练和评估孟加拉语有毒语言检测模型。
  • 社交媒体内容 moderation: 辅助开发针对孟加拉语的自动内容审核系统。
  • 语言学研究: 分析孟加拉语社交媒体中有毒语言的结构和特征。
  • 网络安全应用: 支持网络欺凌和仇恨言论的识别与干预。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.27 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。