孟加拉语有毒语言精选数据集_ToxLex_bn

该数据集是从Facebook用户评论中提取的孟加拉语有毒语言精选数据集，包含社交媒体中使用的攻击性和辱骂性词汇。数据经过去重、匿名化处理，涵盖孟加拉语社交媒体有毒语言的人口统计和主题分布，用于有毒语言检测系统分类器的定义。

文件名称: ToxLex_bn output v1 29 January 2022.xlsx：Excel格式文件，包含1959行数据，每行代表一个有毒双词短语，包含转录、翻译、拼写标准、毒性程度等8个特征列。
文件名称: ToxLex_bn output v2 April 26 2022.xlsx：Excel格式文件，为数据集的第二版，结构与第一版类似，包含相同的特征列。

Facebook公开页面

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	0.27 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。