孟加拉语仇恨言论检测数据集

孟加拉语仇恨言论检测数据集 数据来源:互联网公开数据
标签:仇恨言论检测,孟加拉语,社交媒体分析,文本分类,自然语言处理,机器学习,语言资源

数据概述:
本数据集(BD-SHS)是一个用于孟加拉语仇恨言论检测的基准数据集,包含超过50,200条从社交媒体平台爬取的仇恨言论评论。数据集分为三个主要任务:仇恨言论检测、仇恨言论目标检测和仇恨言论类型检测。仇恨言论检测任务将评论分为仇恨言论(HS)或非仇恨言论(NH)两类;仇恨言论目标检测任务识别仇恨言论的目标对象,包括个人、男性、女性或群体;仇恨言论类型检测任务则分类仇恨言论的具体类型,包括诽谤、宗教、性别和煽动暴力等。数据集规模至少比现有孟加拉语仇恨言论数据集大60%,为研究者和开发者提供了全面的孟加拉语仇恨言论检测基准。

数据用途概述:
该数据集适用于仇恨言论检测、自然语言处理模型训练、社交媒体内容分析等多种场景。研究人员可以利用数据集进行孟加拉语仇恨言论检测算法的开发和评估,探索不同社会语境下仇恨言论的分布特征。开发者可以基于数据集训练高效的文本分类模型,应用于社交媒体内容 moderation 系统。此外,数据集还为理解孟加拉语仇恨言论的传播规律提供了重要的实证依据,有助于推动相关领域的学术研究和社会分析。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.03 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。