改良后的印地语-孟加拉语仇恨言论数据集

改良后的印地语-孟加拉语仇恨言论数据集 数据来源:互联网公开数据 标签:仇恨言论,印地语,孟加拉语,多标签分类,文本分析,语言处理,社会研究

数据概述: 本数据集通过合并来自Kaggle的两个现有数据集创建,旨在训练多标签仇恨言论检测模型,涵盖印地语和孟加拉语。数据集包含以下字段:原始文本、诽谤、仇恨、非仇恨、暴力、粗俗。其中,诽谤字段由原数据集中的侮辱和骚扰列合并生成;暴力字段由宗教和威胁列合并生成;新增了非仇恨字段。对于印地语数据集,进行了如下修改:将Post字段重命名为text,将offensive字段重命名为vulgar,将non-hostile字段重命名为non-hate,并新增了一个全零的暴力字段。

数据用途概述: 该数据集适用于仇恨言论检测、多语言文本分析、社会研究等多个应用场景。研究人员可以利用该数据集训练和评估多标签分类模型,以识别和理解不同语言中的仇恨言论模式。此外,数据集也适合用于教育培训,帮助学习者掌握仇恨言论分析的方法和技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.38 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。