数据集

改良后的印地语-孟加拉语仇恨言论数据集

改良后的印地语-孟加拉语仇恨言论数据集数据来源：互联网公开数据标签：仇恨言论,印地语,孟加拉语,多标签分类,文本分析,语言处理,社会研究

数据概述：本数据集通过合并来自Kaggle的两个现有数据集创建，旨在训练多标签仇恨言论检测模型，涵盖印地语和孟加拉语。数据集包含以下字段：原始文本、诽谤、仇恨、非仇恨、暴力、粗俗。其中，诽谤字段由原数据集中的侮辱和骚扰列合并生成；暴力字段由宗教和威胁列合并生成；新增了非仇恨字段。对于印地语数据集，进行了如下修改：将Post字段重命名为text，将offensive字段重命名为vulgar，将non-hostile字段重命名为non-hate，并新增了一个全零的暴力字段。

数据用途概述：该数据集适用于仇恨言论检测、多语言文本分析、社会研究等多个应用场景。研究人员可以利用该数据集训练和评估多标签分类模型，以识别和理解不同语言中的仇恨言论模式。此外，数据集也适合用于教育培训，帮助学习者掌握仇恨言论分析的方法和技术。

数据与资源

改良后的印地语-孟加拉语仇恨言论数据集.zipZIP
2.38 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	2.38 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。