性别歧视滥用数据集

性别歧视滥用数据集 数据来源:互联网公开数据 标签:性别歧视,在线暴力,印度语言,情感分析,分类模型,多任务学习,数据标注 数据概述: 本数据集专注于印度语系中的性别歧视滥用内容检测,涵盖英、印地语和泰米尔语三种语言。数据集由十八名曾遭遇或研究性别歧视的活动家和研究人员标注,共包含7638篇英语文本、7714篇印地语文本和7914篇泰米尔语文本。数据集分为训练集和测试集,每个文本条目标注了三个标签:非针对边缘化性别与性取向的性别歧视、针对边缘化性别与性取向的性别歧视以及是否为明确/攻击性语言。标注值包括“1”(匹配标签)、“0”(不匹配标签)、“NL”(未标注)和“NaN”(未分配)。 数据用途概述: 该数据集适用于开发性别歧视滥用检测模型,特别是在印度语系内容中的应用。研究人员可以利用该数据集构建仅基于提供的数据集的分类器来检测非针对性别的性别歧视(标签1),或通过从其他公开的仇恨言论和有毒语言检测数据集中进行迁移学习来构建检测非针对性别的性别歧视(标签1)的分类器。此外,还可以构建一个多任务分类器,同时预测非针对性别的性别歧视(标签1)和明确/攻击性语言(标签3)。评估指标为F-1分数,旨在平衡精确率和召回率,并在不平衡分类问题中提供良好结果。 举例: 数据集中包含多个文本示例,例如:“这个产品真是太棒了!”可能被标注为标签1:0、标签2:0、标签3:0,表示该文本不包含性别歧视和攻击性语言;而“你这种人根本不配活在这个世界上”可能被标注为标签1:1、标签2:1、标签3:1,表示该文本包含非针对性别的性别歧视、针对边缘化性别与性取向的性别歧视和攻击性语言。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 19:23 (UTC)
创建于 四月 14, 2025, 19:23 (UTC)