印地语性别歧视滥用检测数据集-社区竞赛2021-2023-mpwolke

印地语性别歧视滥用检测数据集-社区竞赛2021-2023-mpwolke 数据来源:互联网公开数据 标签:性别歧视,在线暴力,印地语,社区竞赛,数据集,滥用检测,印度语言

数据概述: 本数据集收录了通过社区竞赛收集的印地语在线性别歧视滥用内容,旨在为印度语言内容中的性别歧视滥用检测提供数据支持。数据集包含来自推特的文本数据,标注了是否包含性别歧视内容。每个标签的取值可以是“1”(表示该条推文被标注为包含性别歧视)、“0”(表示该条推文不包含性别歧视)、“NL”(表示该条推文分配给标注者但未进行标注)、“NaN”(表示该条推文未分配给标注者)。

数据集的构建目的是为了应对日益严重的在线性别暴力问题,这种暴力行为会加剧现有的社会和经济脆弱性,影响人们的在线参与度,进而影响其政治和经济机会。在极端情况下,甚至可能导致生命危险。尽管存在对自动化性别歧视检测方法的需求,但目前缺乏适用于印度语言的标注数据集。因此,本数据集的建立对于支持印度语言内容的性别歧视检测具有重要意义。

数据集的详细信息可参考论文《Gendered Abuse Detection in Indic Languages》:https://arxiv.org/abs/2311.09086。有关数据集的更多信息和下载链接,请访问:https://sites.google.com/view/icon2023-tattle-sharedtask/overview

数据用途概述: 该数据集适用于性别歧视检测算法的研发、在线暴力内容的监控、社交媒体平台的社区管理、以及相关领域的学术研究。研究人员可以利用此数据集训练和评估性别歧视检测模型;平台管理人员可利用该数据集提高对性别歧视内容的识别能力,从而更好地保护用户;教育机构亦可将其用于性别歧视相关课程的教学和学生项目。

请注意,该数据集中的代码应通过邮件发送至Tattle:https://www.kaggle.com/competitions/gendered-abuse-detection-shared-task

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.41 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。