性别主义内容检测数据集

性别主义内容检测数据集 数据来源:互联网公开数据
标签:性别主义,社交媒体,内容分类,细粒度分析,自然语言处理,社会正义,在线行为

数据概述:
本数据集旨在支持开发更准确且可解释的性别主义内容检测模型,特别针对来自 Gab 和 Reddit 的细粒度性别主义内容分类。数据集包含三个层次化的子任务:
1. 二元性别主义检测:二分类任务,判断文本内容是否为性别主义。
2. 性别主义类别分类:四分类任务,针对性别主义内容,进一步分类为四种类型:(1)威胁、(2)贬低、(3)敌意、(4)偏见讨论。
3. 细粒度性别主义向量分类:十一分类任务,针对性别主义内容,进一步细分为十一种具体的细粒度类别。

数据用途概述:
该数据集适用于多种场景,包括但不限于:
1. 性别主义内容检测模型的开发与训练,提升模型的分类准确性和可解释性。
2. 在线性别主义行为的研究,帮助理解性别主义内容的分布及其对社会的影响。
3. 自动化内容审核工具的优化,提高平台对性别主义内容的识别和处理能力。
4. 社交媒体平台的公平性与包容性研究,为制定更有效的社区管理政策提供数据支持。
5. 自然语言处理技术在社会正义领域的应用探索,推动技术在解决社会问题中的作用。

通过本数据集,研究人员、开发者和政策制定者可以更好地理解性别主义内容的特征及其背后的社会动态,从而开发更有效的工具和技术,促进在线空间的公平与包容。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 17, 2025, 23:12 (UTC)
创建于 四月 17, 2025, 23:09 (UTC)