数据集概述
本数据集来自Hatemedia项目(PID2020-114584GB-I00),包含西班牙数字媒体中按强度和类型分类的仇恨词汇库。数据从项目算法训练数据库提取,经去重、人工审核后,形成按仇恨强度(4级)和仇恨类型(5类)划分的词汇集合,总计2813个单/复合词汇,用于数字媒体仇恨言论分析。
文件详解
- 文件名称:Librería final tipos de odio.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含按仇恨类型分类的词汇列表,类型包括仇恨通用、仇恨女性、仇恨政治、仇恨性向、仇恨外来者,记录各类别的单/复合仇恨词汇。
- 文件名称:Librería final de intensidades de odio.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含按仇恨强度分类的词汇列表,强度分为4级(从非文明言论到明确威胁),记录各强度的单/复合仇恨词汇。
数据来源
Hatemedia项目(PID2020-114584GB-I00),由MCIN/AEI/10.13039/501100011033资助
适用场景
- 数字媒体仇恨言论检测: 用于训练或优化西班牙数字媒体中仇恨言论的自动识别算法。
- 社交媒体内容监管: 支持平台对不同强度、类型的仇恨言论进行分类监控与治理。
- 传播学研究: 分析西班牙数字媒体中仇恨言论的语言特征及分布规律。
- 社会议题分析: 探究仇恨女性、仇恨外来者等特定类型仇恨言论的社会文化背景。
- 政策制定参考: 为制定针对性的反仇恨言论政策提供数据支撑。