数据集概述
本数据集是目前最大的德语辱骂性语言新闻评论标注数据集,包含专业审核员(RP-Mod)和众包(RP-Crowd)两种标注来源的数据。数据覆盖德语新闻评论的文本内容及对应的辱骂性标签,支持自然语言处理模型的训练与评估,总计十五个文件,以CSV格式为主。
文件详解
- CSV文件(共13个)
- 部分文件名称:RP-Crowd-1.csv、RP-Crowd-1-folds.csv、RP-Mod-Crowd.csv等
- 文件格式:CSV
- 字段映射介绍:
- 基础数据文件(如RP-Crowd-1.csv):包含id(评论编号)、text(德语评论文本)、label(辱骂性标签)字段
- 交叉验证文件(如RP-Crowd-1-folds.csv):包含text(德语评论文本)、label(辱骂性标签)、five_folds(五折划分)、ten_folds(十折划分)、train_test_split(训练测试划分)字段
- Excel文件(共2个)
- 文件名称:CrowdGuru-Demographic.xlsx、CrowdGuru-Ratings.xlsx
- 文件格式:XLSX
- 字段映射介绍:推测包含众包标注者的人口统计信息(CrowdGuru-Demographic.xlsx)和标注评分数据(CrowdGuru-Ratings.xlsx)
数据来源
RP-Mod & RP-Crowd 项目
适用场景
- 辱骂性语言检测模型训练: 用于训练和优化德语辱骂性语言检测的自然语言处理模型
- 标注来源对比研究: 分析专业审核员与众包标注的一致性及差异
- 新闻评论审核系统开发: 为新闻媒体评论区的自动化审核系统提供数据支持
- 交叉验证策略评估: 利用含folds划分的文件测试模型在不同验证策略下的性能
- 众包标注质量分析: 通过众包标注者的人口统计和评分数据,研究众包标注的质量影响因素