RP_Mod_RP_Crowd_Based_德语新闻评论审核与众包标注数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

RP_Mod_RP_Crowd_Based_德语新闻评论审核与众包标注数据集

数据集概述

本数据集是目前最大的德语辱骂性语言新闻评论标注数据集，包含专业审核员（RP-Mod）和众包（RP-Crowd）两种标注来源的数据。数据覆盖德语新闻评论的文本内容及对应的辱骂性标签，支持自然语言处理模型的训练与评估，总计十五个文件，以CSV格式为主。

文件详解

CSV文件（共13个）
部分文件名称：RP-Crowd-1.csv、RP-Crowd-1-folds.csv、RP-Mod-Crowd.csv等
文件格式：CSV
字段映射介绍：
基础数据文件（如RP-Crowd-1.csv）：包含id（评论编号）、text（德语评论文本）、label（辱骂性标签）字段
交叉验证文件（如RP-Crowd-1-folds.csv）：包含text（德语评论文本）、label（辱骂性标签）、five_folds（五折划分）、ten_folds（十折划分）、train_test_split（训练测试划分）字段
Excel文件（共2个）
文件名称：CrowdGuru-Demographic.xlsx、CrowdGuru-Ratings.xlsx
文件格式：XLSX
字段映射介绍：推测包含众包标注者的人口统计信息（CrowdGuru-Demographic.xlsx）和标注评分数据（CrowdGuru-Ratings.xlsx）

数据来源

RP-Mod & RP-Crowd 项目

适用场景

辱骂性语言检测模型训练: 用于训练和优化德语辱骂性语言检测的自然语言处理模型
标注来源对比研究: 分析专业审核员与众包标注的一致性及差异
新闻评论审核系统开发: 为新闻媒体评论区的自动化审核系统提供数据支持
交叉验证策略评估: 利用含folds划分的文件测试模型在不同验证策略下的性能
众包标注质量分析: 通过众包标注者的人口统计和评分数据，研究众包标注的质量影响因素

数据与资源

5291339.zipZIP
77.47 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	77.47 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？