RP_Mod_RP_Crowd_Based_德语新闻评论审核与众包标注数据集

数据集概述

本数据集是目前最大的德语辱骂性语言新闻评论标注数据集,包含专业审核员(RP-Mod)和众包(RP-Crowd)两种标注来源的数据。数据覆盖德语新闻评论的文本内容及对应的辱骂性标签,支持自然语言处理模型的训练与评估,总计十五个文件,以CSV格式为主。

文件详解

  • CSV文件(共13个)
  • 部分文件名称:RP-Crowd-1.csv、RP-Crowd-1-folds.csv、RP-Mod-Crowd.csv等
  • 文件格式:CSV
  • 字段映射介绍:
  • 基础数据文件(如RP-Crowd-1.csv):包含id(评论编号)、text(德语评论文本)、label(辱骂性标签)字段
  • 交叉验证文件(如RP-Crowd-1-folds.csv):包含text(德语评论文本)、label(辱骂性标签)、five_folds(五折划分)、ten_folds(十折划分)、train_test_split(训练测试划分)字段
  • Excel文件(共2个)
  • 文件名称:CrowdGuru-Demographic.xlsx、CrowdGuru-Ratings.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:推测包含众包标注者的人口统计信息(CrowdGuru-Demographic.xlsx)和标注评分数据(CrowdGuru-Ratings.xlsx)

数据来源

RP-Mod & RP-Crowd 项目

适用场景

  • 辱骂性语言检测模型训练: 用于训练和优化德语辱骂性语言检测的自然语言处理模型
  • 标注来源对比研究: 分析专业审核员与众包标注的一致性及差异
  • 新闻评论审核系统开发: 为新闻媒体评论区的自动化审核系统提供数据支持
  • 交叉验证策略评估: 利用含folds划分的文件测试模型在不同验证策略下的性能
  • 众包标注质量分析: 通过众包标注者的人口统计和评分数据,研究众包标注的质量影响因素
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 77.47 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。