nlp2023_toxic_german_德语新闻评论毒性标注数据集

数据集概述

本数据集包含2021年11月4日至10日期间奥地利报纸DerStandard网站的新闻评论数据,共4473条原创评论(排除评论回复),涉及522篇文章。数据包含2818条无毒评论和1655条有毒评论,类别分布相对均衡。每条评论标注了二进制毒性标签,部分评论还包含粗俗语言、目标个体、目标群体、其他目标四类细分标签及文本位置信息。

文件详解

  • 文件名称:nlp2023_toxic_german.xml
  • 文件格式:XML
  • 字段映射介绍:包含新闻评论的核心内容与标注信息,主要字段可能涵盖:评论文本内容、二进制毒性分类标签(有毒/无毒)、细分标签(Vulgarity、Target: Individual、Target: Group、Target: Other)、文本位置标注、评论所属文章关联信息、评论发布日期等。

数据来源

奥地利报纸DerStandard(www.derStandard.at)

适用场景

  • 德语NLP毒性检测模型训练: 用于开发和优化德语文本的毒性评论自动识别算法。
  • 社交媒体内容安全研究: 分析新闻评论中的毒性语言特征及分布规律。
  • 多标签文本分类任务: 基于粗俗语言、目标类型等细分标签,开展多维度文本分类研究。
  • 媒体评论数据分析: 探究特定时间段内新闻评论的毒性倾向与新闻主题的关联。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。