PaGA_12_Based_26类体裁德语文本分类语料库

数据集概述

本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。

文件详解

  • 文件名称:corpus-paga-12.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含MySQL数据库转储文件及README文件。数据库结构记录在README中,核心内容为1639个德语HTML文档,每个文档关联手动标注的26种体裁之一,无训练/测试、数据/标签或原始/处理数据的拆分。

适用场景

  • 文本体裁分类研究:用于训练和评估自然语言处理模型对德语文本体裁的自动分类能力。
  • 德语文本特征分析:分析不同体裁德语文本的语言特征、结构差异及风格规律。
  • 语料库构建方法研究:参考该语料库的手动标注流程和文档筛选标准,优化其他领域语料库的构建策略。
  • 自然语言处理模型训练:作为多类别文本分类任务的基准数据集,验证模型性能。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 19.72 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。