PaGA_12_Based_26类体裁德语文本分类语料库

本数据集为2012年帕德博恩体裁分析语料库（PaGA-12），包含1639个HTML文档，覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日，每个文档手动标注唯一体裁，每种体裁至少包含50个文档。文档均为德语文本，已移除框架集，以MySQL数据库转储形式交付。

文件名称：corpus-paga-12.zip
文件格式：ZIP
字段映射介绍：压缩包内包含MySQL数据库转储文件及README文件。数据库结构记录在README中，核心内容为1639个德语HTML文档，每个文档关联手动标注的26种体裁之一，无训练/测试、数据/标签或原始/处理数据的拆分。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	19.72 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。