-
PaGA_12_Based_26类体裁德语文本分类语料库
2026年1月30日 30 194 81
数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
2026年1月30日 30 194 81