数据集概述
本数据集包含用于Transkribus手写文本识别(HTR)训练实验的约翰·克里索斯托姆《提多书讲道》手稿列表及人工转录样本。手稿年代为10至14世纪,数据集提供CSV格式的手稿清单及TEI标准格式的XML人工转录文件,支持HTR模型训练的基础数据需求。
文件详解
- 文件名称:sample_dataset-chrysostomus-ad_titum_2.zip、sample_dataset-chrysostomus-ad_titum.zip
- 文件格式:ZIP
- 字段映射介绍:
- CSV文件包含字段:Sigla(手稿缩写标识)、Manuscripts(手稿名称及馆藏书号)、Folia(实验使用的手稿页码)、Ground truth data sample [file_name](对应TEI/XML转录文件名)、Image files(图书馆数字档案链接)
- XML文件:TEI标准格式的人工转录文本,作为HTR模型训练的真值数据
适用场景
- 手写文本识别模型训练: 利用TEI/XML人工转录文本作为真值数据,训练针对中世纪手稿的HTR模型
- 中世纪手稿研究: 分析10-14世纪约翰·克里索斯托姆讲道手稿的传播与版本特征
- 数字人文研究: 结合手稿元数据与转录文本,开展中世纪宗教文献的数字化分析
- 图书馆数字资源整合: 通过Image files字段链接,整合不同图书馆的手稿数字档案资源