Transkribus_Based_约翰_克里索斯托姆讲道手稿列表及人工转录数据_V1_2

数据集概述

本数据集包含用于Transkribus手写文本识别(HTR)训练实验的约翰·克里索斯托姆《提多书讲道》手稿列表及人工转录样本。手稿年代为10至14世纪,数据集提供CSV格式的手稿清单及TEI标准格式的XML人工转录文件,支持HTR模型训练的基础数据需求。

文件详解

  • 文件名称:sample_dataset-chrysostomus-ad_titum_2.zip、sample_dataset-chrysostomus-ad_titum.zip
  • 文件格式:ZIP
  • 字段映射介绍:
  • CSV文件包含字段:Sigla(手稿缩写标识)、Manuscripts(手稿名称及馆藏书号)、Folia(实验使用的手稿页码)、Ground truth data sample [file_name](对应TEI/XML转录文件名)、Image files(图书馆数字档案链接)
  • XML文件:TEI标准格式的人工转录文本,作为HTR模型训练的真值数据

适用场景

  • 手写文本识别模型训练: 利用TEI/XML人工转录文本作为真值数据,训练针对中世纪手稿的HTR模型
  • 中世纪手稿研究: 分析10-14世纪约翰·克里索斯托姆讲道手稿的传播与版本特征
  • 数字人文研究: 结合手稿元数据与转录文本,开展中世纪宗教文献的数字化分析
  • 图书馆数字资源整合: 通过Image files字段链接,整合不同图书馆的手稿数字档案资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.51 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。