数据集概述
本数据集是HTR Winter School 2023/2024加洛林拉丁语小组发布的转录基准数据,包含维也纳奥地利国家图书馆Cod. 473(《教皇史》部分内容)和Cod. 1239(带注释的保罗书信)的转录文本,分为带注释和不带注释两种版本,并提供Cod. 473的对应图像文件,遵循Tim Geelhaar的加洛林小写字母转录规范。
文件详解
- 核心转录文件
- 文件名称:Wien,Österreichische_Nationalbibliothek(ÖNB),Cod__473.xml/txt;Wien,_Österreichische_Nationalbibliothek(ÖNB),Cod__1239.xml/txt;Wien,_Österreichische_Nationalbibliothek(ÖNB),Cod__1239(w_o_glosses).xml/txt
- 文件格式:XML、TXT
- 字段映射介绍:XML含结构化转录元数据,TXT为纯文本转录内容,覆盖Cod. 473部分章节及Cod. 1239带注释/不带注释的保罗书信文本
- 图像文件
- 文件名称:Images Wien,Österreichische_Nationalbibliothek(ÖNB),_Cod__473.zip
- 文件格式:ZIP(含图像文件)
- 字段映射介绍:Cod. 473手稿对应的图像文件压缩包
- 辅助说明文件
- 文件名称:README.md、CITATION.cff、htr-winter-school-2023-2024-carolingian-latin-onb-473-and-1239.yml
- 文件格式:MD、CFF、YML
- 字段映射介绍:README含数据集说明,CFF为引用格式文件,YML为配置文件
数据来源
奥地利科学院HTR Winter School 2023/2024加洛林拉丁语小组
适用场景
- 古文献转录模型训练:作为加洛林小写字母文本的基准数据,用于训练和评估手写文本识别(HTR)模型
- 中世纪拉丁语研究:分析加洛林时期拉丁语手稿的语言特征、注释传统及文本内容
- 数字人文资源建设:为古文献数字化项目提供结构化转录数据和图像对应资源
- 转录规范验证:验证Tim Geelhaar加洛林小写字母转录规范在实际手稿处理中的适用性