HTR_Winter_School_2023_2024_加洛林拉丁语手稿转录基准数据

数据集概述

本数据集是HTR Winter School 2023/2024加洛林拉丁语小组发布的转录基准数据,包含维也纳奥地利国家图书馆Cod. 473(《教皇史》部分内容)和Cod. 1239(带注释的保罗书信)的转录文本,分为带注释和不带注释两种版本,并提供Cod. 473的对应图像文件,遵循Tim Geelhaar的加洛林小写字母转录规范。

文件详解

  • 核心转录文件
  • 文件名称:Wien,Österreichische_Nationalbibliothek(ÖNB),Cod__473.xml/txt;Wien,_Österreichische_Nationalbibliothek(ÖNB),Cod__1239.xml/txt;Wien,_Österreichische_Nationalbibliothek(ÖNB),Cod__1239(w_o_glosses).xml/txt
  • 文件格式:XML、TXT
  • 字段映射介绍:XML含结构化转录元数据,TXT为纯文本转录内容,覆盖Cod. 473部分章节及Cod. 1239带注释/不带注释的保罗书信文本
  • 图像文件
  • 文件名称:Images Wien,Österreichische_Nationalbibliothek(ÖNB),_Cod__473.zip
  • 文件格式:ZIP(含图像文件)
  • 字段映射介绍:Cod. 473手稿对应的图像文件压缩包
  • 辅助说明文件
  • 文件名称:README.md、CITATION.cff、htr-winter-school-2023-2024-carolingian-latin-onb-473-and-1239.yml
  • 文件格式:MD、CFF、YML
  • 字段映射介绍:README含数据集说明,CFF为引用格式文件,YML为配置文件

数据来源

奥地利科学院HTR Winter School 2023/2024加洛林拉丁语小组

适用场景

  • 古文献转录模型训练:作为加洛林小写字母文本的基准数据,用于训练和评估手写文本识别(HTR)模型
  • 中世纪拉丁语研究:分析加洛林时期拉丁语手稿的语言特征、注释传统及文本内容
  • 数字人文资源建设:为古文献数字化项目提供结构化转录数据和图像对应资源
  • 转录规范验证:验证Tim Geelhaar加洛林小写字母转录规范在实际手稿处理中的适用性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 86.2 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。