数据集概述
本数据集包含101份中世纪日期标注手稿的数字图像转录内容,源自ANR ORIFLAMMS项目。数据以TEI-XML格式记录手稿文本的缩写与扩展形式,经修订后于2022年3月更新,包含文本、坐标、链接等多类型文件,支持中世纪手稿的文本与图像对齐研究。
文件详解
- img文件夹
- 内容:含101张手稿扫描图像,图像标注有手稿 shelfmark 和页码信息
- 关联:图像对应texts文件夹中TEI文件的元素,且已集成到BVMM的IIIF兼容图像库
- texts文件夹
- 文件名称:mss-dates-w.xml、mss-dates-c.xml、mss-dates-w-merged.xml
- 文件格式:XML
- 字段映射:mss-dates-w.xml含段落、行、词的标识符;mss-dates-c.xml含字符级标识符;mss-dates-w-merged.xml集成图像坐标、优化ID属性、增强和元素的@facs与@corresp属性
- zones、img_links文件夹
- 内容:zones含图像坐标描述文件;img_links含文本与坐标的链接文件
- alto文件夹
- 文件名称:Dated-and-Datable-Manuscripts_resegmented.zip
- 文件格式:ZIP(含ALTO文件)
- 字段映射:ALTO文件由TEI文件生成,按行记录文本,包含带/不带标准化、带/不带缩写扩展的多版本内容
- ontologies、ontologies_link、oriflamms文件夹
- 内容:仅含文件夹结构,无实际数据
数据来源
ANR ORIFLAMMS项目(ANR-12-CORP-0010)
适用场景
- 中世纪手稿文本分析:利用TEI-XML转录内容研究手稿的语言特征、书写规范与缩写系统
- 文本图像对齐研究:通过zones与img_links文件分析手稿文本与图像的空间对应关系
- 数字人文工具验证:测试Transkribus等文本布局分割工具在中世纪手稿处理中的效果
- 手稿元数据整合:结合img文件夹的shelfmark信息与texts文件夹的标识符,构建中世纪手稿元数据库
- 历史文献数字化:基于ALTO文件的多版本文本,探索中世纪手稿数字化呈现的标准化方案