中世纪希伯来手稿手写文本识别标注数据集

数据集概述

该数据集为手写文本识别(HTR)研究提供标注数据,包含法国国家图书馆(BnF)和梵蒂冈图书馆(BAV)的202张中世纪希伯来手稿图像的布局分割(区域、顶线、行多边形)及Unicode转录(ALTO 4.2 XML格式),支持中世纪希伯来手稿的文本识别模型训练与研究。

文件详解

  • BiblIA_dataset.zip: 压缩包格式,包含以下核心内容:
  • 132张法国国家图书馆(BnF)的手稿图像文件
  • 对应图像的ALTO 4.2 XML标注文件,遵循http://www.loc.gov/standards/alto/v4/alto-4-2.xsd schema,包含布局分割与Unicode转录信息
  • catalogue.txt: 文本文件,记录图像信息、手稿 shelfmarks、字体风格(阿什肯纳兹、意大利、塞法迪)、体裁(圣经、拉比文献)、日期、图像类型(彩色/灰度)、IIIF清单及图像下载链接(70张BAV图像仅提供IIIF链接)

数据来源

法国国家图书馆(BnF)、梵蒂冈图书馆(BAV)

适用场景

  • 手写文本识别(HTR)模型训练:针对中世纪希伯来手稿的文本识别算法开发
  • 中世纪希伯来文献数字化:支持古籍的自动转录与数字化保存
  • 手稿图像布局分析:研究中世纪希伯来手稿的排版结构与书写特征
  • 图书馆古籍资源利用:辅助图书馆对希伯来手稿的整理与检索优化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 520.9 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。