德累斯顿宫廷日记手写文本识别真值数据集1653_1656

数据集概述

该数据集包含17世纪萨克森宫廷日记(1653-1656)的12页手写文本真值数据,采用典型的萨克森官方法式草书(Kanzleikurrent)书写,偶见混合字体。提供与原始图像对齐的转录文本及ALTO XML格式文件,适用于手写文本识别模型训练与验证。

文件详解

  • 图像文件:
  • 12个JPG格式文件(如0004_00000008.tif.original.jpg),为原始手稿扫描件,存储于对应命名文件夹中
  • 标注文件:
  • 13个ALTO XML格式文件(如0030_00000034.tif.original.xml),包含与图像对齐的转录文本,遵循DTABF-M schema调整后的转录规范
  • 说明文件:
  • README_k113.txt:文本格式,包含数据集核心说明、转录规范及数据来源信息

数据来源

SLUB Dresden(萨克森州立与大学图书馆德累斯顿)

适用场景

  • 手写文本识别(HTR/OCR)模型训练与性能评估
  • 17世纪萨克森草书(Kurrent)书写特征研究
  • 历史文献数字化转录方法优化
  • 古籍文本格式标准化处理研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 71.75 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。