找到3个数据集

标签: ALTO格式

过滤结果
  • Hofdiarium_1665_Based德累斯顿宫廷日记库兰特手写体基准数据集

    2026年1月19日 30 188 47

    数据集概述 本数据集为17世纪萨克森库兰特手写体的手写文本识别(HTR/OCR)基准数据集,包含《选帝侯约翰·格奥尔格二世1665年宫廷日记》(SLUB Mscr.Dresd.K.80)的10页(fol.85r-89v)基准数据,采用eScriptorium完成图像与文本对齐,提供多种格式文件及转录指南。 文件详解 压缩包文件...
    packageimg
  • 范妮_门德尔松致威廉_亨塞尔书信转录数据集

    2025年12月14日 30 91 66

    数据集概述 本数据集包含范妮·门德尔松致丈夫威廉·亨塞尔的122封书信转录内容,源自柏林国家图书馆的两文件夹藏品,共250页、2240行文本,以PAGE、ALTO及基础TEI格式存储,支持历史书信研究与手写文本识别模型训练。 文件详解 文件名称:1878144588.zip、1878121294.zip 文件格式:ZIP压缩包...
    packageimg
  • 塞维利亚古版书字符分割与识别数据集1494_1500

    2025年12月11日 30 101 79

    数据集概述 该数据集包含针对1494-1500年塞维利亚古版书(INC/901)的字符分割与光学字符识别模型,基于Kraken工具训练,含62页、5556行数据,字体类型为97G,分割符合SegmOnto词汇标准。 文件详解 文件名称: inc_901_zenodo.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg