找到5个数据集

标签: Transkribus平台

过滤结果
  • Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新

    2026年1月20日 30 97 69

    数据集概述 本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据,包含PNG和XML文件,将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建,用于训练Transkribus平台的PyLaia模型,涵盖16至19世纪的梵语与纽瓦语手稿,支持古文字OCR模型的开发与优化。 文件详解...
    packageimg
  • NewsEye_READ_AS_19世纪芬兰报纸训练数据集

    2025年12月24日 30 44 25

    数据集概述 该数据集包含19世纪芬兰报纸页面的带注释文本数据,共200页训练集页面图像由芬兰国家图书馆(NLF)提供,数据按PAGE格式构建,通过Transkribus平台生成,附带相关指南文档,为报纸文本识别模型训练提供支持。 文件详解 文件名称: Article GT guidelines for...
    packageimg
  • 中古低地德语_Flos_unde_Blankeflos_数字外交版本与图像数据集

    2025年12月20日 30 38 1

    数据集概述 本数据集包含四部中古低地德语《Flos unde Blankeflos》手稿的数字外交版本与图像数据,采用Transkribus平台生成转录文本,提供ALTO XML、PAGE XML格式文件及数字图像、元数据,便于手稿文本与版式分析。 文件详解 手稿压缩文件(共4个):...
    packageimg
  • 苏格兰海关账簿手写文本识别模型V0_8

    2025年12月19日 30 35 13

    数据集概述 本数据集是基于Transkribus平台训练的手写文本识别(HTR)模型,训练数据来自苏格兰国家档案馆1660-1691年间的海关账簿,覆盖9个港口的631页历史文档,用于识别该时期苏格兰海洋商品出口记录。 文件详解 文件名称: Scottish customs books Training Set samples.zip 文件格式:...
    packageimg
  • 数据19世纪奥地利报纸OCR训练数据集_NewsEye_READ

    2025年12月4日 30 170 4

    数据集概述 该数据集包含19世纪至20世纪初奥地利报纸页面的经人工校正文本数据,分为训练集(148页)和验证集(13页),采用PAGE格式存储,由Transkribus平台生成,支持NewsEye与READ项目研究。 文件详解 训练集文件:...
    packageimg