Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新

数据集概述

本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据,包含PNG和XML文件,将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建,用于训练Transkribus平台的PyLaia模型,涵盖16至19世纪的梵语与纽瓦语手稿,支持古文字OCR模型的开发与优化。

文件详解

  • 文件名称:export_job_3435367.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含OCR模型训练用的真值数据,包含PNG图像文件(手稿图像)和XML文件(对应图像的文本转录标注),具体字段需解压后查看XML标注结构。

适用场景

  • 古文字OCR模型训练: 用于训练和优化识别Pracalit字体梵语与纽瓦手稿的OCR模型。
  • 历史文献数字化: 支持16至19世纪尼泊尔梵语与纽瓦语手稿的数字化转录与文本提取。
  • 手稿文本校勘: 作为真值数据,辅助古文献转录文本的准确性验证与校勘。
  • 古文字学研究: 为Pracalit字体的书写特征、语言混合现象(梵语与纽瓦语)研究提供标注数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 480.6 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。