-
Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新
2026年1月20日 30 3 0
数据集概述 本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据,包含PNG和XML文件,将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建,用于训练Transkribus平台的PyLaia模型,涵盖16至19世纪的梵语与纽瓦语手稿,支持古文字OCR模型的开发与优化。 文件详解...
-
希腊教父文献集OCR标注数据集2021_2022
2025年12月14日 30 139 90
数据集概述 该数据集是希腊教父文献集(Patrologia Graeca)的OCR标注基准数据,包含2021-2022年期间人工标注的100张文献图像及对应PageXML文件,覆盖文本区域检测(希腊文、拉丁文列、脚注、标题)和古多调希腊文识别(行级标注)两类任务,用于OCR模型训练与验证。 文件详解 核心文件:...
-
欧盟车牌图像数据集
2025年12月6日 30 8 7
数据集概述 该数据集包含来自欧盟(主要为德国)的车辆车牌裁剪图像,涵盖德国多个州的车牌样本,可用于训练车牌检测、提取及OCR模型,支持贴纸检测与州分类模型开发。 文件详解 文件名称: eu-license-plates-0.0.1.zip 文件格式: .zip(压缩包) 内容说明:...
-
德累斯顿宫廷日记手写文本识别真值数据集1653_1656
2025年12月6日 30 181 140
数据集概述 该数据集包含17世纪萨克森宫廷日记(1653-1656)的12页手写文本真值数据,采用典型的萨克森官方法式草书(Kanzleikurrent)书写,偶见混合字体。提供与原始图像对齐的转录文本及ALTO XML格式文件,适用于手写文本识别模型训练与验证。 文件详解 图像文件:...
-
罗马尼亚过渡书写系统数据集
2025年6月1日 30 19 18
罗马尼亚过渡书写系统数据集 数据来源:互联网公开数据 标签:过渡书写系统,罗马尼亚,历史文档,OCR,字符统计,语言研究,文档分析 数据概述:...
-
乌尔都语OCR特征向量数据集
2025年5月31日 30 25 16
乌尔都语OCR特征向量数据集 数据来源:互联网公开数据 标签:乌尔都语,OCR,特征向量,连字识别,Nastalique字体,机器学习,模式识别 数据概述:...



