数据集 - 海数据

Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

2026年1月28日 30 132 80

数据集概述本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型，由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练，基于不同训练文本和方法构建，配套字典数据来自多类阿尔萨斯语料库与词典，可用于阿尔萨斯方言文本的光学字符识别。文件详解 ISKO_2015.zip 文件格式：ZIP...
- ZIP
TPDL_2020_Based_古籍OCR噪声命名实体识别评估基准数据

2026年1月26日 30 122 101

数据集概述本数据集为古籍命名实体识别（NER）评估基准数据，基于CoNLL-02（西班牙语、荷兰语）和CoNLL-03（英语）NER语料库，通过模拟OCR噪声生成多语言含噪文本，包含原始文本转图像、添加扫描噪声、Tesseract OCR提取及文本对齐等处理环节，用于评估OCR质量对NER任务的影响。文件详解文件名称：ner_dataset-...
- ZIP

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？