Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

数据集概述

本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型,由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练,基于不同训练文本和方法构建,配套字典数据来自多类阿尔萨斯语料库与词典,可用于阿尔萨斯方言文本的光学字符识别。

文件详解

  • ISKO_2015.zip
  • 文件格式:ZIP
  • 内容说明:适用于Tesseract 3.0x的阿尔萨斯方言OCR模型,基于7部印刷作品(约9000词)生成的图像训练,使用Arial、Times New Roman及其斜体变体(36pt字号),对应论文发表于hal-01252241。
  • 2018.zip
  • 文件格式:ZIP
  • 内容说明:适用于Tesseract 4.0x的阿尔萨斯方言OCR模型,基于2个世纪多体裁阿尔萨斯文本提取的n-gram构建的人工训练文本,通过text2image工具生成图像(36pt字号、20行间距),包含gsw.font_properties字体列表文件。

数据来源

法国ANR资助的RESTAURE项目

适用场景

  • 阿尔萨斯方言文本数字化:用于扫描版阿尔萨斯方言文献、报纸、戏剧等文本的自动识别与转写。
  • 方言语言资源保护:辅助阿尔萨斯方言历史资料的数字化存档与检索。
  • OCR模型性能对比研究:比较不同版本Tesseract模型在低资源方言上的识别效果。
  • 多语言OCR融合应用:结合法语、德语Tesseract模型提升阿尔萨斯方言文本识别精度。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.89 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。