Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型，由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练，基于不同训练文本和方法构建，配套字典数据来自多类阿尔萨斯语料库与词典，可用于阿尔萨斯方言文本的光学字符识别。

ISKO_2015.zip
文件格式：ZIP
内容说明：适用于Tesseract 3.0x的阿尔萨斯方言OCR模型，基于7部印刷作品（约9000词）生成的图像训练，使用Arial、Times New Roman及其斜体变体（36pt字号），对应论文发表于hal-01252241。
2018.zip
文件格式：ZIP
内容说明：适用于Tesseract 4.0x的阿尔萨斯方言OCR模型，基于2个世纪多体裁阿尔萨斯文本提取的n-gram构建的人工训练文本，通过text2image工具生成图像（36pt字号、20行间距），包含gsw.font_properties字体列表文件。

法国ANR资助的RESTAURE项目

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	1.89 MiB
最后更新	2026年1月28日
创建于	2026年1月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。