ICDAR2019后OCR文本校正竞赛数据集

该数据集为ICDAR2019后OCR文本校正竞赛的语料库，包含约2200万字符的OCR文本及对应标准文本（GS），源自法国国家图书馆、大英图书馆等机构的数字馆藏，用于训练和评估后OCR文本校正方法。

训练集文件：ICDAR2019_Post_OCR_correction_training_18M.zip，压缩格式，占全量数据的80%，用于模型训练
评估集文件：ICDAR2019_Post_OCR_correction_evaluation_4M，未提及格式，占全量数据的20%，用于竞赛评估（赛后公开GS）
全量数据集文件：ICDAR2019_Post_OCR_correction_full_22M，未提及格式，赛后公开的完整数据集
芬兰语数据处理说明：需通过指定步骤从芬兰国家图书馆获取并生成，包含1579528字符训练集、380817字符评估集、1960345字符全量数据
文件内容结构：文本文件按[OCR_toInput]（待降噪原始OCR文本）、[OCR_aligned]（对齐后的OCR文本）、[GS_aligned]（对齐后的标准文本）格式存储，字符级对齐使用@符号，#符号表示无GS或对齐不确定

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	51.82 MiB
最后更新	2025年12月19日
创建于	2025年12月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。