ICDAR2019后OCR文本校正竞赛数据集

数据集概述

该数据集为ICDAR2019后OCR文本校正竞赛的语料库,包含约2200万字符的OCR文本及对应标准文本(GS),源自法国国家图书馆、大英图书馆等机构的数字馆藏,用于训练和评估后OCR文本校正方法。

文件详解

  • 训练集文件:ICDAR2019_Post_OCR_correction_training_18M.zip,压缩格式,占全量数据的80%,用于模型训练
  • 评估集文件:ICDAR2019_Post_OCR_correction_evaluation_4M,未提及格式,占全量数据的20%,用于竞赛评估(赛后公开GS)
  • 全量数据集文件:ICDAR2019_Post_OCR_correction_full_22M,未提及格式,赛后公开的完整数据集
  • 芬兰语数据处理说明:需通过指定步骤从芬兰国家图书馆获取并生成,包含1579528字符训练集、380817字符评估集、1960345字符全量数据
  • 文件内容结构:文本文件按[OCR_toInput](待降噪原始OCR文本)、[OCR_aligned](对齐后的OCR文本)、[GS_aligned](对齐后的标准文本)格式存储,字符级对齐使用@符号,#符号表示无GS或对齐不确定

数据来源

  • 法国国家图书馆(BnF)
  • 大英图书馆(BL)
  • 欧洲ana报纸、IMPACT、古登堡计划、Perseus、维基文库等外部倡议
  • 芬兰国家图书馆(特定芬兰语数据)

适用场景

  • OCR文本校正模型训练:用于开发和优化后OCR文本错误检测与校正算法
  • 历史文档数字化研究:分析不同来源历史文档OCR质量及校正方法效果
  • 多语言文本处理评估:基于多语言语料评估校正模型的跨语言适应性
  • 竞赛与技术 benchmark 构建:作为后OCR文本校正任务的标准评估数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 51.82 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。