数据集概述
本数据集为ICDAR'24历史地图文本检测、识别与关联竞赛提供训练和验证数据,包含从Val de Marne档案馆拿破仑地籍图中裁剪的2Kx2K像素图像切片,配套标注文件遵循竞赛格式,可通过官方脚本评估,适用于历史地图文本相关算法开发与测试。
文件详解
- 训练集文件
- 图像文件:train.zip(ZIP格式),包含ign/train目录下的.jpg格式图像切片(80个切片,对应37张地图 sheet)
- 标注文件:ign_train.json(JSON格式),对应训练集标注,包含8,096个单词(含563个模糊词、371个截断词、7,533个有效词,分属7,449个标签组)
- 验证集文件
- 图像文件:val.zip(ZIP格式),包含ign/val目录下的.jpg格式图像切片(15个切片,对应9张地图 sheet)
- 标注文件:ign_val.json(JSON格式),对应验证集标注,包含1,801个单词(含217个模糊词、91个截断词、1,584个有效词,分属1,661个标签组)
数据来源
Val de Marne档案馆拿破仑地籍图(原始图像获取链接:https://archives.valdemarne.fr/recherches/archives-en-ligne/cadastre-napoleonien,截至2024年2月1日有效)
适用场景
- 历史地图文本检测算法开发:用于训练和验证历史地图中文字区域的定位模型
- 低质量文本识别研究:针对模糊、截断等复杂历史文本的识别算法优化
- 文本关联任务探索:实现历史地图文本间的语义或空间关联分析
- 竞赛算法测试评估:适配ICDAR'24竞赛的官方评估流程,验证算法性能
- 数字人文资源处理:辅助历史地籍图的数字化与文本信息提取应用