数据集概述
本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。
文件详解
- XML标注文件(共37个)
- 文件名称:如Douwes_dekker_0066.xml、DSC_0345.xml等
- 文件格式:XML
- 字段映射介绍:Gado2命名实体处理应用的手写文本识别标注文件,包含全标注的文本内容及相关元数据
- 压缩包文件(共4个)
- 文件名称:Gado2_GT_1.1.zip、Knowledge_Base_Indonesian_People_Places_Organisations.zip、Ground_Truths_11-06-2021.zip、Gado2_KB_Indonesian_Entities.zip
- 文件格式:ZIP
- 字段映射介绍:包含手写文本识别标注数据压缩包及印尼实体知识库压缩包,知识库涵盖印尼人物、地点和组织信息,用于实体链接
数据来源
KBNLresearch(https://github.com/KBNLresearch/gado2)
适用场景
- 历史报纸文本识别优化:对比OCR与HTR的字符错误率,研究手写文本识别技术在低质量扫描文献中的应用效果
- 命名实体识别效率提升:基于HTR标注数据优化荷属东印度群岛多语言报纸的命名实体识别模型
- 印尼实体知识库构建:利用附带的JSON格式知识库,完善印尼人物、地点和组织的实体链接体系
- 荷属东印度群岛历史文献数字化:为荷属东印度群岛及印度尼西亚多语言报纸的数字化处理提供高质量标注数据支持