-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
2026年1月26日 30 20 4
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
2026年1月26日 30 20 4