数据集概述
本数据集为古籍命名实体识别(NER)评估基准数据,基于CoNLL-02(西班牙语、荷兰语)和CoNLL-03(英语)NER语料库,通过模拟OCR噪声生成多语言含噪文本,包含原始文本转图像、添加扫描噪声、Tesseract OCR提取及文本对齐等处理环节,用于评估OCR质量对NER任务的影响。
文件详解
- 文件名称:ner_dataset-ocr_degradation.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内含三个语言文件夹,每个文件夹包含退化图像、OCR提取的含噪文本及与干净数据的对齐版本,具体字段未提供预览,需解压后查看各语言子文件内容。
数据来源
TPDL 2020论文“Assessing and Minimizing the Impact of OCR Quality on Named Entity Recognition”
适用场景
- 古籍命名实体识别模型鲁棒性评估: 用于测试NER模型在不同OCR噪声水平下的识别准确率和抗干扰能力。
- OCR噪声对文本处理影响研究: 分析扫描噪声类型、强度与NER任务性能的关联,探索噪声容忍阈值。
- 多语言古籍文本处理研究: 基于英语、西班牙语、荷兰语的含噪语料,开展跨语言NER模型适配研究。
- 古籍数字化质量优化: 为古籍OCR流程的噪声控制和质量提升提供实证数据支持。