TPDL_2020_Based_古籍OCR噪声命名实体识别评估基准数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

TPDL_2020_Based_古籍OCR噪声命名实体识别评估基准数据

数据集概述

本数据集为古籍命名实体识别（NER）评估基准数据，基于CoNLL-02（西班牙语、荷兰语）和CoNLL-03（英语）NER语料库，通过模拟OCR噪声生成多语言含噪文本，包含原始文本转图像、添加扫描噪声、Tesseract OCR提取及文本对齐等处理环节，用于评估OCR质量对NER任务的影响。

文件详解

文件名称：ner_dataset-ocr_degradation.zip
文件格式：ZIP
字段映射介绍：压缩包内含三个语言文件夹，每个文件夹包含退化图像、OCR提取的含噪文本及与干净数据的对齐版本，具体字段未提供预览，需解压后查看各语言子文件内容。

数据来源

TPDL 2020论文“Assessing and Minimizing the Impact of OCR Quality on Named Entity Recognition”

适用场景

古籍命名实体识别模型鲁棒性评估: 用于测试NER模型在不同OCR噪声水平下的识别准确率和抗干扰能力。
OCR噪声对文本处理影响研究: 分析扫描噪声类型、强度与NER任务性能的关联，探索噪声容忍阈值。
多语言古籍文本处理研究: 基于英语、西班牙语、荷兰语的含噪语料，开展跨语言NER模型适配研究。
古籍数字化质量优化: 为古籍OCR流程的噪声控制和质量提升提供实证数据支持。

数据与资源

3877554.zipZIP
934.40 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	934.4 MiB
最后更新	2026年1月26日
创建于	2026年1月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？