DBNL_Based荷兰数字化图书OCR与校正文本数据集

数据集概述

本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。

文件详解

  • 文件名称:Metadata_DBNL_OCR_v1.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览
  • 文件名称:TXT.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内为220本图书的原始OCR输出文本文件,格式为.txt
  • 文件名称:TEI.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内为220本图书的校正后文本文件,格式为TEI

数据来源

荷兰DBNL平台(https://dbnl.org/

适用场景

  • 文本OCR质量评估: 对比原始OCR文本与校正TEI文本,分析OCR技术的准确率与误差类型
  • 图书数字化文本处理: 用于数字化图书的文本提取、格式转换与结构化处理研究
  • 数字人文研究: 为荷兰语图书的数字化文本分析、语料库构建提供数据支持
  • 文本校正算法训练: 可作为OCR文本校正模型的训练或测试数据来源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 284.54 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。