BNE_Based_PastReader_2025_历史报刊数字化完整数据

数据集概述

该数据集用于IberLEF 2025的PastReader 2025共享任务,基于西班牙国家图书馆数字化的公共领域历史报刊生成,包含训练、开发、测试三类压缩文件,支持相关历史文本处理任务研究。

文件详解

  • 文件名称:train.zip
  • 文件格式:ZIP压缩文件
  • 说明:训练集压缩包,具体内容未提供预览
  • 文件名称:dev.zip
  • 文件格式:ZIP压缩文件
  • 说明:开发集压缩包,具体内容未提供预览
  • 文件名称:test.zip
  • 文件格式:ZIP压缩文件
  • 说明:测试集压缩包,具体内容未提供预览

数据来源

西班牙国家图书馆(BNE)Hemeroteca Digital平台

适用场景

  • 历史文本处理研究:支持历史报刊OCR文本的校对、分析等任务开发
  • 共享任务参与:用于IberLEF 2025的PastReader 2025共享任务模型训练与评估
  • 数字人文研究:为历史报刊数字化资源的利用提供数据支持
  • 自然语言处理应用:适用于历史文本相关的NLP技术研究与实验
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 811.33 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。