NewsEye_READ_AS_19世纪芬兰报纸训练数据集

数据集概述

该数据集包含19世纪芬兰报纸页面的带注释文本数据,共200页训练集页面图像由芬兰国家图书馆(NLF)提供,数据按PAGE格式构建,通过Transkribus平台生成,附带相关指南文档,为报纸文本识别模型训练提供支持。

文件详解

  • 文件名称: Article GT guidelines for Newseye.pdf:PDF格式文档,包含创建该数据集标注指南的详细内容。
  • 文件名称: AS_TrainingSet_NLF_NewsEye_v2.zip:ZIP格式压缩包,包含按PAGE格式构建的19世纪芬兰报纸训练集数据。

数据来源

芬兰国家图书馆(NLF)、NewsEye项目、READ项目、Transkribus平台

适用场景

  • 历史文本识别研究: 用于训练和优化19世纪芬兰报纸页面的自动文本识别(AS)模型。
  • 数字人文研究: 支持对19世纪芬兰报纸内容的数字化挖掘与分析。
  • 文档分析技术开发: 为基于PAGE格式的文档处理算法提供训练数据。
  • 历史语言学研究: 辅助探究19世纪芬兰语言使用特征及演变。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 966.51 MiB
最后更新 2025年12月24日
创建于 2025年12月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。