Noscemus_Transkribus_Based_早期现代拉丁印刷品机器可读文本数据

数据集概述

本数据集包含从Noscemus Wiki收录的作品数字副本中提取的纯文本,通过Transkribus工具转换为机器可读格式。文本通过Transkribus ID相互关联,每个数字副本的来源均有记录。转录文本由NOSCEMUS项目训练的早期现代拉丁印刷品识别模型自动生成,未经过人工编辑或校正,共包含1个文件。

文件详解

  • 文件名称:Noscemus_Digital_Sourcebook.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含从Noscemus Wiki数字副本提取的纯文本文件,文本通过Transkribus ID实现互联,每个文本对应原始数字副本的来源信息记录,内容为早期现代拉丁印刷品的机器可读转录文本,未包含人工编辑或校正内容。

数据来源

Noscemus Wiki

适用场景

  • 早期现代拉丁文献数字化研究: 用于分析早期现代拉丁印刷品的文本内容及数字化转录质量。
  • 文本识别模型评估: 验证Transkribus工具针对早期现代拉丁印刷品的自动识别模型性能。
  • 数字人文研究: 为数字人文领域提供机器可读的早期现代拉丁文献资源,支持文本挖掘与分析。
  • 文献资源整合: 作为Noscemus项目的文本数据基础,支持相关历史、语言类研究的资源整合与关联分析。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 287.15 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。