数据集概述
本数据集包含从Noscemus Wiki收录的作品数字副本中提取的纯文本,通过Transkribus工具转换为机器可读格式。文本通过Transkribus ID相互关联,每个数字副本的来源均有记录。转录文本由NOSCEMUS项目训练的早期现代拉丁印刷品识别模型自动生成,未经过人工编辑或校正,共包含1个文件。
文件详解
- 文件名称:Noscemus_Digital_Sourcebook.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含从Noscemus Wiki数字副本提取的纯文本文件,文本通过Transkribus ID实现互联,每个文本对应原始数字副本的来源信息记录,内容为早期现代拉丁印刷品的机器可读转录文本,未包含人工编辑或校正内容。
数据来源
Noscemus Wiki
适用场景
- 早期现代拉丁文献数字化研究: 用于分析早期现代拉丁印刷品的文本内容及数字化转录质量。
- 文本识别模型评估: 验证Transkribus工具针对早期现代拉丁印刷品的自动识别模型性能。
- 数字人文研究: 为数字人文领域提供机器可读的早期现代拉丁文献资源,支持文本挖掘与分析。
- 文献资源整合: 作为Noscemus项目的文本数据基础,支持相关历史、语言类研究的资源整合与关联分析。