数据集

Noscemus_Transkribus_Based_早期现代拉丁印刷品机器可读文本数据

数据集概述

本数据集包含从Noscemus Wiki收录的作品数字副本中提取的纯文本，通过Transkribus工具转换为机器可读格式。文本通过Transkribus ID相互关联，每个数字副本的来源均有记录。转录文本由NOSCEMUS项目训练的早期现代拉丁印刷品识别模型自动生成，未经过人工编辑或校正，共包含1个文件。

文件详解

文件名称：Noscemus_Digital_Sourcebook.zip
文件格式：ZIP
字段映射介绍：压缩包内包含从Noscemus Wiki数字副本提取的纯文本文件，文本通过Transkribus ID实现互联，每个文本对应原始数字副本的来源信息记录，内容为早期现代拉丁印刷品的机器可读转录文本，未包含人工编辑或校正内容。

数据来源

Noscemus Wiki

适用场景

早期现代拉丁文献数字化研究: 用于分析早期现代拉丁印刷品的文本内容及数字化转录质量。
文本识别模型评估: 验证Transkribus工具针对早期现代拉丁印刷品的自动识别模型性能。
数字人文研究: 为数字人文领域提供机器可读的早期现代拉丁文献资源，支持文本挖掘与分析。
文献资源整合: 作为Noscemus项目的文本数据基础，支持相关历史、语言类研究的资源整合与关联分析。

数据与资源

15040256.zipZIP
287.15 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	287.15 MiB
最后更新	2026年1月13日
创建于	2026年1月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Noscemus_Transkribus_Based_早期现代拉丁印刷品机器可读文本数据

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！