数据集

Corpus_Litterarum_Source_e_codices拉丁手稿字符标注数据集

数据集概述

本数据集是基于e-codices提供的Codices Sangallenses CSG 11和CSG 70两份拉丁手稿构建的行级字符标注数据集。包含2152行图像及44407条字符级标注（共73类），涵盖标准拉丁字母、缩写及抄写符号，采用半自动标注流程。数据按预定义的训练/验证/测试集划分，支持古文字学、手写文本识别及字符分割研究。

文件详解

文档类文件
文件名称：README.md、README.roboflow.txt
文件格式：.md、.txt
字段映射介绍：包含数据集来源、构建方法、标注规则及使用说明等文档信息
配置文件
文件名称：data.yaml
文件格式：.yaml
字段映射介绍：数据集配置文件，定义训练/验证/测试集路径、字符类别等元数据
图像压缩包
文件名称：train-images.zip、valid-images.zip、test-images.zip
文件格式：.zip
字段映射介绍：分别存储训练集、验证集、测试集的行级图像文件
标注压缩包
文件名称：train-labels.zip、valid-labels.zip、test-labels.zip
文件格式：.zip
字段映射介绍：分别存储对应图像集的字符级标注文件，标注涵盖73类字符（含标准字母、缩写及抄写符号）

数据来源

e-codices提供的Codices Sangallenses CSG 11和CSG 70拉丁手稿

适用场景

古文字学研究：分析中世纪拉丁手稿的字符书写特征与抄写习惯
手写文本识别模型训练：用于训练拉丁手稿字符识别（HTR）模型
字符分割算法优化：验证古文字符分割算法的准确性与鲁棒性
数字人文资源建设：为拉丁手稿数字化项目提供标注数据支撑

数据与资源

16995048.zipZIP
104.59 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	104.59 MiB
最后更新	2026年1月12日
创建于	2026年1月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。