数据集概述
本数据集是基于e-codices提供的Codices Sangallenses CSG 11和CSG 70两份拉丁手稿构建的行级字符标注数据集。包含2152行图像及44407条字符级标注(共73类),涵盖标准拉丁字母、缩写及抄写符号,采用半自动标注流程。数据按预定义的训练/验证/测试集划分,支持古文字学、手写文本识别及字符分割研究。
文件详解
- 文档类文件
- 文件名称:README.md、README.roboflow.txt
- 文件格式:.md、.txt
- 字段映射介绍:包含数据集来源、构建方法、标注规则及使用说明等文档信息
- 配置文件
- 文件名称:data.yaml
- 文件格式:.yaml
- 字段映射介绍:数据集配置文件,定义训练/验证/测试集路径、字符类别等元数据
- 图像压缩包
- 文件名称:train-images.zip、valid-images.zip、test-images.zip
- 文件格式:.zip
- 字段映射介绍:分别存储训练集、验证集、测试集的行级图像文件
- 标注压缩包
- 文件名称:train-labels.zip、valid-labels.zip、test-labels.zip
- 文件格式:.zip
- 字段映射介绍:分别存储对应图像集的字符级标注文件,标注涵盖73类字符(含标准字母、缩写及抄写符号)
数据来源
e-codices提供的Codices Sangallenses CSG 11和CSG 70拉丁手稿
适用场景
- 古文字学研究:分析中世纪拉丁手稿的字符书写特征与抄写习惯
- 手写文本识别模型训练:用于训练拉丁手稿字符识别(HTR)模型
- 字符分割算法优化:验证古文字符分割算法的准确性与鲁棒性
- 数字人文资源建设:为拉丁手稿数字化项目提供标注数据支撑