Corpus_Litterarum_Source_e_codices拉丁手稿字符标注数据集

数据集概述

本数据集是基于e-codices提供的Codices Sangallenses CSG 11和CSG 70两份拉丁手稿构建的行级字符标注数据集。包含2152行图像及44407条字符级标注(共73类),涵盖标准拉丁字母、缩写及抄写符号,采用半自动标注流程。数据按预定义的训练/验证/测试集划分,支持古文字学、手写文本识别及字符分割研究。

文件详解

  • 文档类文件
  • 文件名称:README.md、README.roboflow.txt
  • 文件格式:.md、.txt
  • 字段映射介绍:包含数据集来源、构建方法、标注规则及使用说明等文档信息
  • 配置文件
  • 文件名称:data.yaml
  • 文件格式:.yaml
  • 字段映射介绍:数据集配置文件,定义训练/验证/测试集路径、字符类别等元数据
  • 图像压缩包
  • 文件名称:train-images.zip、valid-images.zip、test-images.zip
  • 文件格式:.zip
  • 字段映射介绍:分别存储训练集、验证集、测试集的行级图像文件
  • 标注压缩包
  • 文件名称:train-labels.zip、valid-labels.zip、test-labels.zip
  • 文件格式:.zip
  • 字段映射介绍:分别存储对应图像集的字符级标注文件,标注涵盖73类字符(含标准字母、缩写及抄写符号)

数据来源

e-codices提供的Codices Sangallenses CSG 11和CSG 70拉丁手稿

适用场景

  • 古文字学研究:分析中世纪拉丁手稿的字符书写特征与抄写习惯
  • 手写文本识别模型训练:用于训练拉丁手稿字符识别(HTR)模型
  • 字符分割算法优化:验证古文字符分割算法的准确性与鲁棒性
  • 数字人文资源建设:为拉丁手稿数字化项目提供标注数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 104.59 MiB
最后更新 2026年1月12日
创建于 2026年1月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。