希腊教父文献集OCR标注数据集2021_2022

数据集概述

该数据集是希腊教父文献集(Patrologia Graeca)的OCR标注基准数据,包含2021-2022年期间人工标注的100张文献图像及对应PageXML文件,覆盖文本区域检测(希腊文、拉丁文列、脚注、标题)和古多调希腊文识别(行级标注)两类任务,用于OCR模型训练与验证。

文件详解

  • 核心文件:
  • data.zip:压缩包格式,包含100张希腊教父文献集的图像文件及其对应的PageXML标注文件
  • 标注层级:
  • 区域级标注(任务1):col_greek(52个)、col_lat(54个)、footnotes(27个)、titles(9个)
  • 行级标注(任务2):lines(两千五百七十九行)

数据来源

Calfa GREgORI Patrologia Graeca项目(CGPG)

适用场景

  • 古文字OCR技术研究:训练与优化古希腊多调文字识别模型
  • 文献数字化工程:辅助希腊教父文献集未数字化版本的文本提取
  • 计算机视觉应用:开发古籍版面分析算法,检测不同语言文本区域
  • 数字人文研究:为拜占庭学、古典文献学提供标准化标注数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 114.4 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。