数据集概述
本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。
文件详解
- 文件名称: PG.zip
- 文件格式: ZIP压缩包
- 文件内容: 包含带有语言学标记的Sketch Engine XML文件,支持在Sketch Engine中配置为古希腊语语料库,配置需设置DOCSTRUCTURE为"doc"、ENCODING为"UTF-8"、LANGUAGE为"Ancient Greek"等参数,并定义word、lemma、pos等属性映射
数据来源
CGPG项目(Calfa GREgORI Patrologia Graeca)
适用场景
- 古希腊语文献研究: 用于分析《希腊教父文献集》中的文本内容与语言特征
- 语料库语言学研究: 基于带标记的XML文件开展古希腊语词汇、语法等语言层面的分析
- 数字人文研究: 支持对历史宗教文献进行数字化处理与文本挖掘
- 古典学教育: 为古希腊语教学提供数字化的原始文献资源