-
希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集
2025年12月18日 0 46 23
数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
-
巴西葡萄牙语中含度量单位的强化结构数据集
2025年12月12日 30 80 17
数据集概述 本数据集包含巴西葡萄牙语中“动词+度量单位”强化结构的真实语料,如“correr quilômetros(跑数公里)”“chorar rios(哭成河)”,数据来源于数字媒体文本,未对原始版本进行修改,同时包含动词分类、主语生命性等分析维度。 文件详解 文件名称: intensificadores unidades de medida -...
-
佛教梵语词汇语义标注数据集
2025年12月6日 30 202 80
数据集概述 本数据集围绕佛教梵语词汇“saṃjñā”(想)展开,包含未校对的语料库索引行、语义标注CSV文件及研究预印本PDF文档,为探究术语模型与佛教梵语词汇翻译提供数据支持。 文件详解 文件名称: Lugli_Samjna_wordsOrTerms_Concordances.xml:XML格式文件,包含从Sketch...



