-
基于卡巴耶扎尔托什语的三语铭文_词级对齐与命名实体开放数据
2026年2月9日 30 163 136
数据集概述 本数据集包含Ka'ba-ye Zartošt(ŠKZ)三语铭文的希腊语、中古波斯语、帕提亚语版本的句级与词级对齐语料,以及人工提取的命名实体。语料遵循Huyse(1999)的行编号,对齐由Ugarit工具生成,命名实体含近400个标注为人物、地点或地点衍生物的条目,部分关联维基数据。 文件详解 对齐语料文件 合并文件:alignment-...
-
Arte_de_Donato_Based_古典语法手册拉丁_葡萄牙语对齐翻译数据集
2026年1月14日 30 121 104
数据集概述 本数据集为古罗马语法手册《Arte de Donato》(约公元350年)的拉丁原文与葡萄牙语译文的电子对齐标注数据。包含苏黎世大学Corpus corporum平台发布的Louis Holtz(1981)校勘拉丁文本,以及圣保罗大学Lucas Consolin...
-
古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集
2025年12月18日 30 102 40
数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...



