古希腊与拉丁语翻译对齐标注指南及黄金标准数据集

数据集概述

本数据集包含古希腊文本与拉丁语学术翻译对齐的标注指南及黄金标准,涵盖100条随机选自Digital Fragmenta Historicorum Graecorum的片段,由专家手动对齐,标注者间一致性达90.5%,可用于翻译对齐任务的执行、评估及模型训练。

文件详解

  • 核心文件:
  • README.md:Markdown格式,提供数据集基本说明、来源及使用指引
  • guidelines_grc-lat.pdf:PDF格式,古希腊与拉丁语翻译对齐的标注指南文档
  • grc-lat-goldstandards.json:JSON格式,古希腊与拉丁语翻译对齐的黄金标准数据
  • 文本文件:
  • grc.txt:TXT格式,古希腊原文文本
  • lat.txt:TXT格式,拉丁语翻译文本
  • grc_lat.txt:TXT格式,古希腊与拉丁语文本合并文件
  • alignment_grc_lat.txt:TXT格式,古希腊与拉丁语翻译对齐结果文件

数据来源

Digital Fragmenta Historicorum Graecorum(DFHG)、Ugarit平台

适用场景

  • 古典语言研究:用于古希腊与拉丁语翻译对齐任务的执行与评估
  • 自然语言处理:训练自动化翻译对齐模型,构建翻译对齐黄金标准
  • 历史语言学:适配其他屈折语言对的翻译对齐任务,或历史文本与现代翻译的对齐研究
  • 翻译研究:为机器翻译场景下的翻译对齐提供标准化标注框架参考
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.21 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。