-
HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集
2026年1月27日 30 122 51
数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
-
ClinSpEn_CT_Based_平行英西生物医学术语数据_2022
2026年1月26日 30 208 163
数据集概述 本数据集为ClinSpEn-Clinical Terms子任务的样本、测试及背景数据,方向为西班牙语到英语(ES>EN)翻译。术语源自医学文献和临床记录,聚焦疾病、症状等类别,由专业医疗译者翻译修订,支持生物医学领域机器翻译系统开发与评估。 文件详解...
-
EN_MNE_EN_THA_Authentic_human_translations_corpora_真实人类翻译语料库数据
2025年12月27日 30 63 10
数据集概述 本数据集包含EN-MNE、EN-THA两个真实人类翻译语料库,数据按研究方法选取并处理了长度在100-150字符的句子对,用于翻译相关研究。数据集仅含一个文件,无目录结构及训练测试、数据标签等拆分。 文件详解 文件名称:data.xlsx 文件格式:XLSX 字段映射介绍:包含EN-MNE、EN-...
-
Umsuka英语_祖鲁语平行语料库
2025年12月8日 30 9 2
数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...



