-
AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集
2026年1月29日 30 64 3
数据集概述 本数据集是面向神经机器翻译任务的多语言平行文本集合,包含从法语到丰贝语(多哥语言)、法语到埃维语(贝宁语言)的平行句子对,总计七万余条标注数据,适用于机器翻译和句子分类任务,由AI4D倡议贡献。 文件详解 文件名称:French_to_fongbe.csv 文件格式:CSV...
-
HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集
2026年1月27日 30 135 27
数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
-
低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0
2026年1月21日 30 156 32
数据集概述 本数据集包含肯尼亚三种本土语言(Kidaw'ida、Kalenjin、Dholuo)与斯瓦希里语的平行语料库,每种语料库平均含三万句对,用于训练机器翻译模型,支持斯瓦希里语与本土语言间的翻译,由USIU-Africa等机构研究者创建,将持续更新优化。 文件详解 文件名称:waleghwa/low-resource-language-...
-
伊戈尔远征记_平行语料库中的附着词研究文档
2025年12月22日 30 36 33
数据集概述 本数据集为一份文档,内容源于2018年12月21日纪念Andrej A. Zalizniak的主题报告,围绕俄罗斯历史语言学展开,重点探讨Zalizniak提出的附着词内部排序模板原则及不定式结构中主格的描述,并通过历史语料库验证其理论,含《伊戈尔远征记》平行语料库中附着词及附着词簇频率的初步调查。 文件详解 文件名称:...
-
Umsuka英语_祖鲁语平行语料库
2025年12月8日 30 38 16
数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
-
ClinSpEn平行语料库_英语_西班牙语COVID_19临床病例_术语和本体概念数据集
2025年12月14日 30 106 29
数据集概述 该数据集为ClinSpEn平行语料库,包含英语-西班牙语COVID-19临床病例报告、临床术语及本体概念三类数据,由专业医学翻译人员翻译并经临床专家修订,适用于训练和评估临床机器翻译系统,还提供单语背景数据用于分析系统在未见过数据上的表现。 文件详解 文件名称: clinspen_corpora_complete.zip 文件格式:...
-
MeSpEn平行语料库_医疗健康文献数据集
2025年12月13日 30 47 43
数据集概述 该数据集为西班牙语与英语医疗健康领域的平行语料库资源,整合了西班牙、拉丁美洲等地的生物医学、临床文献及患者健康信息,支持医疗机器翻译、多语言术语提取及西班牙语医疗自然语言处理组件开发。 文件详解 该数据集包含多个文件,具体说明如下: - 说明文档: - MedlinePlus-health-...
-
互联网语言障碍消除数据集
2025年12月12日 30 209 165
数据集概述 该数据集围绕消除互联网语言障碍主题,包含针对代表性不足语言的平行语料库、翻译书籍及相关文档,覆盖西班牙语与拉帕努伊语、马普切语等语言对,为自然语言处理研究提供多语言资源支持。 文件详解 许可与说明文件: LICENSE.txt:TXT格式,包含CC-BY-SA 4.0许可协议内容...
-
爱尔兰语_英语平行语料库数据集
2025年7月10日 30 171 164
爱尔兰语_英语平行语料库数据集_Irish_English_Parallel_Corpus 数据来源:互联网公开数据 标签:机器翻译, 语言学, 平行语料库, 爱尔兰语, 英语, 自然语言处理, 文本翻译, 数据集构建 数据概述: 该数据集包含来自多个来源的爱尔兰语-英语平行语料,旨在促进爱尔兰语和英语之间的机器翻译研究与应用。主要特征如下:...
-
欧洲议会议事录说话者性别与年龄注释数据集
2025年6月4日 30 148 58
欧洲议会议事录说话者性别与年龄注释数据集 数据来源:互联网公开数据 标签:欧洲议会,说话者属性,性别,年龄,机器翻译,个性化翻译,平行语料库,自然语言处理 数据概述: 本数据集是对欧洲议会议事录的注释版本,标注了说话者的性别和年龄信息,注释粒度为句子级别。数据集包含英语-法语和英语-德语两个平行语料库,为研究个性化机器翻译提供了高质量的数据基础。...
-
圣经多语言平行语料库
2025年5月31日 30 101 0
圣经多语言平行语料库 数据来源:互联网公开数据 标签:多语言,平行语料库,圣经翻译,语言对比,机器翻译,语言学研究,跨文化交流 数据概述: 本数据集是一个多语言平行语料库,由Christos Christodoulopoulos和Mark...
-
机器翻译越-英平行语料库数据集MachineTranslationVietnamese-EnglishParallelCorpus-saisrinivasreddy
2025年5月29日 30 52 40
机器翻译越-英平行语料库数据集MachineTranslationVietnamese-EnglishParallelCorpus-saisrinivasreddy 数据来源:互联网公开数据 标签:机器翻译, 越南语, 英语, 平行语料库, 自然语言处理, 文本翻译, 数据集, 语言学 数据概述: 该数据集包含越南语-...
-
孟加拉语-英语平行语料翻译数据集Bengali-EnglishParallelCorpusTranslationDataset-adityavirajrao
2025年5月13日 30 11 4
孟加拉语-英语平行语料翻译数据集Bengali-EnglishParallelCorpusTranslationDataset-adityavirajrao 数据来源:互联网公开数据 标签:机器翻译, 平行语料库, 孟加拉语, 英语, 文本翻译, 自然语言处理, 语言学, 数据集 数据概述: 该数据集包含来自开放语料库的孟加拉语-...
-
印尼多语言平行语料库-爪哇语-巽他语和马来语文本数据集IndonesianMultilingualParallelCorpus-Javanese-Sund...
2025年4月29日 30 185 146
印尼多语言平行语料库-爪哇语-巽他语和马来语文本数据集IndonesianMultilingualParallelCorpus-Javanese-Sundanese-andMalayTextDataset-alfaariizii 数据来源:互联网公开数据 标签:平行语料库, 机器翻译, 语言学, 爪哇语, 巽他语, 马来语, 文本数据, 自然语言处理...
-
英语-马拉雅拉姆语平行语料库数据集English-MalayalamParallelCorpus-alakaru
2025年4月29日 30 73 13
英语-马拉雅拉姆语平行语料库数据集English-MalayalamParallelCorpus-alakaru 数据来源:互联网公开数据 标签:机器翻译, 语料库, 双语对照, 自然语言处理, 语言学, 文本数据, 英语, 马拉雅拉姆语 数据概述: 该数据集包含英语和马拉雅拉姆语的平行文本,用于机器翻译和跨语言分析。主要特征如下:...
-
英语-泰卢固语平行语料库数据集English-TeluguParallelCorpus-adityaaluri
2025年4月29日 30 9 3
英语-泰卢固语平行语料库数据集English-TeluguParallelCorpus-adityaaluri 数据来源:互联网公开数据 标签:机器翻译, 语料库, 语言学, 英语, 泰卢固语, 自然语言处理, 双语对照, 数据集 数据概述:...
-
英柬机器翻译平行语料库English-KhmerMachineTranslationParallelCorpus-newmashedpotato
2025年4月29日 30 81 13
英柬机器翻译平行语料库English-KhmerMachineTranslationParallelCorpus-newmashedpotato 数据来源:互联网公开数据 标签:机器翻译, 柬埔寨语, 英语, 语言对, 平行语料库, 文本数据, 自然语言处理, 跨语言 数据概述:...
-
平行约鲁巴语与英语翻译提示数据集ParallelYoruba-EnglishPromptsforTranslationDataset-danishbaloch010
2025年4月25日 30 29 13
平行约鲁巴语与英语翻译提示数据集ParallelYoruba-EnglishPromptsforTranslationDataset-danishbaloch010 数据来源:互联网公开数据 标签:约鲁巴语,英语,翻译,平行语料库,自然语言处理,机器翻译,语言学,数据集...
-
楚瓦什语维基百科平行语料库数据集Chuvash-WikiParallelCorpusDataset-kvzhirnov
2025年4月25日 30 129 17
楚瓦什语维基百科平行语料库数据集Chuvash-WikiParallelCorpusDataset-kvzhirnov 数据来源:互联网公开数据 标签:语言资源,平行语料库,自然语言处理,机器翻译,楚瓦什语,维基百科,多语言数据,文本分析 数据概述:...
-
巴马腊法语平行语料库数据集-ozaresearch1
2025年4月23日 30 153 138
巴马腊法语平行语料库数据集-ozaresearch1 数据来源:互联网公开数据 标签:巴马腊,法语,平行语料库,机器学习,翻译,文本生成,语言分析 数据概述:...



