AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

数据集概述

本数据集是面向神经机器翻译任务的多语言平行文本集合,包含从法语到丰贝语(多哥语言)、法语到埃维语(贝宁语言)的平行句子对,总计七万余条标注数据,适用于机器翻译和句子分类任务,由AI4D倡议贡献。

文件详解

  • 文件名称:French_to_fongbe.csv
  • 文件格式:CSV
  • 字段映射介绍:包含两列平行文本,分别对应丰贝语(Fon列)和法语(French列)的句子对,例如丰贝语句子“Ɖo gan tantɔn kpo cεju afɔton.”与法语句子“A 8 heures moins le quart”。
  • 文件名称:French_to_ewe_dataset.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含法语到埃维语的平行句子对数据,具体字段需参考文件内容,推测与CSV文件结构类似,对应两种语言的句子平行对照。

数据来源

AI4D倡议

适用场景

  • 神经机器翻译模型训练: 用于训练法语至丰贝语、法语至埃维语的机器翻译模型,提升低资源语言翻译性能。
  • 多语言自然语言处理研究: 支持低资源语言(丰贝语、埃维语)的NLP任务研究,如句子分类、跨语言迁移学习。
  • 语言资源建设: 补充非洲本土语言(丰贝语、埃维语)的平行语料库资源,促进语言技术发展。
  • 翻译质量评估: 作为基准数据集,评估针对法语-丰贝语、法语-埃维语翻译模型的性能表现。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.72 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。