HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

数据集概述

本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。

文件详解

  • 核心数据文件
  • 目录名称:data/
  • 包含文件:aar.txtamh.txteng.txtorm.txtsom.txttir.txt
  • 文件格式:TXT
  • 字段映射:每个文件对应一种语言,文本片段按相同顺序排列,实现多语言平行对齐
  • 元数据文件
  • 文件名称:metadata.tsv
  • 文件格式:TSV
  • 字段映射:包含Scope(新闻范围)、Category(新闻类别,12类)、Source(来源URL)、Domain(域名)、Date(发布日期,yyyy-mm-dd)字段
  • 整合格式文件
  • 文件名称:HornMT.xlsx
  • 文件格式:XLSX
  • 内容说明:整合所有语言平行文本与对应元数据的表格文件
  • 整合格式文件
  • 文件名称:HornMT.json
  • 文件格式:JSON
  • 内容说明:以JSON结构存储每条记录的多语言文本(data字段)和元数据(metadata字段)
  • 压缩包文件
  • 文件名称:data.zip
  • 文件格式:ZIP
  • 内容说明:压缩存储的data/目录下所有TXT文件

数据来源

HornMT项目仓库(https://lesan.ai/benchmark

适用场景

  • 机器翻译模型训练:用于非洲之角语言与英语间双向翻译模型的训练与优化
  • 多语言语料库研究:分析非洲之角语言的文本特征及跨语言对齐规律
  • 翻译基准测试:作为非洲之角语言机器翻译系统性能评估的标准数据集
  • 新闻文本分类:基于元数据中的Category字段开展多语言新闻分类任务研究
  • 低资源语言处理:支持阿法尔语、奥罗莫语等低资源语言的自然语言处理技术研发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.99 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。