数据集概述
本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。
文件详解
- 核心数据文件
- 目录名称:
data/
- 包含文件:
aar.txt、amh.txt、eng.txt、orm.txt、som.txt、tir.txt
- 文件格式:TXT
- 字段映射:每个文件对应一种语言,文本片段按相同顺序排列,实现多语言平行对齐
- 元数据文件
- 文件名称:
metadata.tsv
- 文件格式:TSV
- 字段映射:包含Scope(新闻范围)、Category(新闻类别,12类)、Source(来源URL)、Domain(域名)、Date(发布日期,yyyy-mm-dd)字段
- 整合格式文件
- 文件名称:
HornMT.xlsx
- 文件格式:XLSX
- 内容说明:整合所有语言平行文本与对应元数据的表格文件
- 整合格式文件
- 文件名称:
HornMT.json
- 文件格式:JSON
- 内容说明:以JSON结构存储每条记录的多语言文本(data字段)和元数据(metadata字段)
- 压缩包文件
- 文件名称:
data.zip
- 文件格式:ZIP
- 内容说明:压缩存储的
data/目录下所有TXT文件
数据来源
HornMT项目仓库(https://lesan.ai/benchmark)
适用场景
- 机器翻译模型训练:用于非洲之角语言与英语间双向翻译模型的训练与优化
- 多语言语料库研究:分析非洲之角语言的文本特征及跨语言对齐规律
- 翻译基准测试:作为非洲之角语言机器翻译系统性能评估的标准数据集
- 新闻文本分类:基于元数据中的Category字段开展多语言新闻分类任务研究
- 低资源语言处理:支持阿法尔语、奥罗莫语等低资源语言的自然语言处理技术研发