HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

本数据集是针对非洲之角语言的机器翻译基准平行语料库，包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本，以及每条文本对应的元数据（如新闻范围、类别、来源等），支持多语言机器翻译研究与系统开发。

核心数据文件
目录名称：data/
包含文件：aar.txt、amh.txt、eng.txt、orm.txt、som.txt、tir.txt
文件格式：TXT
字段映射：每个文件对应一种语言，文本片段按相同顺序排列，实现多语言平行对齐
元数据文件
文件名称：metadata.tsv
文件格式：TSV
字段映射：包含Scope（新闻范围）、Category（新闻类别，12类）、Source（来源URL）、Domain（域名）、Date（发布日期，yyyy-mm-dd）字段
整合格式文件
文件名称：HornMT.xlsx
文件格式：XLSX
内容说明：整合所有语言平行文本与对应元数据的表格文件
整合格式文件
文件名称：HornMT.json
文件格式：JSON
内容说明：以JSON结构存储每条记录的多语言文本（data字段）和元数据（metadata字段）
压缩包文件
文件名称：data.zip
文件格式：ZIP
内容说明：压缩存储的data/目录下所有TXT文件

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	4.99 MiB
最后更新	2026年1月27日
创建于	2026年1月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。