-
Umsuka英语_祖鲁语平行语料库
2025年12月8日 0 38 2
数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
-
汉文字词网络数据集
2025年12月6日 30 16 10
数据集概述 该数据集是构建汉文字词网络(SiLeNe)的半原始数据,整合了以汉字为传统文字的多语言词汇描述开放数据源,支持跨语言语言学研究,包含CSV格式的核心数据文件及相关说明文档。 文件详解 Silene-data.README: 文本格式文件,说明数据集是构建汉文字词网络的半原始数据,整合多语言词汇描述开放数据源,支持跨语言语言学研究。...



