数据集

尼泊尔语与乌尔都语平行语料库

尼泊尔语与乌尔都语平行语料库数据来源：互联网公开数据
标签：尼泊尔语,乌尔都语,平行语料库,词性标注,宾夕法尼亚树库,机器翻译,语言模型,语料清洗,语言研究

数据概述：
本数据集为尼泊尔语与乌尔都语的双语平行语料库，包含两个独立的文档，分别以尼泊尔语和乌尔都语呈现。每个文档均提供带有词性标注的版本和未标注版本，语料总量约为10万字。数据集基于宾夕法尼亚树库的词性标注体系，并附带详细的标注信息说明。尼泊尔语采用Devanagari书写系统，乌尔都语采用Nastaʿlīq书写系统，两种语言均属于印欧语系印度-伊朗语族。

数据用途概述：
该数据集适用于多种语言学与计算机科学研究场景。研究者可利用此数据进行双语平行语料分析，探索尼泊尔语与乌尔都语之间的语言关系，如词根同源识别和书写系统对比研究。此外，数据集可用于机器翻译模型训练、词性标注器开发以及语言模型的跨语言迁移学习。该语料库还可服务于语言资源建设，为尼泊尔语和乌尔都语的语料清洗、语料库扩展以及语言处理工具开发提供基础支持。

数据与资源

尼泊尔语与乌尔都语平行语料库.zipZIP
3.78 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	3.78 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

尼泊尔语与乌尔都语平行语料库

数据与资源

附加信息

注册成功！