尼泊尔语与乌尔都语平行语料库

尼泊尔语与乌尔都语平行语料库 数据来源:互联网公开数据
标签:尼泊尔语,乌尔都语,平行语料库,词性标注,宾夕法尼亚树库,机器翻译,语言模型,语料清洗,语言研究

数据概述:
本数据集为尼泊尔语与乌尔都语的双语平行语料库,包含两个独立的文档,分别以尼泊尔语和乌尔都语呈现。每个文档均提供带有词性标注的版本和未标注版本,语料总量约为10万字。数据集基于宾夕法尼亚树库的词性标注体系,并附带详细的标注信息说明。尼泊尔语采用Devanagari书写系统,乌尔都语采用Nastaʿlīq书写系统,两种语言均属于印欧语系印度-伊朗语族。

数据用途概述:
该数据集适用于多种语言学与计算机科学研究场景。研究者可利用此数据进行双语平行语料分析,探索尼泊尔语与乌尔都语之间的语言关系,如词根同源识别和书写系统对比研究。此外,数据集可用于机器翻译模型训练、词性标注器开发以及语言模型的跨语言迁移学习。该语料库还可服务于语言资源建设,为尼泊尔语和乌尔都语的语料清洗、语料库扩展以及语言处理工具开发提供基础支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.78 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。