乌尔都语与旁遮普语合并数据集

乌尔都语与旁遮普语合并数据集

数据来源:互联网公开数据

标签:乌尔都语,旁遮普语,双语数据集,词性标注,词形还原,语言处理

数据概述:
本数据集是一个包含乌尔都语和旁遮普语的双语语料库,共计超过10万个词条,其中包含超过60,000个旁遮普语单词和超过40,000个乌尔都语单词。数据集特别适用于词形还原(Lemmatization)任务,且是首个收录沙姆克希(Shahmukhi)文字书写形式的旁遮普语数据集。数据内容涵盖动词和名词,为乌尔都语与旁遮普语的语言处理研究提供了重要的基础资源。

数据用途概述:
该数据集适用于多种语言处理和自然语言处理场景,例如词形还原、词性标注、机器翻译、语义分析等。研究者可以利用此数据集进行语言模型训练,提升乌尔都语和旁遮普语在自然语言处理领域的性能。此外,数据集也可用于开发多语言工具,支持双语或多语言环境下的语言理解和处理需求。对于语言学研究者而言,数据集为研究乌尔都语和旁遮普语的词汇特征和语言结构提供了宝贵的资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.72 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。