帕哈里语词性标注语料库数据集

该数据集包含帕哈里语（巴基斯坦和印度部分地区使用的低资源印欧语系语言）的人工标注词性（POS）语料库，涵盖名词、动词等主要语法类别，采用基于乌尔都语标签集调整的自定义标签系统，提供词性标注及文本处理相关文件。

文本数据文件（共6个.txt格式文件）：
包括Pahari Dataset/File 9 COMPLETE CLEANED .txt、Pahari Dataset/FILE 10 FINAL FILE TOKENIZED.txt等
内容为帕哈里语文本，部分文件标注有"cleaned"（已清洗）、"tokenized"（已分词）属性
字段示例：词项（如ہر）+词性标签（如CPR）
标注说明文件：
Pahari Dataset/Annotation Guidelines and final tagset.docx（.docx格式）
包含标注规范及最终使用的词性标签集说明

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	0.52 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。