帕哈里语词性标注语料库数据集

数据集概述

该数据集包含帕哈里语(巴基斯坦和印度部分地区使用的低资源印欧语系语言)的人工标注词性(POS)语料库,涵盖名词、动词等主要语法类别,采用基于乌尔都语标签集调整的自定义标签系统,提供词性标注及文本处理相关文件。

文件详解

  • 文本数据文件(共6个.txt格式文件):
  • 包括Pahari Dataset/File 9 COMPLETE CLEANED .txt、Pahari Dataset/FILE 10 FINAL FILE TOKENIZED.txt等
  • 内容为帕哈里语文本,部分文件标注有"cleaned"(已清洗)、"tokenized"(已分词)属性
  • 字段示例:词项(如ہر)+词性标签(如CPR)
  • 标注说明文件:
  • Pahari Dataset/Annotation Guidelines and final tagset.docx(.docx格式)
  • 包含标注规范及最终使用的词性标签集说明

适用场景

  • 自然语言处理研究:帕哈里语词性标注模型训练与评估
  • 低资源语言分析:探索帕哈里语语法结构及形态特征
  • 语料库语言学研究:基于标注语料的语言现象统计分析
  • 计算语言学应用:为帕哈里语文本处理工具开发提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.52 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。