Tolosa_Treebank_Occitan语言依存句法标注数据

数据集概述

本数据集是首个奥克语依存树库,由POCTEFA Interreg欧洲基金资助的EFA 227/16 LINGUATEC项目开发。包含25K个标注了词性标签、词元及句法依存关系的词元,遵循通用依存关系(UD)标注规范,数据以ConLL-U格式存储,覆盖加斯科涅、朗格多克、勒穆瓦纳和普罗旺斯四种主要奥克语方言。

文件详解

  • 文件名称:Tolosa_Treebank-v2.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:内部ConLL-U格式文件包含10列标注信息,分别为:
  • ID:词索引(每句从1开始)
  • FORM:词形或标点符号
  • LEMMA:词元或词干
  • UPOS:通用词性标签
  • XPOS:语言特异性词性标签(无则为下划线)
  • FEATS:形态特征列表(无则为下划线)
  • HEAD:中心词索引(0表示根节点)
  • DEPREL:与中心词的通用依存关系
  • DEPS:增强依存图(无则为下划线)
  • MISC:其他标注信息

数据来源

EFA 227/16 LINGUATEC Project(由POCTEFA Interreg European funds资助)

适用场景

  • 奥克语自然语言处理研究:用于奥克语句法分析模型的训练与评估
  • 低资源语言依存句法标注研究:探索通用依存规范在小众语言中的应用实践
  • 方言语言学分析:对比四种奥克语方言的句法结构差异
  • 多语言依存树库构建参考:为其他小众语言树库开发提供方法论借鉴
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.13 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。