OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

数据集概述

本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。

文件详解

  • 文件名称:OWT-tag.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含5篇人工标注的奥克语民间故事文本摘录,标注内容遵循Grace标准,涵盖词元(lemmas)和词性(parts-of-speech)两类标注信息,每篇文本约1500词。

数据来源

ExpressioNarration项目(由Marie Curie Individual Fellowship资助)

适用场景

  • 奥克语词性标注工具评估: 用于测试Talismane等奥克语词性标注工具在传统民间故事文本上的性能表现。
  • 奥克语语言资源建设: 为奥克语自然语言处理研究提供带标注的语料资源。
  • 民间文学语言特征分析: 基于标注数据研究奥克语传统民间故事的词汇构成与语法特点。
  • 低资源语言标注方法验证: 验证人工标注流程(如Grace标准)在低资源语言语料处理中的适用性。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.03 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。