奥克语口头叙事语料库_OcOr

数据集概述

该数据集是奥克语口头叙事语料库(OcOr),包含三个子语料库:传统口头叙事(OOT)、传统书面叙事(OWT)、当代口头叙事(OOC),标注了时态、连接词等时间特征,以XML和PDF格式存储,支持语言与口头性关系的研究。

文件详解

  • 语料库压缩文件:
  • OcOr.zip:压缩文件,包含三个子语料库的XML(TEI-P5格式)和PDF文件,每个故事对应带注释的XML、带注释的PDF、无注释的PDF,以及Excel格式的元数据摘要表
  • OcOr_v1.1.zip:压缩文件,为语料库的版本更新文件,内容结构与OcOr.zip一致
  • 核心文件格式:
  • XML文件:包含完整元数据(说话人信息、奥克语变体、故事类型等)和标注系统说明
  • PDF文件:分为带注释和无注释两种版本,对应XML中的故事内容
  • Excel文件:各子语料库的元数据摘要表,提供用户友好的元数据查看方式

数据来源

ExpressioNarration项目(由Marie Sklodovska Curie Fellowship资助,编号655034)

适用场景

  • 语言学研究:分析奥克语口头叙事的时态、连接词等语言特征
  • 民俗学研究:探究奥克语地区传统与当代口头叙事的内容差异
  • 语料库语言学:基于标注数据开展奥克语口头性与书面性的对比分析
  • 文化研究:通过叙事内容研究奥克语地区的文化传承与变迁
  • 计算语言学:利用XML标注数据训练奥克语文本处理模型
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 89.28 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。