数据集概述
本数据集为VeLePa,是一个包含中部帕梅语(Central Pame)动词屈折变化的词库,涵盖216个动词的词形变化范式,共12528个语音形式的提取词汇,并提供词形单元和词位的频率信息。中部帕梅语属于奥托曼盖语系,以其复杂的形态结构和四重并发分类系统(前缀、词干、声调重音、后缀均显示屈折类和不规则性)为特点,具有语言学研究价值。
文件详解
- LICENSE
- 文件格式:无扩展名
- 字段映射介绍:许可文件,包含数据使用授权信息。
- gen-metadata.py
- 文件格式:.py
- 字段映射介绍:Python脚本文件,用于生成元数据。
- README.md
- 文件格式:.md
- 字段映射介绍:说明文档,包含参考文献、数据描述等信息。
- VeLePa_sounds.csv
- 文件格式:.csv
- 字段映射介绍:包含sound_id(语音ID)、tier(层级)、value(值)、syllabic(音节性)、stress(重音)、consonantal(辅音性)、sonorant(响音性)、continuant(延续性)、delayed_release(延迟释放)、approximant(近音)、flap(闪音)、trill(颤音)、nasal(鼻音)、voice(浊音)、labial(唇音)、round(圆唇)、labiodental(唇齿音)、coronal(冠状音)、anterior(前部音)、distributed(分布音)、strident(摩擦音)、lateral(边音)、dorsal(舌背音)等字段。
- VeLePa_features-values.csv
- 文件格式:.csv
- 字段映射介绍:包含value_id(值ID)、label(标签)、feature(特征)、POS(词性)、ud(通用依存语法标签)等字段,如person(人称)特征下的first(第一人称)、second(第二人称)、third(第三人称)等。
- VeLePa_cells.csv
- 文件格式:.csv
- 字段映射介绍:包含词形单元相关数据,具体字段未完全展示。
- data_sheet.md
- 文件格式:.md
- 字段映射介绍:数据表说明文档。
- VeLePa_package.json
- 文件格式:.json
- 字段映射介绍:包配置文件,包含数据相关配置信息。
- VeLePa_lexemes.csv
- 文件格式:.csv
- 字段映射介绍:包含词位相关数据,具体字段未完全展示。
- VeLePa_forms.csv
- 文件格式:.csv
- 字段映射介绍:包含词形相关数据,具体字段未完全展示。
数据来源
论文“VeLePa: Central Pame verbal inflection in a quantitative perspective”
适用场景
- 语言学形态学研究: 分析中部帕梅语动词的复杂形态结构和屈折变化规律。
- 奥托曼盖语系语言研究: 探索该语系语言的形态特征和分类系统。
- 语音学分析: 基于VeLePa_sounds.csv中的语音特征数据,研究中部帕梅语的语音系统。
- 语言类型学研究: 对比分析中部帕梅语与其他语言的形态分类系统差异。
- 计算语言学应用: 为自然语言处理中动词形态分析模型提供训练数据。