数据集概述
本数据集为VeLeCa,即加泰罗尼亚语动词屈折变化词库,包含三千四百八十四个词位的十七万四千二百个词形的语音形式,以及对应的词汇、形态句法属性和频率数据。数据集总计十个文件,覆盖数据、文档、代码等类型,为加泰罗尼亚语动词的语言学研究提供结构化资源。
文件详解
- 数据文件(CSV格式,共5个)
VeLeCa_sounds.csv:含sound_id、tier、value等语音特征字段
VeLeCa_cells.csv:含cell_id、frequency(频率)、frequency_adjusted(调整后频率)等字段
VeLeCa_forms.csv:未提供预览,推测为动词词形相关数据
VeLeCa_features-values.csv:未提供预览,推测为形态句法特征及取值数据
VeLeCa_lexemes.csv:未提供预览,推测为动词词位相关数据
- 文档文件(MD格式,共2个)
README.md:含参考文献、数据集描述及关键词
data_sheet.md:未提供预览,推测为数据集详情说明
- 代码文件(PY格式,1个)
gen-metadata.py:推测为元数据生成脚本
- 其他文件(共2个)
LICENSE:无格式,为许可文件
VeLeCa_package.json:JSON格式,推测为项目配置文件
数据来源
论文“VeLeCa: a verbal lexicon of Catalan with PCFP analysis”
适用场景
- 加泰罗尼亚语语言学研究:分析动词的屈折变化规则、形态句法属性及语音特征
- 自然语言处理模型训练:为加泰罗尼亚语动词形态分析、词性标注等任务提供标注数据
- 语言教学资源开发:支持加泰罗尼亚语动词学习材料的设计与词频统计应用
- 语音学研究:利用语音特征字段探究加泰罗尼亚语动词的语音规律与音节结构