VeLeCa_Source_加泰罗尼亚语动词词形变化词库数据

数据集概述

本数据集为VeLeCa,即加泰罗尼亚语动词屈折变化词库,包含三千四百八十四个词位的十七万四千二百个词形的语音形式,以及对应的词汇、形态句法属性和频率数据。数据集总计十个文件,覆盖数据、文档、代码等类型,为加泰罗尼亚语动词的语言学研究提供结构化资源。

文件详解

  • 数据文件(CSV格式,共5个)
  • VeLeCa_sounds.csv:含sound_id、tier、value等语音特征字段
  • VeLeCa_cells.csv:含cell_id、frequency(频率)、frequency_adjusted(调整后频率)等字段
  • VeLeCa_forms.csv:未提供预览,推测为动词词形相关数据
  • VeLeCa_features-values.csv:未提供预览,推测为形态句法特征及取值数据
  • VeLeCa_lexemes.csv:未提供预览,推测为动词词位相关数据
  • 文档文件(MD格式,共2个)
  • README.md:含参考文献、数据集描述及关键词
  • data_sheet.md:未提供预览,推测为数据集详情说明
  • 代码文件(PY格式,1个)
  • gen-metadata.py:推测为元数据生成脚本
  • 其他文件(共2个)
  • LICENSE:无格式,为许可文件
  • VeLeCa_package.json:JSON格式,推测为项目配置文件

数据来源

论文“VeLeCa: a verbal lexicon of Catalan with PCFP analysis”

适用场景

  • 加泰罗尼亚语语言学研究:分析动词的屈折变化规则、形态句法属性及语音特征
  • 自然语言处理模型训练:为加泰罗尼亚语动词形态分析、词性标注等任务提供标注数据
  • 语言教学资源开发:支持加泰罗尼亚语动词学习材料的设计与词频统计应用
  • 语音学研究:利用语音特征字段探究加泰罗尼亚语动词的语音规律与音节结构
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 15.54 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。