数据集概述
本数据集为Torlak方言动词特征标注数据库,包含从《口语Torlak方言语料库1.0》提取的3085个动词,标注了第三人称单数现在时、阴性单数分词、主题元音类、派生后缀及词根异形等核心形态句法特征,还补充了第三人称复数现在时、不定过去时、未完成体等互补数据集。
文件详解
该数据集包含主数据集及四个互补数据集,具体说明如下:
- 主数据集:
- 内容: 3085个Torlak动词的核心标注数据
- 字段映射:
- ID: 动词数字标识符
- Lemma: 语料库原始词目(用于关联语料库)
- Frequency: 语料库中的出现频率
- PRS.3SG: 第三人称单数现在时形式
- PTCP.F: 阴性单数主动分词形式
- TV class: 基于分词和现在时的主题元音对
- Suffix: 是否含派生后缀(1是/0否)
- Root allomorphy: 是否有词根异形(1是/0否)
- 互补数据集:
- 第三人称复数现在时数据集: 含基础样本(323个动词标记)及针对类动词的补充样本(228个),标注第三人称复数现在时形式及与单数形式的派生规则
- 不定过去时(AORIST)数据集: 701个动词标记,标注主题元音类、屈折前元音、体貌、变异情况及语料库参考
- 未完成体(IMPERFECTUM)数据集: 545个动词标记,标注主题元音类、屈折前元音、体貌、变异情况、数范畴及语料库参考
适用场景
- 斯拉夫语言学研究: 分析Torlak方言动词的形态句法特征及演变规律
- 方言比较研究: 对比Torlak方言与其他南斯拉夫方言的动词系统差异
- 语言类型学研究: 探究主题元音类在不同语法环境中的变异模式
- 计算语言学应用: 为Torlak方言动词形态分析模型提供标注训练数据
- 语言接触研究: 支撑塞尔维亚语动词借入罗姆语的相关研究