Torlak动词特征标注数据集

数据集概述

本数据集为Torlak方言动词特征标注数据库,包含从《口语Torlak方言语料库1.0》提取的3085个动词,标注了第三人称单数现在时、阴性单数分词、主题元音类、派生后缀及词根异形等核心形态句法特征,还补充了第三人称复数现在时、不定过去时、未完成体等互补数据集。

文件详解

该数据集包含主数据集及四个互补数据集,具体说明如下: - 主数据集: - 内容: 3085个Torlak动词的核心标注数据 - 字段映射: - ID: 动词数字标识符 - Lemma: 语料库原始词目(用于关联语料库) - Frequency: 语料库中的出现频率 - PRS.3SG: 第三人称单数现在时形式 - PTCP.F: 阴性单数主动分词形式 - TV class: 基于分词和现在时的主题元音对 - Suffix: 是否含派生后缀(1是/0否) - Root allomorphy: 是否有词根异形(1是/0否) - 互补数据集: - 第三人称复数现在时数据集: 含基础样本(323个动词标记)及针对类动词的补充样本(228个),标注第三人称复数现在时形式及与单数形式的派生规则 - 不定过去时(AORIST)数据集: 701个动词标记,标注主题元音类、屈折前元音、体貌、变异情况及语料库参考 - 未完成体(IMPERFECTUM)数据集: 545个动词标记,标注主题元音类、屈折前元音、体貌、变异情况、数范畴及语料库参考

适用场景

  • 斯拉夫语言学研究: 分析Torlak方言动词的形态句法特征及演变规律
  • 方言比较研究: 对比Torlak方言与其他南斯拉夫方言的动词系统差异
  • 语言类型学研究: 探究主题元音类在不同语法环境中的变异模式
  • 计算语言学应用: 为Torlak方言动词形态分析模型提供标注训练数据
  • 语言接触研究: 支撑塞尔维亚语动词借入罗姆语的相关研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.08 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。