数据集概述
本数据集包含乌德穆尔特语空间格(源格:离格、出格;目标格:入格、终格)变化的人工标注数据及配套R分析代码,用于研究地标属性、动词形式等变量对格选择的影响,支持相关语言现象的定量分析。
文件详解
该数据集包含数据文件、R代码文件及文档,具体如下:
- 数据文件(CSV格式):共6个,用于分析空间格选择的影响因素
- Source_pred.csv:源格预测数据,含Case(格)、Whole_verb_complex(完整动词复合体)、Translation(翻译)、Temporal_reference(时间指称)、Negation(否定)等字段
- Goal_LM.csv:目标格地标数据,含Case(格)、LM_phrase(地标短语)、Translation(翻译)、LM(地标)、LM_word_class(地标词类)等字段
- 其他数据文件:Source_pred2.csv、Goal_pred2.csv、Goal_pred.csv、Source_LM.csv,为不同维度的空间格分析数据
- R代码文件(Rmd格式):共6个,用于数据分析
- R_source3.Rmd:V2.0版本推荐使用的源格分析代码
- R_goal3.Rmd:V2.0版本推荐使用的目标格分析代码
- 其他代码文件:R_source1.Rmd、R_source2.Rmd、R_goal1.Rmd、R_goal2.Rmd
- R代码输出文件(HTML格式):共6个,为Rmd文件的渲染结果,如R_source3.html、R_goal3.html等
- 文档文件(TXT格式):Readme.txt,含数据集基本说明
数据来源
Arkhangelskiy, Timofey 2018: Udmurt corpus. http://udmurt.web-corpora.net/index.html.
适用场景
- 语言学研究:分析乌德穆尔特语空间格系统的语法规则及使用规律
- 计算语言学:构建乌德穆尔特语空间格选择的预测模型
- 语言类型学:对比乌德穆尔特语与其他语言空间格的编码差异
- 定量语言学:验证地标属性、动词形式对格选择的影响假设