数据集概述
本数据集是论文《They saw it, onu, 它, coming: An information theoretic study of cross-linguistic variation in personal pronouns》的附录F,包含人称代词跨语言变异信息论研究的相关分析数据,具体涵盖brm分析结果、代词频率统计、词长与 surprisal/AUC 相关性数据、系数表及模型热图等内容,以压缩包形式提供。
文件详解
- 文件名称:
appendixF.zip
- 文件格式:ZIP
- 包含内容:
brms/目录:个人和多语言brms模型(针对surprisal和AuC)、系数数据及Rdata文件
grads_auc/目录:AUC值数据集
heatmap_brms_estimates_all.png:brms模型估计值和系数的热图
pron_locs_scored/目录:surprisal值数据集
- 其他相关数据:代词频率(与各语言mini-CIEP+语料库规模相关)、surprisal/AUC与词长的相关性数据、系数表
数据来源
论文《They saw it, onu, 它, coming: An information theoretic study of cross-linguistic variation in personal pronouns》附录F
适用场景
- 语言学信息论研究:分析人称代词在跨语言环境中的信息论特征及变异规律
- 统计模型验证:利用brm分析结果和系数表验证人称代词相关统计模型的有效性
- 语料库语言学分析:基于各语言mini-CIEP+语料库规模的代词频率数据,研究语言使用特征
- 数据可视化研究:通过模型热图展示brms模型估计值和系数的分布特征
- 语言特征相关性分析:探究词长与surprisal/AUC值的相关性,挖掘语言结构规律