印欧语系词汇同源数据库及系统发育树数据集2021

数据集概述

该数据集提供印欧语系词汇同源关系数据及贝叶斯系统发育树样本,基于IELex数据库(Dunn et al. 2011)构建,包含词汇条目、概念映射、系统发育分析文件等,可支持印欧语系演化关系的比较研究,是原IELex网站下线后的替代数据资源。

文件详解

数据集包含多个文件,具体说明如下: - 核心数据文件(位于data/目录): - ielex.csv:CSV格式,长表结构,每条记录含语言、概念、同源词集信息,关联Glottocode和Concepticon概念集 - concepts.csv:CSV格式,IELex概念与Concepticon概念集的映射表,含概念释义及ID - ielex.nex:NEXUS格式,含确认校正列、字符状态标签的系统发育数据文件 - ielex.nn.pdf/png:PDF/PNG格式,由SplitsTree生成的系统发育网络可视化图 - ielex.mcc.tre:TRE格式,最大分支可信度树文件(移除前50%燃烧期样本) - ielex.mcc.pdf:PDF格式,由FigTree生成的系统发育树可视化图 - 构建文件(位于build/目录):用于系统发育重建的准备文件 - 系统发育分析文件(位于IE-trees-v1/目录):包含模型、日志、状态文件,完整树样本为IE-trees-v1/ie-v1.nex

适用场景

  • 历史语言学研究:分析印欧语系的词汇同源关系与演化路径
  • 系统发育语言学:构建印欧语系语言演化的系统发育模型
  • 语言分类学:验证印欧语系内部语言分支的分类假设
  • 计算语言学:开发基于词汇同源数据的语言演化算法
  • 文化演化研究:探索语言演化与文化传播的关联模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 18.74 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。