数据集概述
本数据集为论文“Factoring lexical and phonetic phylogenetic characters from word lists”的辅助材料,包含分析所需的脚本与数据文件,支持复现研究内容。文件涵盖结果文本、代码脚本、配置文件等,共十六个文件,可通过README.md了解使用细节。
文件详解
- 文档类文件
- 文件名称:README.md、results-trees.txt、sounds41.txt、listss16_recent.txt、gapPenalties.txt、pmi-world.txt
- 文件格式:.txt、.md
- 字段映射介绍:包含研究说明、系统发育树结果、语音数据、词汇列表、参数配置、PMI数据等文本内容
- 代码类文件
- 文件名称:SCACognateDetection.py、ggqd.py、alignment.py、extractFromQlc.py、qlcTCoffee.py、evaluate.r、workflow.bash
- 文件格式:.py、.r、.bash
- 字段映射介绍:包含同源词检测、对齐、结果提取、评估等分析脚本及工作流执行脚本
- 表格与压缩文件
- 文件名称:results.tsv、results-html-nexus-qlc-trees.zip
- 文件格式:.tsv、.zip
- 字段映射介绍:results.tsv含多方法分析结果表格;zip包含HTML、NEXUS格式的系统发育树结果
数据来源
论文“Factoring lexical and phonetic phylogenetic characters from word lists”
适用场景
- 语言系统发育研究: 用于分析词汇与语音特征的系统发育关系,复现论文中的特征提取与树构建结果
- 同源词检测方法评估: 基于SCACognateDetection.py等脚本,测试不同同源词检测算法的性能
- 语音词汇数据处理: 利用alignment.py等工具,研究词汇语音数据的对齐与特征提取技术
- 计算语言学工作流复现: 通过workflow.bash脚本,复现从数据处理到结果生成的完整分析流程