数据集概述
本数据集围绕系统发育基因组推断中位点模式异质性与分区异速性的相对重要性展开,包含模拟实验和实证分析数据。通过比较分区模型、位点异质性模型及组合模型的性能,探讨不同模型对系统发育推断准确性的影响,特别关注长枝吸引问题及模型选择策略。
文件详解
- 模拟实验数据(Simulated data)
- 文件名称:simu.UBL.internalBL10timeshortened.1xsites.tar.gz、simu.UBL.internalBL10timeshortened.2xsites.tar.gz、C20UBL.simu.concate121pro.35taxon.bl5x.phy.tar.gz、simupmsfUBLforILS.tar.gz、simu.UBL.originalBL.1xsites.tar.gz
- 文件格式:GZ(压缩包)
- 字段映射介绍:包含不同参数设置下的模拟基因组数据,用于测试不同模型在系统发育推断中的性能,涵盖内部枝长调整、位点数量变化、分类群数量差异等场景。
- 实证测试数据(Empirical test data)
- 文件名称:breviate.22taxa.dat.tar.gz
- 文件格式:GZ(压缩包)
- 字段映射介绍:包含22个分类群的实证基因组数据,用于验证模拟实验结果在实际系统发育分析中的适用性。
- 补充材料(Supplementary materials)
- 文件名称:USYB-2018-158.SupplementaryMaterials.docx
- 文件格式:DOCX
- 字段映射介绍:包含研究的详细补充信息,如实验设计、参数设置、结果分析等,支持对数据集的深入理解。
数据来源
论文“The relative importance of modeling site pattern heterogeneity versus partition-wise heterotachy in phylogenomic inference”
适用场景
- 系统发育基因组学模型比较: 分析位点异质性模型、分区模型及组合模型在系统发育推断中的相对性能。
- 长枝吸引问题研究: 探讨蛋白质分区策略导致的长枝吸引偏差及其缓解方法。
- 基因组数据模拟实验: 利用模拟数据测试不同进化参数(如枝长、位点数量、分类群数量)对系统发育推断的影响。
- 实证系统发育分析: 应用于微孢子虫等类群的系统发育关系推断,验证模型选择的实际效果。
- 分区策略优化: 研究蛋白质聚类方法(如PartitionFinder)对系统发育推断准确性的提升作用。