数据集概述
本数据集是基于人、黑猩猩、大猩猩和红毛猩猩的基因组,通过软件生成的同源序列数据集,包含匿名基因座(AL)、锚定基因座(AE)等多种类型的基因座数据,用于分析人科动物的进化关系、祖先有效种群大小和物种形成时间,为基因组系统发育研究提供标准化的分析数据。
文件详解
- 文档文件(.txt)
- 文件名称:README_for_AE242_data_files.txt、README_for_AL292_data_files.txt、README_for_HKY208_data_files.txt、README_for_AE171_data_files.txt
- 文件格式:TXT
- 字段映射介绍:各数据集的说明文档,包含数据生成背景、方法、文件内容和使用指引等信息。
- 压缩文件(.zip)
- 文件名称:AE171_data_files.zip、AE242_data_files.zip、AL292_data_files.zip、HKY208_data_files.zip
- 文件格式:ZIP
- 字段映射介绍:各类型基因座的序列数据集压缩包,包含约1kb长度的基因座序列,其中AL292数据集包含292个匿名基因座,AE171和AE242数据集分别包含171个、242个锚定基因座相关序列。
数据来源
论文“In silico phylogenomics using complete genomes: a case study on the evolution of hominoids”
适用场景
- 基因组系统发育分析:用于构建人科动物的物种进化树,验证物种间的亲缘关系。
- 祖先种群参数估计:通过基因座序列数据,估算人科动物祖先有效种群大小和物种形成时间。
- 进化基因组学方法验证:比较不同类型基因座(如匿名基因座、锚定基因座)在系统发育分析中的准确性和适用性。
- 生物信息学软件评估:基于数据集的生成过程和分析结果,评估自动化获取同源序列软件的性能。
- 分子进化研究:分析基因座序列的进化模式,探究选择压力对系统发育分析的影响。