数据集概述
本数据集基于1000 Genomes项目一期数据(850个非洲、亚洲、欧洲个体,约3600万个低覆盖度测序变异位点),通过主成分分析(PCA)检测自然选择的基因组信号。数据包含遗传变异与主成分的相关性结果,可识别已知(如EDAR、SLC24A5)和新的自然选择候选基因及通路。
文件详解
- 文件名称:loadings_1000G.txt.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:压缩包内包含基于1000 Genomes数据计算的PCA载荷文件,记录遗传变异位点与各主成分的相关性数值,用于识别与自然选择相关的基因组区域。
数据来源
论文“Detecting genomic signatures of natural selection with principal component analysis: application to the 1000 Genomes data”
适用场景
- 群体遗传学研究: 分析人类群体间遗传分化及自然选择对基因组的影响。
- 局部适应性机制探究: 识别不同人群中与适应性相关的候选基因(如EDAR、SLC24A5)及非编码RNA。
- 多基因适应通路分析: 研究先天免疫系统(β防御素)、脂质代谢(脂肪酸ω氧化)等通路的适应性进化。
- 无预定义群体的选择信号检测: 验证PCA方法在群体结构不明确时的自然选择扫描效果。
- 基因组工具验证: 支持PCAdapt软件在全基因组测序项目中检测选择信号的方法学验证。