数据集概述
本数据集围绕冈比亚按蚊染色体倒位选择靶点识别展开,包含RAD测序数据的分析结果及相关辅助文件。聚焦2La、2Rb等多态性倒位,通过机器学习方法识别选择靶点,对比传统离群值分析,揭示干湿栖息地相关倒位的选择模式,为疟疾媒介快速适应研究提供数据支持。
文件详解
- SamplingInfo.csv(CSV格式)
- 字段映射:包含样本编号(Sample)、物种(Species)、2La倒位状态(2La)、2Rb倒位状态(2Rb)、采样地点(Location)、纬度(Latitude)、经度(Longitude)等采样信息。
- msms_runningSettings.zip(ZIP格式):存储msms软件运行设置相关文件。
- Inversion_DAPCRegion_stats.xlsx(XLSX格式):包含染色体倒位DAPC区域统计数据。
- fastsimcoal_settings.zip(ZIP格式):存储fastsimcoal软件设置相关文件。
- allIndividuals.vcf.gz(GZ格式):压缩的全个体基因变异数据文件(VCF格式)。
数据来源
论文“Identifying targets of selection in mosaic genomes with machine learning: applications in Anopheles gambiae for detecting sites within locally adapted chromosomal inversions”
适用场景
- 疟疾媒介基因组选择靶点研究:识别冈比亚按蚊染色体倒位内的选择靶点,分析干湿栖息地适应相关基因区域。
- 机器学习在基因组分析中的应用验证:评估基于判别函数的机器学习方法在选择靶点识别中的效能。
- 群体遗传学分析:利用VCF数据及模拟设置文件,开展群体遗传结构、基因流及选择压力分析。
- 疟疾防控策略研究:通过理解媒介适应性机制,为制定针对性疟疾防控措施提供科学依据。