数据集概述
本数据集为研究“宿主内动态、遗传及表型效应预测病毒突变成功”的论文配套数据,包含机器学习训练数据、宿主内/宿主间连锁统计、氨基酸理化性质、深度突变扫描表型等多维度文件,覆盖SARS-CoV-2突变相关的分子与进化分析基础数据。
文件详解
- 机器学习训练数据文件:
- mutation_stats.zip:压缩文件,包含不同模型训练数据,如.dprime_stats.csv(含理化、宿主内等预测因子)、.spike.stats.csv(仅刺突蛋白模型数据)、X_to_Y.*.stats.csv(跨数据集模型数据)
- 连锁统计文件:
- intrahost_linkage_statistics.zip:压缩文件,各宿主内数据集的连锁统计结果
- observed_Dprime.all_time.gt1000.csv.gz:压缩CSV文件,全GISAID数据集的宿主间连锁统计
- 元数据与频率文件:
- all_sra_metadata.csv:CSV文件,所有测序文库的生物样本元数据
- missense_freq.filt.csv.gz:压缩CSV文件,所有数据集的宿主内SAV频率
- tonkin.missense_freq.filt.dedup.csv.gz:压缩CSV文件,Tonkin-Hill数据集的宿主内SAV频率
- 分子特性与表型文件:
- aa_properties.blosum62.csv:CSV文件,基于BioPython计算的氨基酸替换理化性质
- parsed_dms_phenotypes.csv:CSV文件,解析的Bloom实验室深度突变扫描表型数据
- 6vxx.filt.SASA.csv:CSV文件,SARS-CoV-2刺突蛋白残基相对溶剂可及性(PDB:6vxx)
- cov-constellations.parsed_all.csv:CSV文件,不同谱系相关的突变星座数据
适用场景
- 病毒进化研究:分析宿主内/宿主间突变连锁模式与病毒适应性进化机制
- 机器学习建模:构建病毒突变成功预测模型,整合理化、宿主内动态等多维度特征
- 分子表型分析:探究氨基酸替换的理化性质、表型效应与突变频率的关联
- 结构生物学研究:结合刺突蛋白结构特征(如溶剂可及性)分析突变的结构基础
- 流行病学分析:利用突变星座数据关联病毒谱系与进化轨迹