病毒突变成功预测数据集_宿主内动态与遗传表型效应

数据集概述

本数据集为研究“宿主内动态、遗传及表型效应预测病毒突变成功”的论文配套数据,包含机器学习训练数据、宿主内/宿主间连锁统计、氨基酸理化性质、深度突变扫描表型等多维度文件,覆盖SARS-CoV-2突变相关的分子与进化分析基础数据。

文件详解

  • 机器学习训练数据文件:
  • mutation_stats.zip:压缩文件,包含不同模型训练数据,如.dprime_stats.csv(含理化、宿主内等预测因子)、.spike.stats.csv(仅刺突蛋白模型数据)、X_to_Y.*.stats.csv(跨数据集模型数据)
  • 连锁统计文件:
  • intrahost_linkage_statistics.zip:压缩文件,各宿主内数据集的连锁统计结果
  • observed_Dprime.all_time.gt1000.csv.gz:压缩CSV文件,全GISAID数据集的宿主间连锁统计
  • 元数据与频率文件:
  • all_sra_metadata.csv:CSV文件,所有测序文库的生物样本元数据
  • missense_freq.filt.csv.gz:压缩CSV文件,所有数据集的宿主内SAV频率
  • tonkin.missense_freq.filt.dedup.csv.gz:压缩CSV文件,Tonkin-Hill数据集的宿主内SAV频率
  • 分子特性与表型文件:
  • aa_properties.blosum62.csv:CSV文件,基于BioPython计算的氨基酸替换理化性质
  • parsed_dms_phenotypes.csv:CSV文件,解析的Bloom实验室深度突变扫描表型数据
  • 6vxx.filt.SASA.csv:CSV文件,SARS-CoV-2刺突蛋白残基相对溶剂可及性(PDB:6vxx)
  • cov-constellations.parsed_all.csv:CSV文件,不同谱系相关的突变星座数据

适用场景

  • 病毒进化研究:分析宿主内/宿主间突变连锁模式与病毒适应性进化机制
  • 机器学习建模:构建病毒突变成功预测模型,整合理化、宿主内动态等多维度特征
  • 分子表型分析:探究氨基酸替换的理化性质、表型效应与突变频率的关联
  • 结构生物学研究:结合刺突蛋白结构特征(如溶剂可及性)分析突变的结构基础
  • 流行病学分析:利用突变星座数据关联病毒谱系与进化轨迹
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 557.31 MiB
最后更新 2025年12月18日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。