数据集概述
本数据集为Otoole et al(2023)发表的APOBEC3相关研究数据,包含系统发育分析、状态重建、突变计数等多类型数据文件及分析脚本,总计43个文件,涵盖B.1、Clade IIb、Clade I、Clade IIa等分支的APOBEC3分区研究内容,支持论文中的系统发育重建、突变分析及图表生成等工作。
文件详解
- 数据文件(Data)
- XML文件(3个):包含epoch模型、exponential模型、skygrid模型(含2个APOBEC3分区定义),格式为.xml
- 系统发育树文件(4个):涵盖B.1与Clade IIb、Clade I与Clade IIa及外群修剪后的树结构,格式为.tree
- 状态重建文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的状态重建结果,格式为.csv
- 分支SNP重建文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的分支SNP数据,格式为.csv
- 氨基酸重建文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的氨基酸重建结果,格式为.csv
- SNP计数文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的SNP数量统计,格式为.csv
- 七聚体计数文件(2个):Clade IIb的内部及所有分支的七聚体数据,格式为.csv
- 根到末端数据文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的根到末端数据,格式为.csv
- 突变计数文件(1个):包含Clade IIb与B.1的突变数据,格式为.csv
- 脚本文件(Scripts)
- all_in_one notebook(.ipynb):论文中大部分工作的笔记本,含从状态文件重建分支SNP、生成树图、计算氨基酸信息等功能
- analysis_until_roottotip(.py):获取根到末端数据的独立脚本
- cleaner_apobec_work(.ipynb):早期分析版本,含桑基图代码
- get_ml_tree_with_reconstruction(.sh):用于比对、生成ML树、重建状态及修剪外群的shell命令
- make_partitions(.py):生成APOBEC3与非APOBEC3两个比对分区的代码
- roottotip.R(.R):使用根到末端数据的回归分析脚本
- synonprob.R(.R):给定数据下同义突变概率的计算脚本
- 文档文件
- README.md:说明创建图表/执行分析的脚本,含突变随时间线性回归模型的描述
数据来源
Otoole et al (2023)发表的APOBEC3相关研究
适用场景
- 系统发育分析:利用系统发育树文件和重建文件,研究病毒分支(如B.1、Clade IIb等)的进化关系
- 突变特征研究:通过SNP计数、氨基酸重建等文件,分析APOBEC3相关突变的类型、频率及分布
- 时间动态分析:使用根到末端数据文件和回归脚本,开展突变数量随时间变化的线性回归分析
- 研究结果可视化:借助all_in_one等脚本,复现论文中的树图、桑基图等可视化结果
- 分子进化模型验证:利用XML格式的模型文件,验证epoch、exponential等分子进化模型的拟合效果