APOBEC3_Published_Data_系统发育与突变分析数据2023

数据集概述

本数据集为Otoole et al(2023)发表的APOBEC3相关研究数据,包含系统发育分析、状态重建、突变计数等多类型数据文件及分析脚本,总计43个文件,涵盖B.1、Clade IIb、Clade I、Clade IIa等分支的APOBEC3分区研究内容,支持论文中的系统发育重建、突变分析及图表生成等工作。

文件详解

  • 数据文件(Data)
  • XML文件(3个):包含epoch模型、exponential模型、skygrid模型(含2个APOBEC3分区定义),格式为.xml
  • 系统发育树文件(4个):涵盖B.1与Clade IIb、Clade I与Clade IIa及外群修剪后的树结构,格式为.tree
  • 状态重建文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的状态重建结果,格式为.csv
  • 分支SNP重建文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的分支SNP数据,格式为.csv
  • 氨基酸重建文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的氨基酸重建结果,格式为.csv
  • SNP计数文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的SNP数量统计,格式为.csv
  • 七聚体计数文件(2个):Clade IIb的内部及所有分支的七聚体数据,格式为.csv
  • 根到末端数据文件(4个):对应B.1与Clade IIb、Clade I与Clade IIa的根到末端数据,格式为.csv
  • 突变计数文件(1个):包含Clade IIb与B.1的突变数据,格式为.csv
  • 脚本文件(Scripts)
  • all_in_one notebook(.ipynb):论文中大部分工作的笔记本,含从状态文件重建分支SNP、生成树图、计算氨基酸信息等功能
  • analysis_until_roottotip(.py):获取根到末端数据的独立脚本
  • cleaner_apobec_work(.ipynb):早期分析版本,含桑基图代码
  • get_ml_tree_with_reconstruction(.sh):用于比对、生成ML树、重建状态及修剪外群的shell命令
  • make_partitions(.py):生成APOBEC3与非APOBEC3两个比对分区的代码
  • roottotip.R(.R):使用根到末端数据的回归分析脚本
  • synonprob.R(.R):给定数据下同义突变概率的计算脚本
  • 文档文件
  • README.md:说明创建图表/执行分析的脚本,含突变随时间线性回归模型的描述

数据来源

Otoole et al (2023)发表的APOBEC3相关研究

适用场景

  • 系统发育分析:利用系统发育树文件和重建文件,研究病毒分支(如B.1、Clade IIb等)的进化关系
  • 突变特征研究:通过SNP计数、氨基酸重建等文件,分析APOBEC3相关突变的类型、频率及分布
  • 时间动态分析:使用根到末端数据文件和回归脚本,开展突变数量随时间变化的线性回归分析
  • 研究结果可视化:借助all_in_one等脚本,复现论文中的树图、桑基图等可视化结果
  • 分子进化模型验证:利用XML格式的模型文件,验证epoch、exponential等分子进化模型的拟合效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 56.8 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。