数据集概述
本数据集包含用于比较HBV序列比对方法的相关数据,涉及全自动序列比对方法与传统方法的性能对比。数据涵盖HBV全基因组及片段序列的比对结果、系统发育树、基因型分析等内容,共13个文件,可用于研究不同比对方法对系统发育分析的影响及HBV基因型分类。
文件详解
- 文档文件
- 文件名称:hbv_suppinfo_commands.docx
- 文件格式:DOCX
- 字段映射介绍:可能包含研究中使用的命令行操作说明等补充信息
- 序列文件
- 文件名称:GenomeConsensus.fasta
- 文件格式:FASTA
- 字段映射介绍:HBV基因组共识序列文件
- 文件名称:initial_genbank_download_sequences.gb
- 文件格式:GB
- 字段映射介绍:从GenBank下载的原始HBV序列文件
- 压缩文件
- 文件名称:Genome_alignments.zip、GI_Clustering.zip、Total_alignments.zip、cleaned_genbank.zip、Genome_trees.zip、Total_alignment_trees.zip
- 文件格式:ZIP
- 字段映射介绍:分别包含基因组比对结果、GI聚类数据、总比对结果、清理后的GenBank数据、基因组系统发育树、总比对系统发育树等压缩数据
- 表格文件
- 文件名称:hbv_supp_tableS2_genotype_occupancy.xlsx、hbv_supp_tableS1_compatability_rf.xlsx
- 文件格式:XLSX
- 字段映射介绍:分别包含HBV基因型占用情况表、比对方法兼容性RF值表
数据来源
论文“Fully automated sequence alignment methods are comparable to, and much faster than, traditional methods in large data sets: an example with hepatitis B virus”
适用场景
- 病毒基因组序列比对方法研究: 比较全自动与传统序列比对方法在HBV大数据集上的性能、效率及对系统发育分析的影响
- 系统发育树构建与分析: 基于不同比对方法的结果,研究HBV系统发育树拓扑结构差异及分支支持度影响
- HBV基因型分类研究: 分析不同比对方法及支持阈值下HBV基因型的单系性,探讨基因型分类合理性
- 生物信息学算法评估: 评估全自动序列比对算法在复杂病毒基因组数据中的适用性与可靠性