数据集概述
本数据集为论文“PARNAS: Objectively selecting the most representative taxa on a phylogeny”配套数据,包含支持PARNAS算法的实证研究与模拟研究相关文件。PARNAS是一种用于系统发育树中分类单元客观抽样的算法,可通过解决广义k-medoids问题选择最具代表性的分类单元,适用于基因组流行病学研究。数据集包含2个文件,支持SARS-CoV-2、流感病毒等病原体的多样性分析与疫苗设计应用。
文件详解
- README.txt
- 文件格式:TXT
- 字段映射介绍:说明数据包含PARNAS相关的三项实证研究(swIAV、seasonalH3N2、SARS-CoV-2)子目录及模拟研究脚本,每个子目录含独立README.txt。
- PARNAS-virus-studies-v4.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包包含三项实证研究子目录(swIAV、seasonalH3N2、SARS-CoV-2)及模拟研究脚本,分别对应猪流感病毒分析、人季节性H3N2流感病毒分析、SARS-CoV-2分析等内容。
数据来源
论文“PARNAS: Objectively selecting the most representative taxa on a phylogeny”(Systematic Biology 2023)
适用场景
- 基因组流行病学研究: 量化SARS-CoV-2等病原体的遗传多样性随时间的变化趋势。
- 疫苗设计与评估: 选择代表性流感病毒分类单元,识别疫苗覆盖缺口,支持多价疫苗的理性设计。
- 系统发育数据分析: 对大规模系统发育树进行客观子抽样,生成计算可行的数据集用于详细分析。
- 病原体监测应用: 基于长期基因组监测数据(如猪流感病毒5年数据)选择代表性分类单元,优化监测策略。