数据集概述
本数据集为Pseudomonas syringae竞争与毒力研究的补充数据,包含2161个PSSC基因组的元数据、PCR引物评估结果、系统发育树、毒力因子HMM模型、基因检测结果、分类器及尾纤维结构预测等35个文件,支持相关章节的基因组分析、引物验证及毒力机制研究。
文件详解
- 基因组与元数据文件
- 文件名称:supplementary data 2_1_1.csv
- 文件格式:CSV
- 字段映射介绍:含2161个PSSC基因组的RefSeq登录号、T3E家族谱、系统发育群及ANI聚类等元数据
- 文件名称:supplementary data 2_1_2.docx
- 文件格式:DOCX
- 字段映射介绍:说明supplementary data 2_1_1.csv的列信息
- PCR引物评估文件
- 文件名称:supplementary data 2_2.xlsx
- 文件格式:XLSX
- 字段映射介绍:16组引物的模拟扩增率(整体及按系统发育群)
- 系统发育树文件
- 文件名称:supplementary data 2_3.tree.txt
- 文件格式:TXT(Newick)
- 字段映射介绍:2161个PSSC基因组的系统发育树,含 bootstrap 值
- 毒力因子模型文件
- 文件名称:supplementary data 2_4.hmm、supplementary data 3_1.hmm、supplementary data 3_2.hmm、supplementary data 3_3.hmm
- 文件格式:HMM
- 字段映射介绍:VFOCs及尾ocin尾纤维的隐马尔可夫模型
- 基因检测结果文件
- 文件名称:supplementary data 2_5_1.json、supplementary data 2_6_1.json
- 文件格式:JSON
- 字段映射介绍:分别以基因组/蛋白登录号为键的T3SS、T3E、WHOP基因检测结果
- 文件名称:supplementary data 2_5_2.docx、supplementary data 2_6_2.docx
- 文件格式:DOCX
- 字段映射介绍:说明对应JSON文件的结构
- 分类器相关文件
- 文件名称:supplementary data 2_7.tsv、supplementary data 2_8.fasta至supplementary data 2_12.fasta、supplementary data 2_13.qza至supplementary data 2_17.qza
- 文件格式:TSV、FASTA、QZA
- 字段映射介绍:LIN编号、模拟扩增子序列及朴素贝叶斯分类器
- 尾纤维结构与检测文件
- 文件名称:supplementary data 3_4.fasta至supplementary data 3_13.pdb
- 文件格式:FASTA、PDB
- 字段映射介绍:尾纤维氨基酸序列及预测结构
- 文件名称:supplementary data 3_14.csv、supplementary data 3_15.csv
- 文件格式:CSV
- 字段映射介绍:HMM1/2/3的基因组筛选结果(尾纤维登录号、拷贝数、系统发育群等)
适用场景
- PSSC基因组分类研究: 利用基因组元数据及分类器进行菌株系统发育与ANI聚类分析
- PCR引物验证: 通过模拟扩增率评估引物在不同系统发育群的适用性
- 毒力因子分析: 基于HMM模型检测基因组中的毒力相关基因与尾纤维
- 系统发育研究: 利用带bootstrap值的系统发育树分析PSSC基因组的进化关系
- 蛋白质结构预测: 参考尾纤维的PDB结构探索其功能与毒力机制关联