数据集概述
本数据集围绕细菌基因组编码的特殊代谢物生物合成多样性展开研究,通过分析约17万个细菌基因组和4.7万个宏基因组组装基因组,揭示不同细菌类群的生物合成潜力,重点识别具有高多样性代谢物合成能力的类群,为抗生素和癌症治疗药物研发提供数据支持。
文件详解
该数据集包含10个文件,具体说明如下:
- 表格数据文件:
- STable1_all_genomes_info.tsv: 表格文件,包含所有基因组的基本信息,字段包括数据集名称、基因组编号、分类学信息及生物合成基因簇ID
- STable3_BiG-SLICE_t0.5_GCF_assignment.csv: CSV文件,记录BiG-SLICE算法在t0.5阈值下的基因簇家族分配结果
- STable4_BiG-SLICE_t0.6_GCF_assignment.csv: CSV文件,记录BiG-SLICE算法在t0.6阈值下的基因簇家族分配结果
- STable5_BiG-SLICE_t0.7_GCF_assignment.csv: CSV文件,记录BiG-SLICE算法在t0.7阈值下的基因簇家族分配结果
- Source_Data_Fig4b.csv: CSV文件,图4b的原始数据
- 树结构数据文件:
- Source_Data_Fig4a_ExtDataFig3_labeled_REDgroups.tree: 树结构文件,带标签的相对进化距离分组树
- Source_Data_Fig2a_uncollapsed_phyla.tree: 树结构文件,未折叠的门水平系统发育树
- 代码文件:
- perform_l2norm_clustering.py: Python脚本,用于执行L2范数聚类分析
- Gavriilidou_Source_Data_ED_Fig1.zip: 压缩文件,包含扩展数据图1的源数据
适用场景
- 微生物代谢组学研究: 分析不同细菌类群的特殊代谢物生物合成潜力
- 药物研发: 挖掘具有抗生素和抗癌药物开发价值的细菌代谢物资源
- 微生物分类学研究: 探索基于生物合成多样性的细菌分类方法
- 基因组数据分析: 研究生物合成基因簇的进化与分布规律
- 微生物资源开发: 识别未充分研究但具有高代谢物多样性的细菌类群