大肠杆菌全基因组和核心基因组MLST方案及数据集2017

数据集概述

本数据集包含2017年4月从EnteroBase获取的2218个大肠杆菌公开基因组组装数据及元数据,另含119个INNUENDO项目的产志贺毒素大肠杆菌基因组。数据覆盖全基因组(wgMLST)和核心基因组(cgMLST)方案、等位基因谱及菌株元数据,支持大肠杆菌的基因分型研究。

文件详解

  • 元数据文件:
  • Metadata/Ecoli_metadata.txt:文本格式,含菌株来源分类、宿主分类、分离国家/年份、血清型、致病型、pubMLST 7基因ST分型、组装来源/方法及Enterobase条码等字段
  • 基因组文件:
  • Genomes/目录:含119个INNUca v3.1组装的基因组(对应元数据文件中菌株),EnteroBase组装需通过条码从指定链接下载
  • 方案文件:
  • Schema/Ecoli_wgMLST_7601_schema.tar.gz:压缩格式,含7601个位点的wgMLST方案(chewBBACA格式)
  • Schema/Ecoli_cgMLST_2360_listGenes.txt:文本格式,含2360个位点的cgMLST基因列表(定义为99%以上基因组中存在的位点)
  • 等位基因谱文件:
  • Allele_Profiles/Ecoli_wgMLST_alleleProfiles.tsv:TSV格式,2337个大肠杆菌基因组的wgMLST等位基因谱(缺失位点按chewBBACA标注)
  • Allele_Profiles/Ecoli_cgMLST_alleleProfiles.tsv:TSV格式,2337个大肠杆菌基因组的cgMLST等位基因谱(缺失位点标注为0)

数据来源

EnteroBase、INNUENDO Sequence Dataset(PRJEB27020)

适用场景

  • 大肠杆菌分子分型研究:基于wgMLST和cgMLST方案进行菌株基因分型与亲缘关系分析
  • 流行病学调查:通过元数据与基因谱关联,追踪大肠杆菌菌株的传播路径
  • 基因组进化分析:探究大肠杆菌基因组结构变异及核心基因保守性
  • 致病机制研究:对比产志贺毒素等不同致病型大肠杆菌的基因组特征
  • 公共卫生监测:为食源性或水源性大肠杆菌疫情的溯源提供基因数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 298.92 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。