数据集概述
本数据集包含2017年4月从EnteroBase获取的2218个大肠杆菌公开基因组组装数据及元数据,另含119个INNUENDO项目的产志贺毒素大肠杆菌基因组。数据覆盖全基因组(wgMLST)和核心基因组(cgMLST)方案、等位基因谱及菌株元数据,支持大肠杆菌的基因分型研究。
文件详解
- 元数据文件:
- Metadata/Ecoli_metadata.txt:文本格式,含菌株来源分类、宿主分类、分离国家/年份、血清型、致病型、pubMLST 7基因ST分型、组装来源/方法及Enterobase条码等字段
- 基因组文件:
- Genomes/目录:含119个INNUca v3.1组装的基因组(对应元数据文件中菌株),EnteroBase组装需通过条码从指定链接下载
- 方案文件:
- Schema/Ecoli_wgMLST_7601_schema.tar.gz:压缩格式,含7601个位点的wgMLST方案(chewBBACA格式)
- Schema/Ecoli_cgMLST_2360_listGenes.txt:文本格式,含2360个位点的cgMLST基因列表(定义为99%以上基因组中存在的位点)
- 等位基因谱文件:
- Allele_Profiles/Ecoli_wgMLST_alleleProfiles.tsv:TSV格式,2337个大肠杆菌基因组的wgMLST等位基因谱(缺失位点按chewBBACA标注)
- Allele_Profiles/Ecoli_cgMLST_alleleProfiles.tsv:TSV格式,2337个大肠杆菌基因组的cgMLST等位基因谱(缺失位点标注为0)
数据来源
EnteroBase、INNUENDO Sequence Dataset(PRJEB27020)
适用场景
- 大肠杆菌分子分型研究:基于wgMLST和cgMLST方案进行菌株基因分型与亲缘关系分析
- 流行病学调查:通过元数据与基因谱关联,追踪大肠杆菌菌株的传播路径
- 基因组进化分析:探究大肠杆菌基因组结构变异及核心基因保守性
- 致病机制研究:对比产志贺毒素等不同致病型大肠杆菌的基因组特征
- 公共卫生监测:为食源性或水源性大肠杆菌疫情的溯源提供基因数据支持