数据集概述
本数据集为EXPOsOMICS个人暴露监测研究中血清代谢组的处理后数据,包含298个样本的代谢组测量结果与协变量信息,以及代谢物注释数据。数据源自多中心研究,可用于分析血清代谢组的变异性及与暴露因素的关联,共含5个文件。
文件详解
processed_covariate_data.csv
- 文件格式:CSV
- 字段映射:包含298行7列数据,字段有subjectid(受试者哈希ID)、sample_code(样本类型A/B)、centre(研究中心)、age_cat(年龄组)、sqsex(性别)、traf(交通暴露水平)、bmicat(BMI分类)
processed_lcms_data.csv
- 文件格式:CSV
- 字段映射:包含298行4297列数据,字段有subjectid、sample_code、centre及4294个以X前缀的代谢物特征(命名含单同位素质量_保留时间),未检出值编码为1
annotations.xlsx
- 文件格式:XLSX
- 内容说明:代谢物注释信息
ancestors_annotations.xlsx
- 文件格式:XLSX
- 内容说明:基于ChEBI本体的代谢物注释祖先信息(用于化合物分类)
annotations_plus_kegg_pathways.csv
- 文件格式:CSV
- 字段映射:包含compound(化合物)、mass(质量)、retention_time(保留时间)、annotation(注释)、kegg_entry(KEGG条目)、pathway_name(通路名称)等代谢物注释及KEGG通路信息
数据来源
EXPOsOMICS Personal Exposure Monitoring study,论文DOI:10.1021/acs.est.3c03233
适用场景
- 代谢组变异性分析:研究血清代谢组在3个月内的时间变异性特征
- 暴露因素关联研究:分析交通暴露(PM2.5、UFP)与代谢组特征的关联
- 代谢组学数据整合:结合协变量与代谢物数据开展多变量分析
- 代谢通路富集分析:利用KEGG注释数据研究代谢通路与暴露因素的关系
- 生物标志物筛选:探索与交通暴露相关的血清代谢生物标志物