数据集概述
本数据集是研究论文《Towards a metagenomics machine learning interpretable model for understanding the transition from adenoma to colorectal cancer》的补充材料,包含8个文件,涵盖结直肠腺瘤向癌症转化相关的宏基因组数据、稳定性分析、功能注释及分类学信息,支持对宏基因组机器学习模型的验证与解释。
文件详解
- 数据文件(.tsv格式,共5个):
- crc_stability_summary.tsv:稳定性分析结果,包含项目名称、稳定性值、误差分析等字段
- CRC_KEGG_KOs_cp_support_merge.tsv:KEGG功能注释数据,包含KO编号、得分及功能描述
- CRC_centrifuge_cp_support_merge_withnames.tsv:分类学分析数据,含分类名称及支持度信息
- crc_rank_summary.tsv:分类学水平统计摘要
- CRC_OGs_cp_support_merge.tsv:直系同源组(OGs)数据及支持度信息
- 可视化文件(.html格式,共2个):
- crc_kegg_krona.html:KEGG功能注释的Krona可视化结果
- crc_collapse_norank.html:无分类等级的宏基因组数据可视化
- 压缩文件(.gz格式,共1个):
- centrifuge_project.gz:Centrifuge分类学分析的压缩数据文件
适用场景
- 宏基因组学研究:分析结直肠腺瘤向癌症转化过程中的微生物组变化
- 机器学习模型验证:支持结直肠癌相关宏基因组预测模型的稳定性评估
- 功能基因组学分析:探究与结直肠癌相关的微生物功能通路(如KEGG注释)
- 生物信息学方法开发:为宏基因组数据处理与可视化提供参考案例