数据集概述
本数据集包含从TCGA项目获取的BRCA(乳腺癌)、LGG(低级别胶质瘤)、LUAD(肺癌)三种癌症类型的CNV、mRNA、miRNA、蛋白质四组学数据,以及各向同性分布混合的合成数据。癌症数据已按列缩放至0-1区间,行对应患者、列对应特征,摘要数据仅含数值型观测值。
文件详解
- 文件名称:DastasetFiles.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含预处理后的癌症多组学数据与合成数据。癌症数据按癌症类型分类,列代表特征(CNV、mRNA、miRNA、蛋白质组学指标),行代表患者样本;合成数据为各向同性分布混合的数值型数据,列代表特征,行代表观测值。
数据来源
IEEE Dataport(Diego Salazar,2021)、U-BRITE平台“AI against CANCER DATA SCIENCE HACKATHON”
适用场景
- 癌症多组学特征分析:用于挖掘BRCA、LGG、LUAD三种癌症的CNV、mRNA、miRNA、蛋白质组学特征关联。
- 癌症亚型分类研究:基于多组学数据探索不同癌症类型的分子亚型差异。
- 合成数据建模验证:利用合成数据测试机器学习模型在癌症数据分析中的鲁棒性。
- 生物标志物筛选:通过多组学数据关联分析识别潜在的癌症诊断或预后生物标志物。