TCGA_Pre_Processed_癌症多组学与合成数据集_2021

数据集概述

本数据集包含从TCGA项目获取的BRCA(乳腺癌)、LGG(低级别胶质瘤)、LUAD(肺癌)三种癌症类型的CNV、mRNA、miRNA、蛋白质四组学数据,以及各向同性分布混合的合成数据。癌症数据已按列缩放至0-1区间,行对应患者、列对应特征,摘要数据仅含数值型观测值。

文件详解

  • 文件名称:DastasetFiles.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含预处理后的癌症多组学数据与合成数据。癌症数据按癌症类型分类,列代表特征(CNV、mRNA、miRNA、蛋白质组学指标),行代表患者样本;合成数据为各向同性分布混合的数值型数据,列代表特征,行代表观测值。

数据来源

IEEE Dataport(Diego Salazar,2021)、U-BRITE平台“AI against CANCER DATA SCIENCE HACKATHON”

适用场景

  • 癌症多组学特征分析:用于挖掘BRCA、LGG、LUAD三种癌症的CNV、mRNA、miRNA、蛋白质组学特征关联。
  • 癌症亚型分类研究:基于多组学数据探索不同癌症类型的分子亚型差异。
  • 合成数据建模验证:利用合成数据测试机器学习模型在癌症数据分析中的鲁棒性。
  • 生物标志物筛选:通过多组学数据关联分析识别潜在的癌症诊断或预后生物标志物。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 34.13 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。