数据集概述
本数据集为癌症科学家R技能培训课程所用,原始来源为英国癌症研究剑桥研究所生物信息学核心团队。包含12个文件,涵盖癌症临床数据、基因突变、基因表达、拷贝数变异等多类数据,支持癌症科学领域的数据分析技能学习与实践。
文件详解
- 癌症研究相关数据文件
- 文件名称:41467_2018_4619_MOESM11_ESM.xlsx、41467_2018_4619_MOESM11_ESM.csv、brca_metabric_clinical_data.tsv、metabric_mutations.csv、metabric_cna.txt、metabric_clinical_and_expression_data.csv、ncomms11479-s3.xlsx、cellline_nci60_clinical_data.xlsx、cases_nat_comm_2016.txt
- 文件格式:.xlsx、.csv、.tsv、.txt
- 字段映射介绍:
- 临床数据文件:包含患者ID、样本ID、癌症类型、诊断年龄、ER状态、HER2状态等字段
- 基因表达文件(metabric_mrna_expression.txt):包含STUDY_ID、SAMPLE_ID及ESR1、ERBB2等基因表达值字段
- 突变数据文件:包含基因突变相关标识及分类字段
- 时间序列数据文件(41467_2018_4619_MOESM11_ESM.csv):包含Uniprot Accession、基因名称及不同时间点(2h、6h、24h)的表达量字段
数据来源
Cancer Research UK Cambridge Institute Bioinformatics Core
适用场景
- 癌症科学数据分析技能培训: 用于癌症科学家学习R语言在临床数据、基因表达数据处理中的应用
- 癌症研究数据实践: 支持癌症临床特征、基因突变、基因表达等数据的整合分析练习
- 生物信息学入门教学: 作为生物信息学基础技能培训的实操数据集
- 多类型生物数据处理练习: 提供Excel、CSV、TSV、TXT等多种格式数据,用于数据读取与转换技能训练