数据集概述
本数据集整合了三十个原发性头颈部癌症(HNC)基因表达数据集及配套临床数据,是目前同类资源中规模最大的。数据经标准化预处理,包含患者生存、淋巴结转移状态及肿瘤分级、HPV状态等预后相关变量,共涉及两千一百三十四个HNC肿瘤样本,支持基因表达与临床结局关联的元分析研究。
文件详解
- Clinical_metadata.tar.gz
- 文件格式:GZ(压缩包)
- 字段映射介绍:包含手动整理的临床元数据,涵盖患者生存结局、淋巴结转移状态、肿瘤分级、解剖位置、HPV状态等预后相关变量
- Clinical_metadata_glossary.xlsx
- 文件格式:XLSX
- 字段映射介绍:临床元数据术语表,解释临床变量的定义及编码规则
- Normlized_gene_expression.tar.gz
- 文件格式:GZ(压缩包)
- 字段映射介绍:经质控、标准化、对数转换后的基因表达谱数据,为统一预处理后的基因表达量矩阵
适用场景
- 头颈部癌症预后生物标志物研究: 分析基因表达与患者生存、淋巴结转移等临床结局的关联,筛选预后相关基因
- 肿瘤分子分型研究: 基于基因表达谱数据探索头颈部癌症的分子亚型及与临床特征的对应关系
- 元分析方法验证: 作为大规模整合数据集,支持头颈部癌症基因表达元分析方法的开发与验证
- 临床预后模型构建: 结合基因表达与临床变量(如HPV状态、肿瘤分级)构建预测模型,评估患者预后风险