数据集概述
本数据集整合了COSMIC和1000 Genomes数据库的原始数据,提取了表型相关的突变信息,用于基因突变分析。包含突变注释数据文件和元数据文件,支持基因组学领域的突变研究与分析。
文件详解
- 文件名称:Cosmic_MutantCensus_v102_confirmed_GRCh38_header.tsv
- 文件格式:TSV
- 字段映射介绍:包含GENE_SYMBOL(基因符号)、COSMIC_GENE_ID(COSMIC基因ID)、TRANSCRIPT_ACCESSION(转录本编号)、COSMIC_SAMPLE_ID(COSMIC样本ID)、SAMPLE_NAME(样本名称)、COSMIC_PHENOTYPE_ID(COSMIC表型ID)、GENOMIC_MUTATION_ID(基因组突变ID)、LEGACY_MUTATION_ID(遗留突变ID)、MUTATION_ID(突变ID)、MUTATION_CDS(CDS突变)、MUTATION_AA(氨基酸突变)、MUTATION_DESCRIPTION(突变描述)等字段。
- 文件名称:Cosmic_1000genome_meta.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含COSMIC与1000 Genomes数据相关的元数据信息,具体字段未详细预览。
数据来源
COSMIC数据库(https://cancer.sanger.ac.uk/cosmic/)、1000 Genomes数据库(https://www.internationalgenome.org/)
适用场景
- 癌症基因组突变分析:利用TSV文件中的突变信息,研究癌症相关基因的突变特征与表型关联。
- 人群基因组变异研究:结合1000 Genomes元数据,分析人群基因组中的突变分布规律。
- 基因突变注释验证:通过整合两个数据库的数据,验证基因突变注释的准确性与一致性。
- 表型关联突变挖掘:提取表型相关数据,挖掘与特定表型相关的关键基因突变位点。