数据集概述
本数据集是基于GSE40419肺腺癌研究数据,通过nf-core/rnaseq流程生成的RNA-seq计数表示例,用于下游RNA-seq分析测试。包含22个文件,涵盖基因和转录本水平的表达结果、合并后的计数与TPM值文件、元数据及质控报告等,支持基因表达分析相关工具的测试验证。
文件详解
- 单样本结果文件
- 文件名称:如ERR164554.isoforms.results、ERR164554.genes.results等(共16个.results格式文件)
- 文件格式:.results
- 字段映射介绍:包含单个样本的基因或转录本水平表达量化结果
- 合并量化文件
- 文件名称:rsem.merged.gene_counts.tsv、rsem.merged.gene_tpm.tsv、rsem.merged.transcript_counts.tsv、rsem.merged.transcript_tpm.tsv(共4个.tsv格式文件)
- 文件格式:.tsv
- 字段映射介绍:合并多个样本的基因/转录本计数及TPM值,包含gene_id、transcript_id(s)及各样本(如ERR160122、ERR160123)的量化数据
- 元数据与质控文件
- 文件名称:GSE40419.json、multiqc.tar.gz
- 文件格式:.json、.gz
- 字段映射介绍:GSE40419研究的元数据;multiqc.tar.gz为质控报告压缩包
数据来源
GSE40419肺腺癌研究数据及nf-core/rnaseq流程
适用场景
- RNA-seq下游分析工具测试: 用于验证差异表达分析、聚类分析等下游工具的功能与稳定性
- 生物信息学流程验证: 测试基于RNA-seq计数数据的分析流程准确性
- 基因表达数据分析教学: 作为示例数据支持RNA-seq数据分析相关的教学与培训
- 转录组学方法比较: 用于不同基因表达量化方法或工具的结果对比研究