数据集概述
本数据集包含为Bgee 15.0版本构建的仓鼠(Mesocricetus auratus)基因间序列数据,基于十六个文库生成。涵盖基因间序列文件、分类统计数据及分布可视化文档,为基因表达分析提供基础数据支持。
文件详解
- 基因间序列文件:
- ref_intergenic.fa.gz: GZ压缩的FASTA文件,可能包含参考基因间序列数据
- other_intergenic.fa.gz: GZ压缩的FASTA文件,可能包含其他类型的基因间序列数据
- 统计数据文件:
- gaussian_choice.tsv: TSV格式文件,包含高斯模型选择相关数据,字段包括speciesId(物种ID)、organism(生物)、numberGaussiansCoding(编码区高斯数)等
- sum_abundance_gene_classification.tsv: TSV格式文件,包含基因丰度与分类数据,字段包括gene_id(基因ID)、est_counts(估计计数)、tpm(每百万转录本)、fpkm(每千碱基外显子每百万映射片段)、type(类型)、biotype(生物型)、classification(分类)等
- 可视化文档:
- distribution_TPM_sum_deconvolution.pdf: PDF格式文件,可能为TPM总和解卷积的分布可视化图表
适用场景
- 基因结构研究: 分析仓鼠基因间序列的特征与分布
- 基因表达分析: 基于基因丰度数据(TPM、FPKM)研究基因表达模式
- 生物信息学方法验证: 评估高斯模型在基因序列分析中的应用效果
- 基因组注释: 支持基因类型与生物型的分类研究
- 转录组学研究: 为Bgee数据库相关基因表达分析提供基础数据