数据集概述
本数据集为大鼠脑蛋白表达遗传调控研究的系统性数据,包含72个文件,涵盖样本信息、动物信息、蛋白表达量、GEMMA分析结果、pQTL分析文件、图表生成代码及表型数据等。通过串联质谱标签(TMT)定量质谱技术,对自发性高血压大鼠(SHR/Olalpcv)、多趾-错位棕色挪威大鼠(BN-Lx/Cub)及其29个近交后代的脑蛋白组进行量化,涉及蛋白表达差异分析、pQTL定位及跨物种关联等研究内容。
文件详解
- 样本与动物信息文件
- 文件名称:sample_info.xlsx、Animal_infomation.xlsx、sample_info_all.xlsx
- 文件格式:XLSX
- 字段映射介绍:记录实验样本的分组、编号、来源等基础信息,以及实验动物的品系、性别、遗传背景等核心属性
- 蛋白表达数据文件
- 文件名称:protein_expression_mean_by_strain.xlsx
- 文件格式:XLSX
- 字段映射介绍:按大鼠品系统计的蛋白表达量均值数据,包含不同品系的蛋白表达水平对比信息
- 遗传分析结果文件
- 文件名称:step_5_gemma_results_celltype_Neuron.txt、noperm_Q9Z1E1.txt、noperm_Q6AY99_protein.txt等44个TXT文件
- 文件格式:TXT
- 字段映射介绍:包含cis-pQTL分析结果,涉及基因名称、染色体位置、变异位点、效应值、统计显著性(如p值、FDR)等关键信息;其中step_5_gemma_results_celltype_Neuron.txt针对神经元细胞类型的GEMMA分析结果,记录了基因关联的染色体区域、标记位点及统计参数
- 图表与代码文件
- 文件名称:Figure_4_B_effect_size.R、Figure_3_B_pQTL.R、Figure_2_D_KEGG.R等15个R文件
- 文件格式:R
- 字段映射介绍:用于生成研究图表的代码脚本,涉及效应值可视化、pQTL分布分析、KEGG通路分析等功能
- 辅助数据文件
- 文件名称:rat_chr_length.xlsx、phenotypes_acq_webQTL_110204.xls
- 文件格式:XLSX、XLS
- 字段映射介绍:大鼠染色体长度数据,以及WebQTL平台获取的表型数据,支持遗传定位与表型关联分析
适用场景
- 蛋白质组学遗传调控研究:分析大鼠脑蛋白表达的遗传变异机制,探索cis-pQTL对蛋白表达的影响
- 神经生物学研究:探究脑蛋白表达与中枢神经系统复杂性状的功能关联,支持神经疾病机制分析
- 跨物种医学转化研究:通过大鼠pQTL与人类疾病的关联分析,挖掘潜在的疾病治疗靶点
- 生物信息学方法验证:利用标准化的蛋白组-基因组数据集,验证遗传定位算法(如GEMMA)的性能
- 实验设计参考:为大规模动物模型蛋白组学实验提供样本管理、数据处理及结果呈现的范式