数据集概述
本数据集包含果蝇(Sussex LHM种群)的基因坐标、表达水平数据,以及SNP的标识符和功能信息,用于为全基因组关联分析(GWAS)结果补充SNP背景信息,涵盖基因表达的性别差异、NCBI dbSNP官方SNP标识符、UCSC基因组浏览器的基因位置与名称等内容。
文件详解
- 数据文件(.txt格式):
- sebida_melanogaster_3.2.txt:包含基因相关元数据,字段包括Accession #、Full Name、Current FBgn、Current Name、Current Symbol、Chromosome、Probe ID、Rep ID、MetaClass、MetaM/F、MetaP、MetaFDR、M/F(Innocenti et al. 2010)、P Value(Innocenti et al. 2010)、AltFlag等
- gene_positions_plink.txt:基因位置数据
- lhm_snp_functions_plink.txt:SNP功能数据
- snpBatch_MORROW_EBE_SUSSEX_1062461:SNP批次数据
- 其他.txt文件:包含日志(log_r_sebida_plotting.txt、log_sh_sebida_plotting.txt)、基因长度(drosophila_gene_lengths相关)等辅助数据
- 代码文件:
- make_dmel_accessory_data.sh:Shell脚本,含在线数据文件URL
- sebida_plotting.R、format_ucsc_gene_coords.R:R语言脚本,用于数据处理和绘图
- 图像文件(.png格式):
- plots_sebida.png、plots_sebida_corr_matrix.png、drosophila_gene_lengths.png:探索性图表,包括相关性矩阵、基因长度分布等
适用场景
- 果蝇遗传学研究:分析基因坐标、表达水平与SNP功能的关联
- GWAS结果补充:为全基因组关联分析提供SNP背景信息支持
- 基因表达性别差异研究:基于MetaM/F等字段探究性别偏向性表达
- 生物信息学方法验证:验证基因坐标格式化、SNP功能注释等数据处理流程