数据集概述
本数据集是研究人类新生突变队列水平分析的支持文件,包含新生突变计数、富集结果、基因注释、表达数据及预计算模型输出等24个文件,用于复现研究关键发现并支持详细分析,需配合指定GitHub仓库的Jupyter笔记本使用。
文件详解
- 文本文件(.txt,14个):
- 如README.txt:说明数据集用途及使用方法
- 如LOE_gnomAD.txt:包含ENSG基因ID及对应数值
- 如Syn_rate_NDD_gene.txt:记录NDD基因的同义突变率数据
- 如CHD_LoF_results.txt:CHD基因LoF分析结果
- 压缩文件(.gz,4个):
- 如ENS_ID2Gene_ID.txt.gz:基因ID映射文件
- 如NDD_missense_recurrence.txt.gz:NDD错义突变复发数据
- 其他格式文件:
- winners_curse.csv:CSV格式,包含数值数据列
- rna_single_cell_cluster.tsv.zip:单细胞RNA聚类数据压缩包
- tmp2.txt_annot_counts.pkl:Python pickle格式的注释计数文件
适用场景
- 生殖细胞克隆扩增驱动因素的机制研究
- 新生突变队列水平分析方法的复现验证
- 基因注释与表达数据的关联分析
- 突变富集结果的二次验证与扩展研究
- 生物学领域可重复性研究方法的实践案例