数据集概述
本数据集基于单细胞基因组测序技术,围绕OV2295样本展开,包含克隆分解、DNA复制状态相关的多维度数据,涵盖断点计数、细胞特异性拷贝数、细胞指标、克隆等位基因、克隆断点、克隆聚类、克隆拷贝数、克隆单核苷酸变异(SNV)、系统发育信息、SNV计数及系统发育树等结构化数据,以及辅助可视化的图表文件。
文件详解
- 核心数据文件(.gz压缩格式):
- ov2295_breakpoint_counts.csv.gz:断点计数表,包含prediction_id、cell_id、read_count、染色体位置等字段,记录每个细胞的断点信息
- ov2295_cell_cn.csv.gz:细胞特异性拷贝数表,包含cell_id、chr、start、end、copy、state等字段,记录细胞的拷贝数状态
- ov2295_cell_metrics.csv.gz:细胞指标表,包含cell_id、total_reads、percent_duplicate_reads、coverage_depth等字段,记录细胞的测序质量指标
- ov2295_clone_alleles.csv.gz:克隆等位基因数据表,包含chr、start、end、clone_id、allele_1_sum等字段,记录克隆的等位基因计数
- ov2295_clone_breakpoints.csv.gz:克隆断点表,包含prediction_id、clone_id、is_present等字段,记录每个克隆的断点信息
- ov2295_clone_clusters.csv.gz:细胞克隆聚类表,包含cell_id、clone_id字段,记录细胞与克隆的对应关系
- ov2295_clone_cn.csv.gz:克隆拷贝数表,包含chr、start、end、total_cn、clone_id等字段,记录克隆的拷贝数状态
- ov2295_clone_snvs.csv.gz:克隆SNV表,包含chrom、coord、ref、alt、clone_id等字段,记录克隆的单核苷酸变异信息
- ov2295_nodes.csv.gz:系统发育信息表,包含variant_id、node、origin、presence等字段,记录SNV进化的系统发育节点信息
- ov2295_snv_counts.csv.gz:SNV计数表,包含chrom、coord、ref、alt、cell_id等字段,记录每个细胞的SNV计数信息
- 系统发育树文件:
- ov2295_tree.pickle:Python pickle格式的系统发育树文件,需安装特定版本的dollo代码(0.4.2)读取
- 可视化图表文件(.png格式):
- ov_supp_clone_allele_cn.png:OV2295样本的克隆等位基因比值图
- ov_supp_clone_total_cn.png:OV2295样本的克隆拷贝数图
- ov_supp_sample_total_cn.png:OV2295样本的 bulk拷贝数图
- ov_supp_sample_allele_cn.png:OV2295样本的 bulk等位基因比值图
适用场景
- 肿瘤克隆进化研究:分析OV2295样本中肿瘤细胞的克隆结构、拷贝数变异及SNV特征
- 单细胞基因组数据分析:探索单细胞水平的断点计数、拷贝数状态及测序质量指标
- 系统发育树构建:基于pickle文件重建肿瘤细胞的进化关系
- 基因组变异可视化:利用图表文件展示克隆及样本水平的拷贝数与等位基因比值分布
- 癌症生物学机制研究:探究DNA复制状态与肿瘤克隆分解的关联机制