CNVkit_Based_RD_Connect_GPAP合成数据拷贝数变异检测数据

数据集概述

本数据集是从Zenodo原始BAM文件集合中提取的子集,基于RD-Connect GPAP合成数据进行处理,通过CNVkit检测拷贝数变异,仅保留感兴趣区域。数据集包含72个文件,涵盖.cns、.vcf、.json三种格式,聚焦于基因组拷贝数变异的分析研究。

文件详解

  • 文件类型与分布
  • .cns文件(36个):包含拷贝数变异检测结果,如Case4C.15.call.cns、Case6C.19.cns等
  • .vcf文件(18个):包含变异信息,如Case1M.19.vcf、Case3F.11.vcf等
  • .json文件(18个):包含结构化的变异元数据,如Case5M.17.json、Case4F.15.json等
  • JSON文件字段映射
  • 核心字段:biosampleId(生物样本ID)、variantInternalId(变异内部ID)、variantState(变异状态,含id和label)、location(染色体位置,含chromosome、start、end)、info(附加信息,含cn_number等)、updated(更新时间)、assemblyId(基因组版本)

数据来源

Zenodo原始BAM文件集合(https://zenodo.org/records/7273767

适用场景

  • 基因组拷贝数变异检测方法验证:评估CNVkit在合成数据中的检测性能
  • 基因组变异数据分析:研究拷贝数变异的特征与分布
  • 生物信息学工具开发:为CNVkit相关算法优化提供测试数据
  • 基因组学研究:支持拷贝数变异相关的基因组学研究与应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.64 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。