数据集概述
本数据集是从Zenodo原始BAM文件集合中提取的子集,基于RD-Connect GPAP合成数据进行处理,通过CNVkit检测拷贝数变异,仅保留感兴趣区域。数据集包含72个文件,涵盖.cns、.vcf、.json三种格式,聚焦于基因组拷贝数变异的分析研究。
文件详解
- 文件类型与分布
- .cns文件(36个):包含拷贝数变异检测结果,如Case4C.15.call.cns、Case6C.19.cns等
- .vcf文件(18个):包含变异信息,如Case1M.19.vcf、Case3F.11.vcf等
- .json文件(18个):包含结构化的变异元数据,如Case5M.17.json、Case4F.15.json等
- JSON文件字段映射
- 核心字段:biosampleId(生物样本ID)、variantInternalId(变异内部ID)、variantState(变异状态,含id和label)、location(染色体位置,含chromosome、start、end)、info(附加信息,含cn_number等)、updated(更新时间)、assemblyId(基因组版本)
数据来源
Zenodo原始BAM文件集合(https://zenodo.org/records/7273767)
适用场景
- 基因组拷贝数变异检测方法验证:评估CNVkit在合成数据中的检测性能
- 基因组变异数据分析:研究拷贝数变异的特征与分布
- 生物信息学工具开发:为CNVkit相关算法优化提供测试数据
- 基因组学研究:支持拷贝数变异相关的基因组学研究与应用