数据集概述
本数据集是波恩生物信息学核心单元使用Nvidia Clara Parabricks流程生成的SIG4基准测试数据,用于hg38参考基因组的种系变异检测。包含全外显子测序(WES)、全基因组测序(WGS)、合成基因组及结构变异(SV)等多种类型的变异检测基准数据,共15个文件。
文件详解
- 变异检测文件(.vcf.gz格式)
- 文件名称:118711_75M.vcf.gz、118711_200M.vcf.gz、NA12878_HG001_Twist.vcf.gz、A006200148.vcf.gz、PRJEB13208_hg38.vcf.gz、NA24385_Delly_SVs_hg38.vcf.gz、PRJEB13208_b37.vcf.gz
- 文件格式:.vcf.gz(压缩的变异调用格式文件)
- 字段映射介绍:包含基因组变异位点信息,涵盖WES(75M/200M reads)、WGS、合成基因组及SV检测结果,对应hg38和b37参考基因组
- 索引文件(.tbi格式)
- 文件名称:118711_75M.vcf.gz.tbi、118711_200M.vcf.gz.tbi、A006200148.vcf.gz.tbi、PRJEB13208_hg38.vcf.gz.tbi、NA24385_Delly_SVs_hg38.vcf.gz.tbi等
- 文件格式:.tbi(Tabix索引文件)
- 字段映射介绍:为对应.vcf.gz文件提供索引,支持快速查询基因组特定区域的变异数据
- 汇总文件
- 文件名称:WGGC_Benchmark_Inhouse_Summary.xlsx
- 文件格式:.xlsx
- 字段映射介绍:包含SIG4基准测试数据集的内部汇总信息
数据来源
波恩生物信息学核心单元(Core Unit for Bioinformatics Bonn)
适用场景
- 基因组变异检测流程评估: 用于验证和比较不同种系变异检测流程在hg38参考基因组上的性能
- 生物信息学工具基准测试: 作为Nvidia Clara Parabricks等变异检测工具的基准数据集,评估工具准确性和效率
- 测序数据类型对比研究: 分析WES(不同reads数)、WGS、合成基因组数据在变异检测中的差异
- 结构变异检测方法验证: 利用SV Benchmarking数据评估结构变异检测工具的性能
- 生物信息学工作流优化: 为基因组变异检测流程的参数调整和优化提供参考数据