SIG4_Based_波恩生物信息学核心单元基因组变异检测基准测试数据集

数据集概述

本数据集是波恩生物信息学核心单元使用Nvidia Clara Parabricks流程生成的SIG4基准测试数据,用于hg38参考基因组的种系变异检测。包含全外显子测序(WES)、全基因组测序(WGS)、合成基因组及结构变异(SV)等多种类型的变异检测基准数据,共15个文件。

文件详解

  • 变异检测文件(.vcf.gz格式)
  • 文件名称:118711_75M.vcf.gz、118711_200M.vcf.gz、NA12878_HG001_Twist.vcf.gz、A006200148.vcf.gz、PRJEB13208_hg38.vcf.gz、NA24385_Delly_SVs_hg38.vcf.gz、PRJEB13208_b37.vcf.gz
  • 文件格式:.vcf.gz(压缩的变异调用格式文件)
  • 字段映射介绍:包含基因组变异位点信息,涵盖WES(75M/200M reads)、WGS、合成基因组及SV检测结果,对应hg38和b37参考基因组
  • 索引文件(.tbi格式)
  • 文件名称:118711_75M.vcf.gz.tbi、118711_200M.vcf.gz.tbi、A006200148.vcf.gz.tbi、PRJEB13208_hg38.vcf.gz.tbi、NA24385_Delly_SVs_hg38.vcf.gz.tbi等
  • 文件格式:.tbi(Tabix索引文件)
  • 字段映射介绍:为对应.vcf.gz文件提供索引,支持快速查询基因组特定区域的变异数据
  • 汇总文件
  • 文件名称:WGGC_Benchmark_Inhouse_Summary.xlsx
  • 文件格式:.xlsx
  • 字段映射介绍:包含SIG4基准测试数据集的内部汇总信息

数据来源

波恩生物信息学核心单元(Core Unit for Bioinformatics Bonn)

适用场景

  • 基因组变异检测流程评估: 用于验证和比较不同种系变异检测流程在hg38参考基因组上的性能
  • 生物信息学工具基准测试: 作为Nvidia Clara Parabricks等变异检测工具的基准数据集,评估工具准确性和效率
  • 测序数据类型对比研究: 分析WES(不同reads数)、WGS、合成基因组数据在变异检测中的差异
  • 结构变异检测方法验证: 利用SV Benchmarking数据评估结构变异检测工具的性能
  • 生物信息学工作流优化: 为基因组变异检测流程的参数调整和优化提供参考数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 614.12 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。