数据集概述
本数据集包含三个人类样本的二倍体VCF文件,是论文“Haplotype Threading: Accurate Polyploid Phasing from Long Reads”的评估数据基础,用于生成多倍体数据集。数据包含通过样本自身及其父母的 trio 定相得到的金标准单倍型。
文件详解
- 文件名称:
vcf-diploid.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含三个人类样本的二倍体VCF文件,文件包含通过 trio 定相获得的金标准单倍型信息,具体字段需解压后查看VCF标准格式内容(如染色体、位置、参考碱基、变异碱基、基因型、单倍型相位等)。
数据来源
论文“Haplotype Threading: Accurate Polyploid Phasing from Long Reads”
适用场景
- 多倍体定相算法评估: 作为基准数据,验证Haplotype Threading等多倍体定相模型的准确性和性能。
- 基因组学定相方法研究: 用于比较不同定相技术(如长读长测序、trio定相)的结果差异。
- 人类基因组变异分析: 分析人类样本的二倍体单倍型结构及其遗传特征。
- 生物信息学工具开发: 为多倍体基因组数据分析工具的开发提供标准化测试数据。