数据集概述
本数据集为Galaxy Training Material中“Working with Beacon V2”教程的训练数据,包含来自1000 Genomes Project和GDC数据库的5个文件,覆盖JSON、XLSX、VCF、TSV格式,用于指导用户学习Beacon V2的构建、数据转换、导入及变体查询技能,支撑教程中的实操练习。
文件详解
- 文件名称:Beacon2-list-of-files.xlsx,格式:XLSX,为教程相关文件清单
- 文件名称:HG00096.cnv.vcf,格式:VCF,包含HG00096样本的拷贝数变异(CNV)数据
- 文件名称:HG00096.json,格式:JSON,HG00096样本的相关数据文件
- 文件名称:igsr-1000-genomes-30x-on-grch38.tsv,格式:TSV,含样本名、性别、生物样本ID、人群代码等1000 Genomes Project样本元数据
- 文件名称:phenopacket.json,格式:JSON,表型数据包文件
数据来源
1000 Genomes Project(1000HG)、GDC数据库
适用场景
- Beacon V2操作技能训练:用于学习Beacon V2的创建、数据格式转换、数据导入及变体查询
- 遗传变体数据处理实践:通过VCF、JSON等文件练习拷贝数变异(CNV)等遗传数据的处理
- 生物信息学培训教学:作为Galaxy培训教程的实操数据,支撑生物信息学课程教学
- 基因型与表型数据关联学习:通过TSV元数据与JSON表型数据,理解样本信息与表型的关联逻辑