数据集概述
本数据集为针叶树群体基因组分析中基因分型测序(GBS)策略优化研究的数据,包含GBS实验设计、数据处理流程及分析结果,涉及限制性内切酶选择、测序深度、片段大小筛选等参数优化,以及UNEAK、Stacks、GATK等分析流程测试,为缺乏参考基因组的物种提供无参考SNP calling策略指导。
文件详解
- 参考序列文件
- 文件名称:9pt-reference.fasta、3pines-reference.fasta、reference_pd.fasta
- 文件格式:FASTA
- 字段映射介绍:包含针叶树基因组参考序列,用于GBS数据分析中的序列比对和SNP检测
- 数据处理脚本
- 文件名称:filter_contigs.pl、filter-specific-stacks.pl、fileter_snp_in_contigs_2.pl、9pd_snp.vcf.sh、3pines_snps.sh、filter-specific-GATK.pl、snp_filter.pl、reference_generated_M1.pl
- 文件格式:PL、SH
- 字段映射介绍:用于GBS数据处理的脚本文件,涵盖contig过滤、SNP筛选、参考序列生成、VCF文件处理等功能
- 分析结果文件
- 文件名称:9py_snp.vcf、9pt_snp.vcf
- 文件格式:VCF
- 字段映射介绍:包含针叶树样本的SNP检测结果,记录单核苷酸多态性位点信息
- 文档文件
- 文件名称:GBS Data Processing Flow.docx
- 文件格式:DOCX
- 字段映射介绍:描述GBS数据处理的流程文档,指导数据处理步骤
- 文本文件
- 文件名称:9py-reference.txt
- 文件格式:TXT
- 字段映射介绍:包含针叶树参考序列的文本文件,示例内容为带有序列ID和核苷酸序列的FASTA格式片段
数据来源
论文“Optimization of the genotyping-by-sequencing strategy for population genomic analysis in conifers”
适用场景
- 针叶树群体基因组研究:用于分析针叶树群体的遗传多样性、种群结构及进化关系
- GBS实验设计优化:指导针叶树及其他非模式物种GBS实验中限制性内切酶选择、测序深度等参数设置
- SNP检测方法比较:对比UNEAK、Stacks、GATK等不同分析流程在针叶树GBS数据中的SNP检测效果
- 无参考基因组物种分析:应用无参考SNP calling策略,为缺乏基因组信息的物种提供群体基因组分析方案
- 基因组数据处理流程构建:基于提供的脚本和流程文档,搭建GBS数据处理的标准化流程