数据集概述
该数据集包含果蝇纳苏亚种(Coorg品系)的全基因组Illumina短读长测序组装及分析结果。基于Illumina HiSeq 2500技术对40只5日龄雄性果蝇基因组DNA进行双端测序,涵盖基因组组装、注释及质量评估等核心内容。
文件详解
该数据集包含多个目录和文件,具体说明如下:
- 基因组组装目录(Genome_assembly/):
- 组装文件: D1-gapfilled_scaffolds.fasta、D1-reduced_contigs.fasta、D1-SSPACE_scaffolds.fasta、D1-final_draft_assembly.fasta、D1.fasta.masked(均为FASTA格式,记录不同阶段的基因组序列)
- 说明文件: readme.doc(DOC格式,组装相关说明)
- 注释目录(Annotations/):
- 注释文件: Drosophila_nasuta_Coorg.proteins.fa(蛋白质序列,FA格式)、kog-class.txt(KOG分类,TXT格式)、pasa_predictions.gff3、snap-predictions.gff3、trnascan.gff3、glimmerhmm-predictions.gff3、augustus.gff3(基因预测结果,GFF3格式)、D1-Gene_Ontology.txt(基因本体注释,TXT格式)、D1-drosAlbom_blastp.outfmt6(BLAST比对结果,OUTFMT6格式)、genemark.gtf(基因预测,GTF格式)、D1.fasta.out(输出文件)
- 说明文件: readme.doc(DOC格式,注释相关说明)
- 组装质量评估目录(Assembly_quality_assessment/):
- 质量评估文件: D.n.nasuta-D.melanogaster.coords、D.n.nasuta-D.albomicans.coords(共线性分析,COORDS格式)、D.n.nasuta-D.melanogaster.coords.idx、D.n.nasuta-D.albomicans.coords.idx(索引文件)、D.n.nasuta-D.melanogaster.delta、D.n.nasuta-D.albomicans.delta(比对结果,DELTA格式)、D1-BUSCO_summary.diptera_odb10.txt(BUSCO评估结果,TXT格式)、D1-assembly-stats.json(组装统计,JSON格式)
适用场景
- 进化生物学研究: 分析果蝇纳苏亚种与近缘物种的基因组差异及进化关系
- 功能基因组学研究: 基于基因注释数据探究特定基因的功能及调控机制
- 基因组组装方法学研究: 评估Illumina短读长测序在小型基因组组装中的应用效果
- 昆虫遗传学研究: 为果蝇纳苏亚种的遗传特性及适应性进化研究提供基础数据