数据集概述
本数据集围绕嗜热球菌科古菌tRNA基因展开,通过手动注释20个完整基因组的tRNA基因集,验证GtRNAdb预测结果的准确性,区分经典与非经典tRNA基因,并提出优化tRNA基因预测的方法,为古菌tRNA基因集研究提供数据支持。
文件详解
该数据集包含9个文件,具体说明如下:
- 工作流与输出文件:
- 01_workflow_tRNAscanSE_predictions_210archaea.html:HTML格式,记录20个嗜热球菌科基因组和210个古菌基因组tRNA基因预测的工作流及图形化输出
- 02_workflow_tRNAscanSE_predictions_210archaea.Rmd:R Markdown格式,对应上述HTML文件的源文件
- tRNA基因预测文件(TXT格式):
- 03_thermo_trnas_GtRNAdb.txt:GtRNAdb中20个嗜热球菌科基因组的预测tRNA基因集
- 04_Archaea_genome_list.txt:GtRNAdb中217个古菌基因组的详情,标注不可用的7个基因组
- 05_thermo_tRNAs_genome.txt:本地运行tRNAscan-SE(2.0.6版本)预测的20个嗜热球菌科基因组tRNA基因集
- 06_Archaea_210_GtRNAdb_tRNAs.txt:GtRNAdb中210个古菌基因组的预测tRNA基因集
- 07_Archaea_210genomes_tRNAs.txt:本地运行tRNAscan-SE预测的210个古菌基因组tRNA基因集
- TXT文件字段示例:Assembly Sequence、tRNA_type、Anticodon、Inf_score等
- 基因组序列与系统发育数据:
- 08_NCBI_genomes.zip:ZIP格式,包含研究使用的NCBI GenBank基因组序列文件
- 09_phylogeny.tar.gz:GZIP压缩包,包含20个嗜热球菌科生物的系统发育树构建数据
适用场景
- 古菌tRNA基因注释研究:验证自动化预测工具的准确性,优化tRNA基因集预测方法
- 嗜热球菌科基因组分析:探究该科古菌tRNA基因的经典与非经典类型分布
- 分子生物学研究:分析水平转移元件、CRISPR-Cas活性对tRNA基因的影响
- 生物信息学工具优化:为tRNAscan-SE等自动化注释软件的改进提供实证数据