数据集概述
本数据集包含喜树(Camptotheca acuminata)的高质量从头基因组组装及相关注释数据,喜树是抗癌化合物喜树碱的天然来源。数据涵盖基因组序列、基因模型、功能注释、BUSCO评估结果、基因表达矩阵及系统发育树等,共15个文件,为喜树碱生物合成途径研究及药物开发提供基础。
文件详解
- 基因组组装文件
- 文件名称:cac_genome_assembly_v2.4.fa、Cac_scaffolds_v2.4.fa.repeatmasker.gff
- 文件格式:FA、GFF
- 字段映射介绍:包含1394条 scaffolds 的基因组序列(403,174,860 bp)及重复序列注释信息
- 基因模型文件
- 文件名称:cac_hc_gene_models.cds.fa、cac_hc_gene_models.pep.fa、cac_hc_gene_models.cdna.fa、cac_hc_gene_models.repr.pep.fa、cac_hc_gene_models.gff3、cac_hc_gene_models.repr.gff3
- 文件格式:FA、GFF3
- 字段映射介绍:包含31,825个基因的CDS、cDNA、蛋白序列及基因结构注释(GFF3格式)
- BUSCO评估文件
- 文件名称:short_summary_BUSCO.txt、full_table_BUSCO.tsv、missing_busco_list_BUSCO.tsv
- 文件格式:TXT、TSV
- 字段映射介绍:基于embryophyta_odb9数据库的基因组完整性评估结果,包含BUSCO基因的完整、缺失、片段化统计
- 功能注释与表达数据
- 文件名称:cac_hc_gene_models.func_anno.txt、Camptotheca_gene_expression_matrix.xlsx
- 文件格式:TXT、XLSX
- 字段映射介绍:基因功能注释信息及基因表达矩阵
- 系统发育树文件
- 文件名称:topoisomerase_ML_tree.nwk
- 文件格式:NWK
- 字段映射介绍:拓扑异构酶的最大似然法系统发育树
- 说明文件
- 文件名称:README.txt
- 文件格式:TXT
- 字段映射介绍:数据集内容说明及文件清单
数据来源
论文“De novo genome assembly of Camptotheca acuminata, a natural source of the anti-cancer compound camptothecin”
适用场景
- 抗癌药物生物合成研究:通过基因注释数据挖掘喜树碱生物合成关键基因
- 基因组进化分析:利用基因组组装及系统发育树研究喜树的进化关系
- 基因功能验证:基于基因表达矩阵及蛋白序列开展喜树碱合成相关基因功能实验
- 药物开发应用:为喜树碱及类似物的异源表达和新型抗癌药物研发提供基因资源
- 基因组完整性评估:通过BUSCO结果验证喜树基因组组装质量