Camptotheca_De_novo_喜树基因组组装与抗癌化合物生物合成研究数据

数据集概述

本数据集包含喜树(Camptotheca acuminata)的高质量从头基因组组装及相关注释数据,喜树是抗癌化合物喜树碱的天然来源。数据涵盖基因组序列、基因模型、功能注释、BUSCO评估结果、基因表达矩阵及系统发育树等,共15个文件,为喜树碱生物合成途径研究及药物开发提供基础。

文件详解

  • 基因组组装文件
  • 文件名称:cac_genome_assembly_v2.4.fa、Cac_scaffolds_v2.4.fa.repeatmasker.gff
  • 文件格式:FA、GFF
  • 字段映射介绍:包含1394条 scaffolds 的基因组序列(403,174,860 bp)及重复序列注释信息
  • 基因模型文件
  • 文件名称:cac_hc_gene_models.cds.fa、cac_hc_gene_models.pep.fa、cac_hc_gene_models.cdna.fa、cac_hc_gene_models.repr.pep.fa、cac_hc_gene_models.gff3、cac_hc_gene_models.repr.gff3
  • 文件格式:FA、GFF3
  • 字段映射介绍:包含31,825个基因的CDS、cDNA、蛋白序列及基因结构注释(GFF3格式)
  • BUSCO评估文件
  • 文件名称:short_summary_BUSCO.txt、full_table_BUSCO.tsv、missing_busco_list_BUSCO.tsv
  • 文件格式:TXT、TSV
  • 字段映射介绍:基于embryophyta_odb9数据库的基因组完整性评估结果,包含BUSCO基因的完整、缺失、片段化统计
  • 功能注释与表达数据
  • 文件名称:cac_hc_gene_models.func_anno.txt、Camptotheca_gene_expression_matrix.xlsx
  • 文件格式:TXT、XLSX
  • 字段映射介绍:基因功能注释信息及基因表达矩阵
  • 系统发育树文件
  • 文件名称:topoisomerase_ML_tree.nwk
  • 文件格式:NWK
  • 字段映射介绍:拓扑异构酶的最大似然法系统发育树
  • 说明文件
  • 文件名称:README.txt
  • 文件格式:TXT
  • 字段映射介绍:数据集内容说明及文件清单

数据来源

论文“De novo genome assembly of Camptotheca acuminata, a natural source of the anti-cancer compound camptothecin”

适用场景

  • 抗癌药物生物合成研究:通过基因注释数据挖掘喜树碱生物合成关键基因
  • 基因组进化分析:利用基因组组装及系统发育树研究喜树的进化关系
  • 基因功能验证:基于基因表达矩阵及蛋白序列开展喜树碱合成相关基因功能实验
  • 药物开发应用:为喜树碱及类似物的异源表达和新型抗癌药物研发提供基因资源
  • 基因组完整性评估:通过BUSCO结果验证喜树基因组组装质量
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 661.16 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。