数据集概述
本数据集包含359个精选化能自养生物基因组的列表,其中347个用于AutoFixMark工具的基准测试。数据集提供了这347个基因组的蛋白质序列FASTA文件,文件来源于NCBI RefSeq和INSDC,共包含2个文件,无目录结构。
文件详解
- 文件名称:347CuratedChemolithoautotrophsGenomeList.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含359个精选化能自养生物基因组的列表,其中347个用于AutoFixMark工具的基准测试,具体字段未提供预览
- 文件名称:347CuratedChemolithoautotrophsGenomesProteinFASTA.tar.gz
- 文件格式:GZ(压缩包)
- 字段映射介绍:压缩包内包含347个基因组的蛋白质序列FASTA文件,文件来源于NCBI RefSeq和INSDC
数据来源
AutoFixMark论文
适用场景
- 微生物基因组工具基准测试: 用于AutoFixMark工具与其他工具的性能对比和准确性验证
- 化能自养生物基因组研究: 分析精选化能自养生物的基因组特征和分类
- 蛋白质序列分析: 利用FASTA文件进行化能自养生物的蛋白质结构、功能及进化研究
- 生物信息学工具开发: 为微生物基因组相关工具的训练和测试提供标准化数据集