ProbioSML_Based_机器学习支撑益生菌基因序列数据库数据

数据集概述

本数据集是基于机器学习构建的益生菌序列数据库ProbioSML,包含1071个与已证实具有益生菌特性的微生物属相关的基因。数据集共4个文件,覆盖基因序列、预测结果及注释信息,为益生菌基因研究提供结构化资源。

文件详解

  • 基因序列文件
  • 文件名称:ProbioDB_1.0.faa、ProbioDB_1.0.ffn
  • 文件格式:faa、ffn
  • 字段映射介绍:存储与益生菌特性相关的基因序列数据
  • 注释与预测结果文件
  • 文件名称:db_overall.tsv、db_overall.xlsx
  • 文件格式:tsv、xlsx
  • 字段映射介绍:包含id、svm_method_prediction(SVM方法预测)、rf_method_prediction(随机森林方法预测)、lr_method_prediction(逻辑回归方法预测)、old_locustag、species_model、product、mapped、seed_ortholog、evalue、score、eggNOG_OGs、max_annot_lvl、COG_category、Description、Preferred_name等字段

适用场景

  • 益生菌基因特性研究:分析与益生菌特性相关的基因序列及其功能注释
  • 机器学习模型验证:基于svm/rf/lr方法的预测结果,验证不同模型在益生菌基因筛选中的性能
  • 微生物分类研究:通过species_model、seed_ortholog等字段探究益生菌属的分类关系
  • 基因功能注释分析:利用eggNOG_OGs、COG_category等注释信息,研究益生菌基因的功能分类
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.53 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。