蛋白质序列功能注释数据集_生物信息学测试数据

数据集概述

本数据集包含蛋白质序列功能注释工作流测试的输入和输出文件,共5个文件,涵盖FASTA、tabular和XML三种格式,主要用于生物信息学领域的蛋白质功能注释流程验证与测试。

文件详解

  • 输入文件
  • 文件名称:protein_sequences.fasta
  • 文件格式:FASTA
  • 字段映射介绍:包含待注释的蛋白质序列基础数据
  • 输出文件
  • 文件名称:eggNOG_Mapper_annotation.tabular
  • 文件格式:tabular
  • 字段映射介绍:eggNOG Mapper工具生成的蛋白质功能注释结果
  • 文件名称:interproscan.tabular
  • 文件格式:tabular
  • 字段映射介绍:InterProScan工具生成的表格形式功能注释结果
  • 文件名称:interproscan.xml
  • 文件格式:XML
  • 字段映射介绍:InterProScan工具生成的XML格式功能注释结果(含元数据)
  • 文件名称:eggNOG_Mapper_seed_orthologs.tabular
  • 文件格式:tabular
  • 字段映射介绍:eggNOG Mapper工具识别的种子同源序列信息

适用场景

  • 生物信息学工作流测试:验证蛋白质功能注释流程的完整性与准确性
  • 蛋白质功能注释工具评估:对比不同注释工具(eggNOG Mapper、InterProScan)的输出结果
  • 生物数据格式研究:分析FASTA、tabular、XML格式在蛋白质注释数据中的应用特点
  • 计算生物学教学:作为蛋白质功能注释流程的教学演示数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 7.51 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。