FireProtDB与PDB结构蛋白质稳定性数据集

数据集概述

本数据集整合FireProtDB的序列突变热力学稳定性数据(ddG)与RCSB PDB的蛋白质结构文件,用于训练预测蛋白质点突变稳定性变化的模型。包含3438个突变数据及对应结构,支持蛋白质工程与结构生物学研究。

文件详解

  • 压缩包文件:
  • fireprot_upload.zip:压缩包格式,包含数据集所有内容
  • 目录与子文件:
  • pdbs/目录:存储所有蛋白质结构的PDB文件
  • csvs/目录:存储突变数据的CSV文件
  • 4_fireprotDB_bestpH.csv:主数据集文件,含3438个突变(覆盖100种蛋白质),核心字段包括pdb_id_corrected(对应pdbs/目录结构)、ddG(稳定性变化值)、wild_type(野生型氨基酸)、mutation(突变氨基酸)、pdb_position(PDB文件中突变残基的0基索引)
  • fireprot_splits.pkl:数据集划分文件(训练/验证/测试集)
  • splits/子目录:含训练/验证/测试/无同源序列子集的CSV文件,索引对应主数据集

适用场景

  • 蛋白质工程研究:训练预测点突变热力学稳定性变化的模型
  • 结构生物学分析:探究蛋白质结构与稳定性的关联
  • 生物信息学应用:开发蛋白质突变效应预测工具
  • 学术研究复现:支持ThermoMPNN相关研究的实验复现与扩展
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.18 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。