DGN_PPIN_Based_蛋白质相互作用网络敏感性预测训练与预测数据

数据集概述

本数据集包含训练深度图网络(DGN)模型所需的全部数据,用于蛋白质相互作用网络(PPIN)的敏感性预测任务。数据分为训练数据、预测数据和案例研究数据三部分,支持模型训练、预测及BACH2案例分析,是生物信息学领域蛋白质网络分析的结构化资源。

文件详解

  • training_data目录
  • folds子目录:含UC1、UC2、UC3三个用例的k折拆分文件
  • pyg_datalists子目录:含DyPPIN数据集诱导的子图(pyg格式),含三个数据列表文件:
  • io.pkl:仅包含输入输出特征
  • io+emb.pkl:在I/O特征基础上增加蛋白质序列压缩嵌入
  • io+onehot.pkl:在I/O特征基础上增加蛋白质标识符的独热编码
  • prediction_data目录
  • biogrid_ppi_with_nodes_having_embedding.pkl:含BioGRID互作组的PyTorch几何数据对象(仅包含有预计算序列嵌入的蛋白质)
  • biogrid_graphs_stats.csv:含训练中PPIN子图的统计信息(用于估计预测可靠性)
  • dyppin_proteins.txt:训练数据集PPIN子图中的所有蛋白质列表
  • uniprot_embeddings_pca_128.pkl:经PCA压缩的蛋白质序列嵌入
  • ckpts子目录:含敏感性预测所需的模型检查点
  • case_study_data目录
  • graphs子目录:含Reactome通路相关的PPIN子图及PDF格式可视化(绿色高亮INS、GCG、BACH2、AFF3、CUX2节点)
  • case_study_predictions.tsv:含DGN模型预测结果及数据样本统计信息

数据来源

论文关联的GitHub仓库

适用场景

  • 生物信息学模型训练: 用于复现深度图网络(DGN)在蛋白质相互作用网络敏感性预测任务中的训练过程
  • 蛋白质网络敏感性预测: 利用训练好的模型对任意PPIN子图进行敏感性预测
  • 蛋白质特征融合分析: 比较不同蛋白质特征集(I/O、I/O+嵌入、I/O+独热编码)对模型性能的影响
  • 生物互作组研究: 基于BioGRID互作组数据开展蛋白质相互作用网络的结构与功能分析
  • 医学案例研究支持: 为BACH2等特定蛋白质相关的医学案例研究提供预测数据与可视化支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 354.95 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。