数据集概述
本数据集包含训练深度图网络(DGN)模型所需的全部数据,用于蛋白质相互作用网络(PPIN)的敏感性预测任务。数据分为训练数据、预测数据和案例研究数据三部分,支持模型训练、预测及BACH2案例分析,是生物信息学领域蛋白质网络分析的结构化资源。
文件详解
- training_data目录
- folds子目录:含UC1、UC2、UC3三个用例的k折拆分文件
- pyg_datalists子目录:含DyPPIN数据集诱导的子图(pyg格式),含三个数据列表文件:
- io.pkl:仅包含输入输出特征
- io+emb.pkl:在I/O特征基础上增加蛋白质序列压缩嵌入
- io+onehot.pkl:在I/O特征基础上增加蛋白质标识符的独热编码
- prediction_data目录
- biogrid_ppi_with_nodes_having_embedding.pkl:含BioGRID互作组的PyTorch几何数据对象(仅包含有预计算序列嵌入的蛋白质)
- biogrid_graphs_stats.csv:含训练中PPIN子图的统计信息(用于估计预测可靠性)
- dyppin_proteins.txt:训练数据集PPIN子图中的所有蛋白质列表
- uniprot_embeddings_pca_128.pkl:经PCA压缩的蛋白质序列嵌入
- ckpts子目录:含敏感性预测所需的模型检查点
- case_study_data目录
- graphs子目录:含Reactome通路相关的PPIN子图及PDF格式可视化(绿色高亮INS、GCG、BACH2、AFF3、CUX2节点)
- case_study_predictions.tsv:含DGN模型预测结果及数据样本统计信息
数据来源
论文关联的GitHub仓库
适用场景
- 生物信息学模型训练: 用于复现深度图网络(DGN)在蛋白质相互作用网络敏感性预测任务中的训练过程
- 蛋白质网络敏感性预测: 利用训练好的模型对任意PPIN子图进行敏感性预测
- 蛋白质特征融合分析: 比较不同蛋白质特征集(I/O、I/O+嵌入、I/O+独热编码)对模型性能的影响
- 生物互作组研究: 基于BioGRID互作组数据开展蛋白质相互作用网络的结构与功能分析
- 医学案例研究支持: 为BACH2等特定蛋白质相关的医学案例研究提供预测数据与可视化支持