分子属性预测数据集-PCBAOGBG-MolPCBA-dataup1
数据来源:互联网公开数据
标签:分子,化学,生物活性,机器学习,图神经网络,药物发现,化合物,分子结构,二元分类,OGB
数据概述:
本数据集OGBG-MolPCBA是用于分子属性预测的基准数据集,源自于MoleculeNet,是MoleculeNet中最大的数据集之一。数据集包含437,929个分子,每个分子由一个图表示,其中节点代表原子,边代表化学键。节点特征为9维,包含原子序数、手性,以及其他原子特征如形式电荷和是否在环中等。该数据集用于预测分子的多种生物活性,具体表现为128个二元分类任务,例如预测分子是否具有某种药理活性。数据预处理使用RDKit,将SMILES字符串转换为图对象。
数据用途概述:
该数据集主要用于训练和评估图神经网络模型在分子属性预测方面的性能。研究人员可以利用该数据集探索药物发现、化合物筛选等领域,例如预测分子是否具有抑制特定病毒复制的能力,或者预测分子的其他生物活性。该数据集还可用于测试和比较不同的图神经网络架构,以及研究迁移学习在分子性质预测中的应用。此外,数据集的分割方式(基于骨架分割)可以提供模型在实际实验环境中的更真实的性能评估。