有机化学分子BBBP性质预测数据集-2011
数据来源:互联网公开数据
标签:有机化学,分子预测,机器学习,图数据,性质预测,化学特征,机器学习基准,研究数据集
数据概述:
本数据集来自Open Graph Benchmark(OGB)项目,包含了用于分子性质预测的数据。具体来说,ogbg-molbbbp数据集包含了分子的图结构表示,每个图代表一个分子,节点表示原子,边表示化学键。输入节点特征是9维的,包括原子数、手性以及其他附加原子特征,如正式电荷和原子是否在环中。该数据集从MoleculeNet数据集中选取,并使用RDKit工具包进行预处理。
数据集中的分子性质被编码为二元标签,例如,一个分子是否抑制HIV病毒复制。数据集提供了训练集、验证集和测试集的划分,使用了基于分子的二维结构框架的支架拆分方法,以提供更现实的模型性能估计。
数据用途概述:
该数据集适用于机器学习研究,特别是在图神经网络和分子性质预测领域。研究人员可以使用此数据集来训练和评估模型预测分子的生物活性、毒性等性质。此外,该数据集还可以用于预训练图模型,以提高其在下游任务上的泛化性能。数据集还提供了简单的模块AtomEncoder和BondEncoder,用于嵌入原子和化学键特征,以便在模型训练中使用。
ogbg-molbbbp数据集是OGB项目的一部分,该项目提供了一系列用于图结构数据的基准数据集,支持自动下载、处理和划分。用户可以使用OGB提供的数据加载器和评估器来统一评估模型性能。
参考文献:
1. Wu, Z., Ramsundar, B., Feinberg, E. N., Gomes, J., Geniesse, C., S Pappu, A., Leswing, K., & Pande, V. (2018). MoleculeNet: A benchmark for molecular machine learning. Chemical Science, 9(2), 513-530.
2. Landrum, G. et al. RDKit: Open-source cheminformatics, 2006.
3. Anderson, E., Veith, G. D., & Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures.
4. Hu, W., Liu, B., Gomes, J., Zitnik, M., Liang, P., Pande, V., & Leskovec, J. (2020). Strategies for pre-training graph neural networks. International Conference on Learning Representations.
5. Hu, W., Fey, M., Zitnik, M., Dong, Y., Ren, H., Liu, B., Catasta, M., & Leskovec, J. (2020). Open graph benchmark: Datasets for machine learning on graphs. Advances in Neural Information Processing Systems, 22118-22133.