生物分子结合数据集

生物分子结合数据集 数据来源:互联网公开数据
标签:生物分子,SMILES,蛋白质结合,机器学习,药物开发,分子特性,数据预处理

数据概述:
本数据集包含用于生物分子结合预测的补充计算和数据,主要针对Leash Bio - Predict New Medicines with BELKA竞赛。数据集分为多个文件夹,包括训练子集、SMILES文件、特征文件以及用于相似性分析和分子构建块特性的数据。
- "Train subsets"文件夹包含针对三种蛋白质目标(HSA、sEH、BRD4)的训练数据子集,每个子集包含与目标蛋白结合的分子及其SMILES表示,以及相同数量的不结合分子。数据以快速可读的r qs格式存储。
- "Smiles"文件夹包含所有用于训练和测试集构建块的唯一SMILES表示,以CSV和SDF格式存储。
- "Features"文件夹包含不同类型分子特性的CSV格式数据。
- "for sim analysis"文件夹包含预计算的训练和测试分子相似性数据,用于评估机器学习模型的泛化能力。
- "bb features"文件夹包含训练和测试分子构建块的分子表示。

数据用途概述:
该数据集适用于机器学习模型训练、生物分子结合预测、药物开发研究以及分子特性分析。研究人员和开发者可以利用数据集进行分子结合模式分析、模型泛化能力评估,或探索新药开发中的分子特性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 152.08 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。