数据集

生物分子结合数据集

生物分子结合数据集数据来源：互联网公开数据
标签：生物分子,SMILES,蛋白质结合,机器学习,药物开发,分子特性,数据预处理

数据概述：
本数据集包含用于生物分子结合预测的补充计算和数据，主要针对Leash Bio - Predict New Medicines with BELKA竞赛。数据集分为多个文件夹，包括训练子集、SMILES文件、特征文件以及用于相似性分析和分子构建块特性的数据。
- "Train subsets"文件夹包含针对三种蛋白质目标（HSA、sEH、BRD4）的训练数据子集，每个子集包含与目标蛋白结合的分子及其SMILES表示，以及相同数量的不结合分子。数据以快速可读的r qs格式存储。
- "Smiles"文件夹包含所有用于训练和测试集构建块的唯一SMILES表示，以CSV和SDF格式存储。
- "Features"文件夹包含不同类型分子特性的CSV格式数据。
- "for sim analysis"文件夹包含预计算的训练和测试分子相似性数据，用于评估机器学习模型的泛化能力。
- "bb features"文件夹包含训练和测试分子构建块的分子表示。

数据用途概述：
该数据集适用于机器学习模型训练、生物分子结合预测、药物开发研究以及分子特性分析。研究人员和开发者可以利用数据集进行分子结合模式分析、模型泛化能力评估，或探索新药开发中的分子特性。

数据与资源

生物分子结合数据集.zipZIP
152.08 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	152.08 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

生物分子结合数据集

数据与资源

附加信息

注册成功！