药物-蛋白质结合指纹数据集

药物-蛋白质结合指纹数据集 数据来源:互联网公开数据
标签:药物分子,蛋白质结合,SMILES,指纹表示,机器学习,数据分离,化合物筛选,生物信息学
数据概述:
本数据集基于SMILES序列生成摩根指纹,用于描述药物分子与蛋白质的结合特性。数据集分为训练集和测试集两部分,其中测试集包含1,674,896行数据,训练集则专门分离了binds=1(表示结合)的样本。数据集通过“摩根指纹从SMILES”方法生成,为药物分子与蛋白质结合的研究提供了标准化的特征表示。
数据用途概述:
该数据集适用于药物筛选、结合模式研究以及机器学习模型训练等场景。研究人员可利用此数据集分析药物分子与蛋白质的结合规律,优化药物设计;测试集可用于验证模型的泛化性能,而训练集则为模型提供高质量的结合样本。此外,数据集还可用于探索结合机制,支持药物研发中的靶点预测和活性分析。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 12:42 (UTC)
创建于 五月 31, 2025, 12:41 (UTC)