数据集

蛋白质-配体相互作用预测数据集Protein-LigandInteractionPredictionDataset-inonehit

数据来源：互联网公开数据

标签：蛋白质, 配体, 相互作用, 分子对接, SMILES, 机器学习, 生物化学, 药物研发

数据概述：该数据集包含用于预测蛋白质与配体之间相互作用的数据，记录了蛋白质与小分子配体结合的结构信息和活性数据。主要特征如下：时间跨度：数据未明确标明时间，可视为静态数据集。地理范围：数据未限定地理范围，适用于全球范围内的生物化学研究和药物研发。数据维度：数据集包括buildingblock1_smiles、buildingblock2_smiles、buildingblock3_smiles（配体SMILES字符串）、protein_name（蛋白质名称）和binds（结合活性，0表示未结合，1表示结合）等字段。数据格式：CSV格式，文件名为PNMBB1eBalanced0.7M_2.csv、PNMBB1eBalanced0.7M_3.csv、PNMBB1eBalanced1.7M_1.csv、PNMBBIndex3eBalanced3.1M.csv等，以及pkl和pth格式的辅助文件，便于分子结构分析和机器学习模型训练。来源信息：数据来源于公开的分子数据库和蛋白质结构数据库，经过了标准化和清洗处理。该数据集适合用于蛋白质-配体相互作用预测、药物设计和虚拟筛选等研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于生物化学、药物化学和计算生物学领域的学术研究，如蛋白质-配体相互作用预测模型的开发、结合位点分析等。行业应用：可以为药物研发行业提供数据支持，特别是在先导化合物筛选、虚拟筛选和药物设计方面。决策支持：支持药物研发过程中的靶点选择、化合物优化和安全性评估。教育和培训：作为生物信息学、药物设计和机器学习课程的辅助材料，帮助学生和研究人员深入理解蛋白质-配体相互作用。此数据集特别适合用于探索蛋白质与小分子配体相互作用的规律，帮助用户构建预测模型，加速药物研发进程，并优化先导化合物。

数据与资源

versions_20250402120308.zipZIP
31.53 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	31.53 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。