蛋白质类型数据分离数据集

蛋白质类型数据分离数据集 数据来源:互联网公开数据
标签:蛋白质类型,摩根指纹,SMILES,训练集,测试集,数据分离,机器学习,化学信息学
数据概述:
本数据集基于SMILES表示的化合物数据,通过“摩根指纹”方法生成,包含训练集和测试集的分离结果。测试集数据完整,包含1,674,896行记录,而训练集数据则选取了2,000,000行进行分离。数据集的创建基于Kaggle平台上的相关笔记本(链接:https://www.kaggle.com/code/mehrankazeminia/frag-5-1-6-belka-eda-data-separation),旨在为蛋白质类型相关的机器学习任务提供高质量的数据支持。
数据用途概述:
该数据集适用于蛋白质类型预测、化合物分类、化学信息学研究等场景。研究人员可通过摩根指纹提取化合物特征,用于训练分类模型;测试集数据可用于模型的验证与评估。此外,数据集也适用于药物开发领域的研究,帮助识别化合物与蛋白质之间的相互作用关系,为相关领域的学术研究和工业应用提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 722.88 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。