贝尔卡分子分型训练与测试数据集-版本3

贝尔卡分子分型训练与测试数据集-版本3 数据来源:互联网公开数据 标签:贝尔卡,分子分型,SMILES,指纹,机器学习,数据分离,训练数据,测试数据,生物学,化学信息学

数据概述: 本数据集包含了用于分子分型任务的训练数据和测试数据,基于蛋白质类型进行分离。数据集是通过“从SMILES生成摩根指纹”的方法创建的。测试数据集包含1674896行数据,而训练数据集则仅分离了其中的2000000行数据。该数据集是Kaggle上编号为1-2-belka-eda-data-separation的笔记本的第三个版本的结果。

数据用途概述: 该数据集适用于分子分型、机器学习模型训练与测试、化学信息学研究以及生物学数据分析等场景。研究人员可以利用此数据集进行分子指纹的生成与分析,开发和评估分子分型模型;教育机构可以利用此数据集进行教学和教材编写;化学和生物领域的研究者可以利用数据集进行相关研究,推动科学进步。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 371.93 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。