Belka蛋白类型数据集分离结果-2021年

Belka蛋白类型数据集分离结果-2021年 数据来源:互联网公开数据 标签:蛋白类型,机器学习,数据分离,训练集,测试集,SMILES,摩根指纹,数据预处理,科研数据

数据概述: 本数据集包含了根据蛋白类型分离后的训练数据和测试数据。数据集使用了“摩根指纹从SMILES”方法生成,SMILES是一种表示分子结构的字符串表示法。测试数据集包含了1674896行数据,而训练数据集则分离了其中的2000000行数据。这些数据来源于Kaggle上的Belka EDA数据分离项目的第一版笔记本(https://www.kaggle.com/code/mehrankazeminia/frag-4-1-6-belka-eda-data-separation/output)。

数据用途概述: 该数据集适用于机器学习、数据预处理和科研数据探索等场景。研究人员可以使用这些分离的数据集来训练和测试机器学习模型,帮助识别不同类型的蛋白。此外,数据集也适用于教学和科学普及,为学习者提供实际的数据处理和分析案例。通过分析这些数据,可以更好地理解蛋白类型分类的方法和应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 371.92 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。