蛋白质二级结构预测数据集1963-2021

蛋白质二级结构预测数据集1963-2021 数据来源:互联网公开数据
标签:蛋白质,二级结构预测,机器学习,深度学习,卷积网络,数据集,特征工程
数据概述:
本数据集主要用于蛋白质二级结构预测任务,包含用于深度监督和卷积生成随机网络模型的数据。数据源自CullPDB服务器,经过过滤和整理,分为训练集、验证集和测试集。数据集包含两种格式:cullpdb+profile_5926_filtered.npy.gz和cb513+profile_split1.npy.gz,其中前者已去除冗余并划分了训练/验证/测试集,后者是CB513数据集,包含蛋白质特征。数据以NumPy数组形式存储,每个蛋白质样本包含700个氨基酸和57个特征。特征包括氨基酸残基、二级结构标签、N-和C-端标志、溶剂可及性以及序列特征。
数据用途概述:
本数据集适用于蛋白质二级结构预测的机器学习和深度学习模型研究,特别适合用于深度监督和卷积生成随机网络的训练和评估。研究人员可以利用该数据集进行模型性能测试和比较,优化预测算法。此外,数据集还适用于生物信息学领域,帮助理解蛋白质结构和功能之间的关系。
举例:
数据集中cullpdb+profile_5926_filtered.npy.gz文件包含了5926个蛋白质样本,经过过滤去除了冗余性,并划分为训练集、验证集和测试集。cb513+profile_split1.npy.gz文件则提供了CB513数据集,包含514个样本(其中一个样本因长度超过700个氨基酸被分割为两个序列)。这些数据可用于训练深度学习模型,预测蛋白质的二级结构。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 7.73 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。