pLMs_Evolutionary_Information_蛋白质语言模型进化信息数据集

本数据集用于测试进化信息与蛋白质语言模型嵌入结合对二级结构预测的影响，以PDB结构为真值，经PDBredo DB和CATH交叉验证，包含296,596条蛋白质链序列，分TEST100、VAL100、TRAIN6727三个子集，提供序列、二级结构注释、无序区域标注、MSA、PSSM及元文件等资源。

验证集注释文件
文件名称：validation_annotations.zip
文件格式：ZIP
字段映射介绍：包含VAL100子集的蛋白质序列、二级结构注释（3态：H、E、-）、无序区域标注（X为未解析，-为解析）、MSA（Stockholm格式）、PSSM及元文件。
训练集注释文件
文件名称：training_annotations.zip
文件格式：ZIP
字段映射介绍：包含TRAIN6727子集的蛋白质序列、二级结构注释（3态：H、E、-）、无序区域标注（X为未解析，-为解析）、MSA（Stockholm格式）、PSSM及元文件。
测试集注释文件
文件名称：test_annotations.zip
文件格式：ZIP
字段映射介绍：包含TEST100子集的蛋白质序列、二级结构注释（3态：H、E、-）、无序区域标注（X为未解析，-为解析）、MSA（Stockholm格式）、PSSM及元文件。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	776.72 MiB
最后更新	2026年1月13日
创建于	2026年1月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。