pLMs_Evolutionary_Information_蛋白质语言模型进化信息数据集

数据集概述

本数据集用于测试进化信息与蛋白质语言模型嵌入结合对二级结构预测的影响,以PDB结构为真值,经PDBredo DB和CATH交叉验证,包含296,596条蛋白质链序列,分TEST100、VAL100、TRAIN6727三个子集,提供序列、二级结构注释、无序区域标注、MSA、PSSM及元文件等资源。

文件详解

  • 验证集注释文件
  • 文件名称:validation_annotations.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含VAL100子集的蛋白质序列、二级结构注释(3态:H、E、-)、无序区域标注(X为未解析,-为解析)、MSA(Stockholm格式)、PSSM及元文件。
  • 训练集注释文件
  • 文件名称:training_annotations.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含TRAIN6727子集的蛋白质序列、二级结构注释(3态:H、E、-)、无序区域标注(X为未解析,-为解析)、MSA(Stockholm格式)、PSSM及元文件。
  • 测试集注释文件
  • 文件名称:test_annotations.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含TEST100子集的蛋白质序列、二级结构注释(3态:H、E、-)、无序区域标注(X为未解析,-为解析)、MSA(Stockholm格式)、PSSM及元文件。

适用场景

  • 蛋白质二级结构预测研究: 测试进化信息与蛋白质语言模型嵌入结合对预测性能的影响。
  • 生物信息学模型训练: 用于训练和验证蛋白质结构预测相关模型。
  • 进化信息分析: 分析MSA和PSSM中的进化信息对蛋白质结构的影响。
  • 无序区域研究: 基于无序区域标注探索蛋白质结构与功能的关系。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 776.72 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。