Zenodo_Based_蛋白质语言模型稀疏自编码器解释数据集

数据集概述

本数据集来自Zenodo仓库,包含用于解释蛋白质语言模型的稀疏自编码器相关数据,涵盖蛋白质序列列表、氨基酸水平注释、稀疏自编码器权重与配置、潜在特征标签对,可支持蛋白质语言模型的稀疏自编码器分析与解释研究。

文件详解

  • 数据集文件
  • 文件名称:astral-40-20.08.csv
  • 文件格式:CSV
  • 字段映射介绍:包含SCOPe 2.08版本中筛选出的40%序列同一性的蛋白质序列列表
  • 文件名称:sprot_protein.csv
  • 文件格式:CSV
  • 字段映射介绍:包含Uniprot SwissProt 2024_01版本的蛋白质序列及高级注释信息
  • 文件名称:sprot_aminoacid.csv
  • 文件格式:CSV
  • 字段映射介绍:包含Uniprot SwissProt 2024_01版本蛋白质的氨基酸水平注释,涉及跨膜区域、拓扑结构域等特征
  • 稀疏自编码器数据文件
  • 文件名称:esm2_6_31.pt
  • 文件格式:PT
  • 字段映射介绍:基于ESM-2最小模型第3层嵌入训练的香草稀疏自编码器权重
  • 文件名称:esm2_6_31_cfg.json
  • 文件格式:JSON
  • 字段映射介绍:包含稀疏自编码器的配置参数,如seed、batch_size、lr等
  • 潜在特征标签数据集文件
  • 文件名称:label_latent_pairs.csv
  • 文件格式:CSV
  • 字段映射介绍:包含神经元、阈值、特征名称、精度、召回率等字段,记录SAE潜在组件与Uniprot特征标签的关联

数据来源

Zenodo仓库

适用场景

  • 蛋白质语言模型解释研究: 利用稀疏自编码器权重与潜在特征标签对,分析蛋白质语言模型的内部机制
  • 蛋白质序列特征分析: 通过astral-40-20.08.csv和sprot_protein.csv,研究蛋白质序列的结构与功能特征
  • 氨基酸水平注释研究: 基于sprot_aminoacid.csv,分析蛋白质氨基酸水平的功能位点与结构域
  • 稀疏自编码器模型优化: 参考esm2_6_31_cfg.json的配置参数,优化蛋白质语言模型的稀疏自编码器训练
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 429.6 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。