数据集概述
本数据集来自Zenodo仓库,包含用于解释蛋白质语言模型的稀疏自编码器相关数据,涵盖蛋白质序列列表、氨基酸水平注释、稀疏自编码器权重与配置、潜在特征标签对,可支持蛋白质语言模型的稀疏自编码器分析与解释研究。
文件详解
- 数据集文件
- 文件名称:astral-40-20.08.csv
- 文件格式:CSV
- 字段映射介绍:包含SCOPe 2.08版本中筛选出的40%序列同一性的蛋白质序列列表
- 文件名称:sprot_protein.csv
- 文件格式:CSV
- 字段映射介绍:包含Uniprot SwissProt 2024_01版本的蛋白质序列及高级注释信息
- 文件名称:sprot_aminoacid.csv
- 文件格式:CSV
- 字段映射介绍:包含Uniprot SwissProt 2024_01版本蛋白质的氨基酸水平注释,涉及跨膜区域、拓扑结构域等特征
- 稀疏自编码器数据文件
- 文件名称:esm2_6_31.pt
- 文件格式:PT
- 字段映射介绍:基于ESM-2最小模型第3层嵌入训练的香草稀疏自编码器权重
- 文件名称:esm2_6_31_cfg.json
- 文件格式:JSON
- 字段映射介绍:包含稀疏自编码器的配置参数,如seed、batch_size、lr等
- 潜在特征标签数据集文件
- 文件名称:label_latent_pairs.csv
- 文件格式:CSV
- 字段映射介绍:包含神经元、阈值、特征名称、精度、召回率等字段,记录SAE潜在组件与Uniprot特征标签的关联
数据来源
Zenodo仓库
适用场景
- 蛋白质语言模型解释研究: 利用稀疏自编码器权重与潜在特征标签对,分析蛋白质语言模型的内部机制
- 蛋白质序列特征分析: 通过astral-40-20.08.csv和sprot_protein.csv,研究蛋白质序列的结构与功能特征
- 氨基酸水平注释研究: 基于sprot_aminoacid.csv,分析蛋白质氨基酸水平的功能位点与结构域
- 稀疏自编码器模型优化: 参考esm2_6_31_cfg.json的配置参数,优化蛋白质语言模型的稀疏自编码器训练