数据集概述
本数据集是通过ProtNAff pipeline生成的蛋白质结合核酸相关数据,包含2021年10月筛选的蛋白质-RNA结构元数据、三核苷酸片段列表及坐标库。筛选条件为含蛋白质和RNA链、无DNA、分辨率小于3埃或NMR方法的PDB结构,排除核糖体,用于支持原ProtNAff论文分析。
文件详解
- 核心数据文件
- 文件名称:
structures.json
- 文件格式:JSON
- 字段映射介绍:包含所有输入蛋白质-RNA结构的元数据与解析数据
- 文件名称:
fragments_clust.json
- 文件格式:JSON
- 字段映射介绍:记录从结构中提取的所有三核苷酸片段的列表及描述
- 片段坐标库文件
- 文件名称:
trinucl_clust1A_allatom.tar
- 文件格式:TAR(归档文件)
- 字段映射介绍:1埃聚类中心的三核苷酸片段全原子坐标库
- 文件名称:
trinucl_clust1A_ATTRACT.tar
- 文件格式:TAR(归档文件)
- 字段映射介绍:转换为ATTRACT粗粒度表示的三核苷酸片段坐标库
- 辅助文件
- 文件名称:
README
- 文件格式:无扩展名
- 字段映射介绍:数据集说明文档,包含数据来源、筛选条件及文件清单
- 文件名称:
npy2pdb.py
- 文件格式:PY
- 字段映射介绍:将npy格式转换为pdb格式的代码脚本
- 文件名称:
pdb_templates.tgz
- 文件格式:TGZ(压缩归档文件)
- 字段映射介绍:PDB模板文件压缩包
数据来源
ProtNAff pipeline(https://github.com/isaureCdB/ProtNAff)及原ProtNAff论文
适用场景
- 蛋白质-核酸相互作用研究:分析蛋白质与RNA结合的结构特征及片段模式
- 生物信息学工具开发:为蛋白质-RNA结构预测或设计工具提供训练或验证数据
- 结构生物学数据分析:验证ProtNAff pipeline的筛选及聚类结果
- 分子模拟研究:利用全原子或粗粒度片段库开展蛋白质-RNA复合物的模拟实验
- 生物医学研究:支持基于蛋白质-RNA相互作用的疾病机制或药物靶点分析