数据集概述
本数据集包含按EC编号分类的原子映射、平衡酶促反应数据,以及用于训练IBM RXN-for-Chemistry平台Transformer模型的原始未映射数据。数据来源于BRENDA 2023-1版本,经提取、修正和整理,适用于机器学习模型预测酶促反应或生物逆合成。数据集包含3个文件,以压缩格式和JSON格式存储。
文件详解
- 酶促反应数据文件
- 文件名称:
enzymemap_v2_brenda2023.csv.gz
- 文件格式:CSV.GZ
- 字段映射介绍:按EC编号分类的原子映射、平衡酶促反应数据,包含酶促反应的结构化信息,可能包括反应式、EC编号、原子映射信息等。
- 原始未映射数据文件
- 文件名称:
raw_unmapped_v2_brenda2023.csv.gz
- 文件格式:CSV.GZ
- 字段映射介绍:原始未映射、未整理的数据,用于IBM RXN-for-Chemistry平台Transformer模型的重新训练。
- 化合物与SMILES映射文件
- 文件名称:
compound_to_smiles.json
- 文件格式:JSON
- 字段映射介绍:化合物与SMILES(简化分子线性输入规范)的映射关系,可能用于化合物结构的表示和处理。
数据来源
BRENDA version 2023-1
适用场景
- 酶促反应预测模型训练: 用于训练机器学习模型,预测酶促反应或生物逆合成路径。
- 生物化学研究: 分析酶促反应的原子映射和平衡特性,支持生物化学领域的研究。
- 药物发现: 利用酶促反应数据,辅助药物分子的设计和优化。
- 生物信息学工具开发: 为生物信息学工具提供结构化的酶促反应数据支持。
- 酶分类研究: 基于EC编号分类的酶促反应数据,用于酶的分类和功能研究。