数据驱动药物设计与化学基因组学共识化合物生物活性数据集

数据集概述

本数据集是整合五个权威数据库(ChEMBL、PubChem、BindingDB、IUPHAR/BPS、Probes&Drugs)构建的共识化合物生物活性数据集,包含一百一十四万四千六百四十八个化合物、一亿零九百一十五万三千六百零二个生物活性数据及五千六百一十三个靶点,统一格式并提供活性与结构校验信息,支持数据驱动的药物设计与化学基因组学研究。

文件详解

  • 文件名称: Dataset_v1.1.zip
  • 文件格式: ZIP压缩文件
  • 解压后包含CSV格式数据文件,核心字段说明:
  • 标识符字段: ChEMBL ID、PubChem ID、IUPHAR ID(各源数据库化合物ID)
  • 靶点与活性字段: Target(HGNC基因符号)、Activity type(如pIC50)、Assay type(细胞游离/细胞/功能/未指定)、Unit(活性测量单位)
  • 多源均值字段: Mean C/P/PC/B/I/PD等(各源数据库生物活性均值及出现频次)
  • 校验字段: Activity check annotation(活性一致性校验结果)、Structure check (Tanimoto)(结构一致性校验结果)
  • 分子信息字段: Ligand names(配体名称)、Canonical SMILES列(各源数据库分子结构SMILES)
  • 来源字段: Source(数据来源数据库)

适用场景

  • 药物设计研究: 用于从头药物设计、生物活性预测等数据驱动模型构建
  • 化学基因组学分析: 探究化合物-靶点相互作用关系及机制
  • 机器学习应用: 基于多源整合数据训练更稳健的药物活性预测模型
  • 数据质控研究: 利用活性与结构校验标注优化数据筛选与精准度提升
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 433.58 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。