药物活性预测小分子数据集DrugActivityPredictionSmallMoleculeDataset-tabiano

药物活性预测小分子数据集DrugActivityPredictionSmallMoleculeDataset-tabiano

数据来源:互联网公开数据

标签:药物研发, 分子结构, 生物活性, 机器学习, 结构-活性关系, 化学信息学, 分子建模, 药物筛选

数据概述: 该数据集包含来自Tabiano-dacon-2项目的药物小分子化合物的结构与生物活性信息,主要用于预测药物的活性。主要特征如下: 时间跨度:数据未明确标注具体时间,可视为静态数据集。 地理范围:数据来源未明确标注地理范围,但研究内容具有全球普适性。 数据维度: train.csv 文件包含了多个关键字段:Molecule ChEMBL ID(分子ChEMBL ID)、Standard Type(活性类型)、Standard Relation(活性关系)、Standard Value(活性值)、Standard Units(活性单位)、pChEMBL Value(pChEMBL值)、Assay ChEMBL ID(试验ChEMBL ID)、Target ChEMBL ID(靶标ChEMBL ID)、Target(靶标名称)、Target Organism(靶标生物体)、Target Type(靶标类型)、Document ChEMBL ID(文献ChEMBL ID)、IC50_nM(IC50值,纳摩尔浓度)、pIC50(pIC50值)和Smiles(SMILES字符串,分子结构描述)。 test.csv 文件包含ID和Smiles字段,用于测试集。 数据格式:数据以CSV格式提供,包含train.csv、test.csv和sample_submission.csv三个文件,方便数据分析和建模。 来源信息:数据来源于Tabiano-dacon-2项目,经过结构化整理,方便用于药物活性预测任务。 该数据集适合用于药物研发、化学信息学和机器学习等领域。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于药物研发、分子生物学等领域的研究,如结构-活性关系(SAR)分析、药物靶标识别、药物分子优化等。 行业应用:为制药企业和生物技术公司提供数据支持,尤其是在药物筛选、先导化合物优化和药物设计方面。 决策支持:支持药物研发过程中的决策制定,如预测药物的生物活性,优化化合物的结构,提高研发效率。 教育和培训:作为化学信息学、药物设计和机器学习课程的实训数据,帮助学生和研究人员深入理解药物研发流程。 此数据集特别适合用于探索化合物结构与生物活性之间的关系,预测药物的活性,加速药物研发过程,优化药物设计方案,提高药物研发的成功率。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 1, 2025, 09:39 (UTC)
创建于 五月 1, 2025, 09:39 (UTC)