化合物细胞活性与分子性质数据集CompoundCellActivityandMolecularPropertiesDataset-jamesjiang2019
数据来源:互联网公开数据
标签:药物研发, 化学信息学, 细胞活性, 分子描述符, QSAR, 机器学习, SMILES, 癌症
数据概述:
该数据集包含来自NCI(美国国家癌症研究所)的化合物细胞活性数据,记录了化合物的结构信息和在多种癌细胞系中的活性表现,以及一系列分子描述符。主要特征如下:
时间跨度:数据未标明具体时间,视作静态数据集使用。
地理范围:数据来源于NCI,涵盖了多种癌细胞系,这些细胞系来源于不同地理位置。
数据维度:数据集包含“smiles”(化合物的SMILES字符串表示),以及在多种癌细胞系中的活性值(如CCRF-CEM、HL-60(TB)等),还有一系列分子描述符,如“a_acc”、“h_logP”、“vdw_area”等。
数据格式:CSV格式,文件名为d_unsupervised_nci_unique_prep.csv,便于数据分析和建模。
来源信息:数据来源于NCI,已进行标准化处理,便于数据分析和建模。
该数据集适合用于药物筛选、化合物活性预测、QSAR(定量构效关系)模型构建以及相关领域的学术研究。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于药物化学、化学信息学和生物信息学等领域的学术研究,如化合物活性预测、毒性预测、药物设计等。
行业应用:可以为制药公司和生物技术公司提供数据支持,特别是在药物筛选、先导化合物优化等方面。
决策支持:支持药物研发过程中的化合物选择和优化,加速新药的发现。
教育和培训:作为化学信息学、药物化学和生物信息学等相关课程的辅助材料,帮助学生和研究人员理解化合物结构与活性的关系。
此数据集特别适合用于探索化合物结构与生物活性之间的内在联系,构建预测模型,并加速新药的研发进程。