数据集概述
本数据集为研究互变异构体对化学信息学处理及QSAR/QSPR建模影响的补充材料,包含互变异构体生成、指纹计算、模型应用与构建相关的多类型文件,支持探索互变异构体对建模全流程的作用。
文件详解
- 互变异构体生成文件:
- methimazole_tautomers.smi:SMI格式,含甲巯咪唑的互变异构体SMILES线性表示
- 指纹计算结果文件:
- methimazole-MACCS.csv:CSV格式,用PaDEL-Descriptor v2.17计算的甲巯咪唑互变异构体MACCS指纹
- QSPR模型应用结果文件:
- Crippen-LogP_all-tautomers-PaDEL.csv:CSV格式,含分子结构编号(T)、SMILES(Smiles)、互变异构体排序(E)、CrippenLogP值字段
- LogP-tauts-Padel-DESC-part01.csv至LogP-tauts-Padel-DESC-part04.csv:CSV格式,用PaDEL-Descriptor计算的0D、1D、2D分子描述符(含CrippenLogP)
- QSAR模型构建文件:
- AMES.model:模型文件,用WEKA v3.7.9构建的AMES致突变性随机森林模型
- TetrahymenaPyriformis_model.zip:ZIP压缩包,含梨形四膜虫QSAR模型相关文件,包括训练/验证集(trainset_CM.arff等)、互变异构体数据(trainset_TetrahymenaPyriformis_tautomers.xls等)及建模结果(modelling results.xls)
适用场景
- 化学信息学研究:分析互变异构体对分子指纹计算的影响
- QSAR/QSPR建模优化:探究互变异构体对模型构建及应用准确性的作用机制
- 计算毒理学研究:支持基于互变异构体的化合物生态毒性预测模型开发
- 分子描述符分析:研究互变异构体对0D/1D/2D分子描述符计算结果的影响