数据集概述
本数据集用于构建多标签分类器,预测新兴污染物分析的最合适仪器方法(LC或GC)。数据基于NORMAN Suspect List Exchange及多机构目标列表(如NKUA、UFZ、WRI等)合并生成,包含化合物SMILES及计算得到的1446个分子描述符、logP和沸点等特征,支撑污染物分析方法的智能预测研究。
文件详解
- 文件名称:LCvsGC dataset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含化合物基础信息(如SMILES)、分子特征(1446个PaDEL-descriptor生成的描述符、JRgui计算的logP、USEPA ECOSAR计算的沸点)及标签信息(对应LC或GC仪器方法),用于训练多标签分类器预测污染物分析的合适仪器方法。
数据来源
NORMAN Suspect List Exchange、National and Kapodistrian University of Athens、Helmholtz Centre for Environmental Research、Water Research Institute等机构提供的化合物列表
适用场景
- 环境分析方法优化:预测新兴污染物最适合的液相色谱(LC)或气相色谱(GC)分析方法,提升检测效率。
- 污染物特征与分析方法关联研究:分析分子描述符、logP、沸点等特征与仪器方法选择的相关性。
- 环境监测技术开发:为环境监测领域的智能分析方法推荐系统提供训练数据。
- 多标签分类模型应用:用于验证多标签分类算法在环境科学领域的适用性与性能。