数据集概述
本数据集为论文“Critical assessment of the chemical space covered by LC-HRMS non-targeted analysis”的配套数据,包含运行GitHub代码所需的全部文件。内容涵盖2657种化合物结构信息、61篇研究的实验参数及化合物分类数据,共63个文件,支持LC-HRMS非靶向分析化学空间的评估研究。
文件详解
- 化合物结构数据文件
- 文件名称:以研究名称命名的CSV文件(如Anagnostopoulou 2022.csv、Choi 2020.csv等)
- 文件格式:CSV
- 字段映射介绍:包含2657种化合物的CID、InChIKey、SMILES、MassBank存在状态,以及化合物名称(如Pentadecanal、Amisulpride等)
- 实验参数文件
- 文件名称:Tables with parameters.xlsx
- 文件格式:XLSX
- 字段映射介绍:涵盖61篇研究的实验参数(分类别)、研究范围,以及各研究中化合物的CID、分子量(MW)、XLogP3值
- 化合物分类文件
- 文件名称:未明确具体命名(CSV格式)
- 文件格式:CSV
- 字段映射介绍:包含所有化合物的类别信息
- NORMAN SusDat化学空间结构文件
- 文件名称:未明确具体命名(CSV格式)
- 文件格式:CSV
- 字段映射介绍:包含用于绘制NORMAN SusDat化学空间的所有结构的CID
数据来源
GitHub代码库:https://github.com/tobihul/CEC_review_code
适用场景
- LC-HRMS非靶向分析方法评估:验证不同研究中LC-HRMS技术覆盖的化学空间范围与差异
- 化合物数据库对比研究:分析2657种化合物在MassBank与NORMAN SusDat中的分布特征
- 实验参数影响分析:探究不同实验参数对LC-HRMS非靶向分析结果的影响机制
- 化学空间可视化研究:基于化合物结构数据绘制并分析非靶向分析的化学空间分布
- 环境污染物筛查参考:利用化合物分类与参数数据支持环境样品中未知污染物的识别研究