数据集概述
本数据集为机器学习增强RPLC/HRMS非靶向工作流识别概率研究的补充数据,包含5个Excel文件,内容涉及模型训练用化合物列表、累积中性损失质量数据、串联质谱训练数据、RTI预测误差结果及基质匹配验证数据,支撑相关模型的训练与验证。
文件详解
- Additional file 1.xlsx(XLSX格式):包含训练预训练模型(分子指纹到保留时间指数模型,MF-to-RTI)所用的化合物列表
- Additional file 2.xlsx(XLSX格式):包含预选累积中性损失(CNL)目标质量及其对应数量的列表
- Additional file 3.xlsx(XLSX格式):包含训练累积中性损失到保留时间指数模型(CNL-to-RTI)所用的化合物及其串联质谱数量的列表
- Additional file 4.xlsx(XLSX格式):含3个工作表,记录Model 1训练测试用化合物校准物的真实RTI值、Models 1和2的预测值及RTI误差(训练集、测试集、不同系统RTI校准物评估)
- Additional file 5.xlsx(XLSX格式):含4个工作表,收集化合物Pencycuron在不同红茶基质浓度下的参考MS/MS光谱匹配结果(摘要、无基质、100倍稀释基质、10倍稀释基质)
数据来源
论文“Machine Learning for Enhanced Identification Probability in RPLC/HRMS Non-Targeted Workflows”
适用场景
- 质谱模型训练:用于训练分子指纹/累积中性损失到保留时间指数的机器学习模型
- 质谱数据验证:评估模型预测保留时间指数的准确性及误差分布
- 基质效应研究:分析不同基质浓度对化合物MS/MS光谱匹配结果的影响
- 非靶向代谢组学方法优化:为RPLC/HRMS非靶向工作流的识别概率增强提供数据支撑