数据集概述
本数据集为BCF生物富集因子QSPR模型研究相关数据,包含训练集、测试集、原始数据集及排除的异常值数据,共4个文件。数据来源于发表在《SAR and QSAR Environmental Research》的同名论文,用于验证QSPR模型对工业相关BCF数据的预测能力,支持环境化学领域的化学物质生物富集性分析。
文件详解
- SI_BCFtrainset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含1129种化学结构及CAS标识符,附带从文献提取的logBCF值,用于模型训练
- SI_BCFtestset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含204种化学结构,其logBCF值可靠性较低,作为外部测试集使用
- SI_FullDataset_rawdata.csv
- 文件格式:CSV
- 字段映射介绍:含15372条原始数据,列包括CASRN、Tissue、Duration [d]、Test organism、Exposure type、Steady state、RESPONSE、RESPONSE UNIT、Media type、TakenFrom、TITLE、AUTHOR、YEAR、SOURCE、SMILES
- SI_ExcludedOutliers34.csv
- 文件格式:CSV
- 字段映射介绍:含34种分析中识别为可疑的化学结构数据
数据来源
论文“QSPR models for bioconcentration factor (BCF): Are they able to predict data of industrial interest?”(发表于SAR and QSAR Environmental Research)
适用场景
- 环境化学研究:分析化学物质的生物富集因子(BCF)特性,评估其环境风险
- QSPR模型开发与验证:利用训练集构建模型,测试集验证模型对工业相关BCF数据的预测能力
- 化学数据质量控制:通过异常值数据研究化学结构logBCF值的可靠性判断方法
- 工业化学品环境安全性评估:基于BCF预测结果,为工业化学品的环境安全管理提供数据支持