化学物质语义损失数据集-用于本体分类研究-sfluegel

化学物质语义损失数据集-用于本体分类研究-sfluegel 数据来源:互联网公开数据 标签:化学,本体,分类,语义,机器学习,ChEBI,PubChem,SMILES,GHS,数据集,科研 数据概述: 本数据集包含三个子数据集,用于支持一篇关于本体分类的语义损失研究论文。数据集主要涵盖了化学物质的结构信息,并提供了用于监督学习、无监督学习和评估的多种数据。

子数据集包括:

  1. ChEBI100:源于ChEBI(Chemical Entities of Biological Interest,生物化学物质)数据库的231版本。该数据集包含化学物质的SMILES字符串(如果可用)以及相应的标签,标签表示ChEBI中该物质的超类,这些超类至少拥有100个SMILES标注的子类。
  2. PubChem Dissimilar:源于PubChem数据库(2024年3月发布)的SMILES字符串。该数据集包含200,000个化学物质,这些物质基于“差异性”评分从1,000,000个随机选择的实体中选出,用于无监督学习。
  3. PubChem Hazardous:源于PubChem数据库的GHS(Globally Harmonized System of Classification and Labelling of Chemicals,全球化学品统一分类和标签制度)分类子集。该数据集包含化学物质的SMILES字符串,用于评估模型的性能。

数据用途概述: 该数据集主要用于支持化学领域中关于本体分类的语义损失研究。具体而言,可用于:

  • 训练和评估基于SMILES字符串的化学物质分类模型。
  • 探索不同的语义损失函数在本体分类任务中的表现。
  • 研究化学物质结构与类别之间的关系。
  • 开发和验证新的化学物质分类方法。
  • 为化学信息学、药物发现等领域的研究提供数据基础。

相关代码可在GitHub上找到。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 156.11 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。