化学物质语义损失数据集-用于本体分类研究-sfluegel
数据来源:互联网公开数据
标签:化学,本体,分类,语义,机器学习,ChEBI,PubChem,SMILES,GHS,数据集,科研
数据概述:
本数据集包含三个子数据集,用于支持一篇关于本体分类的语义损失研究论文。数据集主要涵盖了化学物质的结构信息,并提供了用于监督学习、无监督学习和评估的多种数据。
子数据集包括:
- ChEBI100:源于ChEBI(Chemical Entities of Biological Interest,生物化学物质)数据库的231版本。该数据集包含化学物质的SMILES字符串(如果可用)以及相应的标签,标签表示ChEBI中该物质的超类,这些超类至少拥有100个SMILES标注的子类。
- PubChem Dissimilar:源于PubChem数据库(2024年3月发布)的SMILES字符串。该数据集包含200,000个化学物质,这些物质基于“差异性”评分从1,000,000个随机选择的实体中选出,用于无监督学习。
- PubChem Hazardous:源于PubChem数据库的GHS(Globally Harmonized System of Classification and Labelling of Chemicals,全球化学品统一分类和标签制度)分类子集。该数据集包含化学物质的SMILES字符串,用于评估模型的性能。
数据用途概述:
该数据集主要用于支持化学领域中关于本体分类的语义损失研究。具体而言,可用于:
- 训练和评估基于SMILES字符串的化学物质分类模型。
- 探索不同的语义损失函数在本体分类任务中的表现。
- 研究化学物质结构与类别之间的关系。
- 开发和验证新的化学物质分类方法。
- 为化学信息学、药物发现等领域的研究提供数据基础。
相关代码可在GitHub上找到。