数据集

化学物质语义损失数据集-用于本体分类研究-sfluegel

化学物质语义损失数据集-用于本体分类研究-sfluegel 数据来源：互联网公开数据标签：化学，本体，分类，语义，机器学习，ChEBI，PubChem，SMILES，GHS，数据集，科研数据概述：本数据集包含三个子数据集，用于支持一篇关于本体分类的语义损失研究论文。数据集主要涵盖了化学物质的结构信息，并提供了用于监督学习、无监督学习和评估的多种数据。

子数据集包括：

ChEBI100：源于ChEBI（Chemical Entities of Biological Interest，生物化学物质）数据库的231版本。该数据集包含化学物质的SMILES字符串（如果可用）以及相应的标签，标签表示ChEBI中该物质的超类，这些超类至少拥有100个SMILES标注的子类。
PubChem Dissimilar：源于PubChem数据库（2024年3月发布）的SMILES字符串。该数据集包含200,000个化学物质，这些物质基于“差异性”评分从1,000,000个随机选择的实体中选出，用于无监督学习。
PubChem Hazardous：源于PubChem数据库的GHS（Globally Harmonized System of Classification and Labelling of Chemicals，全球化学品统一分类和标签制度）分类子集。该数据集包含化学物质的SMILES字符串，用于评估模型的性能。

数据用途概述：该数据集主要用于支持化学领域中关于本体分类的语义损失研究。具体而言，可用于：

训练和评估基于SMILES字符串的化学物质分类模型。
探索不同的语义损失函数在本体分类任务中的表现。
研究化学物质结构与类别之间的关系。
开发和验证新的化学物质分类方法。
为化学信息学、药物发现等领域的研究提供数据基础。

数据与资源

versions_20250409030802.zipZIP
156.11 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	156.11 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

化学物质语义损失数据集-用于本体分类研究-sfluegel

数据与资源

附加信息

注册成功！