DECIMER_手绘分子图像数据集

数据集概述

该数据集是包含五千零八十八个手绘化学结构图像的标准化基准数据集,每个图像对应分子的机器可读表示,旨在支持光学化学结构识别领域的研究,采用CC-BY 4.0许可协议开放共享。

文件详解

  • 数据集信息文件:
  • DECIMER_HDM_Person_dataset_info.csv: CSV格式,包含Person_ID(绘制者ID)、Datasets_IDs_drawn(绘制的数据集ID列表)字段,记录手绘任务的人员与结构对应关系
  • DECIMER_HDM_Dataset_SMILES.tsv: TSV格式,包含IDs(结构ID)、SMILES(分子简化分子线性输入规范)字段,映射手绘结构与分子机器可读表示
  • 代码与工具文件:
  • SmilestoSDF.java: Java格式,用于将SMILES转换为SDF格式的代码文件
  • cdk-2.8.jar: JAR格式,化学开发工具包(CDK)的库文件
  • 压缩归档文件:
  • DECIMER_HDM_Dataset_SD_Files.zip: ZIP格式,包含分子结构数据文件(SDF格式)的压缩包
  • DECIMER_HDM_Dataset_Images.zip: ZIP格式,包含所有手绘分子图像文件的压缩包

适用场景

  • 光学化学结构识别(OCSR)模型训练与评估
  • 手绘化学结构图像到分子机器可读表示的转换算法研究
  • 化学信息学领域中图像识别技术的应用开发
  • 跨模态分子数据关联分析(图像与SMILES/SDF格式)
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 122.89 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。