数据集概述
本数据集为SureChEMBL与MeSH、HGNC的关联数据集(版本0.1.0),通过查询SureChEMBL 1.3生成,包含SureChEMBL适应症与MeSH术语的关联关系,以及SureChEMBL与HGNC的关联数据,是原data.openphacts.org数据集的重新打包版本,共包含5个文件。
文件详解
- surechembl_mesh.ttl.gz
- 文件格式:TTL.GZ(压缩的 Turtle 格式)
- 字段映射介绍:包含SureChEMBL适应症与MeSH术语的关联关系数据,采用RDF Turtle语法存储
- void.ttl
- 文件格式:TTL(Turtle 格式)
- 字段映射介绍:数据集的VOID(Vocabulary of Interlinked Datasets)描述文件,记录数据集的元数据信息
- surechembl_hgnc.ttl.gz
- 文件格式:TTL.GZ(压缩的 Turtle 格式)
- 字段映射介绍:包含SureChEMBL与HGNC(人类基因命名委员会)术语的关联关系数据
- ops-surechembl-linksets-0.1.0.pom
- 文件格式:POM(Maven项目对象模型文件)
- 字段映射介绍:数据集的Maven构建配置文件,记录项目依赖、版本等构建信息
- ops-surechembl-linksets-0.1.0.data.zip
- 文件格式:ZIP(压缩包格式)
- 字段映射介绍:数据集的压缩包文件,包含关联数据的打包内容
数据来源
原data.openphacts.org平台的SureChEMBL关联数据集重新打包
适用场景
- 生物医学数据整合:用于将SureChEMBL化学数据与MeSH医学术语、HGNC基因命名数据进行关联整合
- 药物适应症研究:通过SureChEMBL适应症与MeSH的关联,分析药物适应症的标准化术语映射
- 语义网数据构建:利用RDF Turtle格式的关联数据,构建生物医学领域的语义网资源
- 药物研发数据支撑:为药物研发过程中化学实体、适应症、基因的关联分析提供标准化映射数据