IJXD_Based生物信息学跨源标识符交叉引用数据库

数据集概述

本数据集为Inspector Javert's Xref Database(简称IJXD),是由PyOBO从OBO Foundry等来源提取的生物信息学交叉引用数据库。包含标准化的五列交叉引用数据,可实现不同来源标识符的整合与遍历,共6个文件,支持生物信息学中跨数据库标识符映射分析。

文件详解

  • 核心数据文件(xrefs.tsv.gz)
  • 文件名称:xrefs.tsv.gz
  • 文件格式:TSV.GZ
  • 字段映射介绍:包含source namespace(来源命名空间)、source identifier(来源标识符)、target namespace(目标命名空间)、target identifier(目标标识符)、provenance(来源)五列标准化交叉引用数据
  • 样本数据文件(xrefs_sample.tsv)
  • 文件名称:xrefs_sample.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含prefix(前缀)、identifier(标识符)、xref_prefix(交叉引用前缀)、xref_identifier(交叉引用标识符)、provenance(来源)字段的样本数据
  • 汇总数据文件(xrefs_summary.tsv)
  • 文件名称:xrefs_summary.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含各命名空间(如wikidata、ncbitaxon、chembl.compound等)的交叉引用统计数据
  • 详细汇总文件(xrefs_summary_detailed.tsv)
  • 文件名称:xrefs_summary_detailed.tsv
  • 文件格式:TSV
  • 字段映射介绍:交叉引用的详细统计数据文件
  • 来源汇总文件(xrefs_summary_provenance.tsv)
  • 文件名称:xrefs_summary_provenance.tsv
  • 文件格式:TSV
  • 字段映射介绍:按来源分类的交叉引用统计数据
  • 元数据文件(xrefs_metadata.json)
  • 文件名称:xrefs_metadata.json
  • 文件格式:JSON
  • 字段映射介绍:包含version(版本)、git_hash(Git哈希)、date(日期)、count(计数)等元数据字段

数据来源

OBO Foundry及其他来源(由PyOBO提取)

适用场景

  • 生物信息学跨数据库标识符映射: 实现不同生物信息学数据库(如Uberon、NCIT、CHEBI等)间标识符的交叉引用与整合
  • 生物数据标准化研究: 基于标准化的交叉引用格式,统一多源生物数据的标识符体系
  • 生物数据库关联分析: 利用交叉引用数据构建生物实体间的关联网络,支持功能注释与通路分析
  • 生物信息学工具开发: 为生物信息学软件提供跨源标识符映射的基础数据支持
  • 生物数据溯源追踪: 通过provenance字段追溯交叉引用数据的原始来源,确保数据可信度
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 146.13 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。