数据集概述
本数据集为Inspector Javert's Xref Database(简称IJXD),是由PyOBO从OBO Foundry等来源提取的生物信息学交叉引用数据库。包含标准化的五列交叉引用数据,可实现不同来源标识符的整合与遍历,共6个文件,支持生物信息学中跨数据库标识符映射分析。
文件详解
- 核心数据文件(xrefs.tsv.gz)
- 文件名称:xrefs.tsv.gz
- 文件格式:TSV.GZ
- 字段映射介绍:包含source namespace(来源命名空间)、source identifier(来源标识符)、target namespace(目标命名空间)、target identifier(目标标识符)、provenance(来源)五列标准化交叉引用数据
- 样本数据文件(xrefs_sample.tsv)
- 文件名称:xrefs_sample.tsv
- 文件格式:TSV
- 字段映射介绍:包含prefix(前缀)、identifier(标识符)、xref_prefix(交叉引用前缀)、xref_identifier(交叉引用标识符)、provenance(来源)字段的样本数据
- 汇总数据文件(xrefs_summary.tsv)
- 文件名称:xrefs_summary.tsv
- 文件格式:TSV
- 字段映射介绍:包含各命名空间(如wikidata、ncbitaxon、chembl.compound等)的交叉引用统计数据
- 详细汇总文件(xrefs_summary_detailed.tsv)
- 文件名称:xrefs_summary_detailed.tsv
- 文件格式:TSV
- 字段映射介绍:交叉引用的详细统计数据文件
- 来源汇总文件(xrefs_summary_provenance.tsv)
- 文件名称:xrefs_summary_provenance.tsv
- 文件格式:TSV
- 字段映射介绍:按来源分类的交叉引用统计数据
- 元数据文件(xrefs_metadata.json)
- 文件名称:xrefs_metadata.json
- 文件格式:JSON
- 字段映射介绍:包含version(版本)、git_hash(Git哈希)、date(日期)、count(计数)等元数据字段
数据来源
OBO Foundry及其他来源(由PyOBO提取)
适用场景
- 生物信息学跨数据库标识符映射: 实现不同生物信息学数据库(如Uberon、NCIT、CHEBI等)间标识符的交叉引用与整合
- 生物数据标准化研究: 基于标准化的交叉引用格式,统一多源生物数据的标识符体系
- 生物数据库关联分析: 利用交叉引用数据构建生物实体间的关联网络,支持功能注释与通路分析
- 生物信息学工具开发: 为生物信息学软件提供跨源标识符映射的基础数据支持
- 生物数据溯源追踪: 通过provenance字段追溯交叉引用数据的原始来源,确保数据可信度