PyOBO_Based_生物医学实体同义词数据

数据集概述

本数据集包含从PyOBO中的术语和本体中提取的大量生物医学实体的前缀、标识符和同义词信息,以gzip压缩的三列TSV文件格式存储。数据集还包含元数据、样本和汇总文件,可用于生物医学术语的同义词查询和分析。

文件详解

  • 数据文件
  • 文件名称:synonyms.tsv.gz
  • 文件格式:TSV.GZ
  • 字段映射介绍:包含三列,分别为前缀(prefixes)、标识符(identifiers)和同义词(synonyms),对应生物医学实体的相关信息。
  • 样本文件
  • 文件名称:synonyms_sample.tsv
  • 文件格式:TSV
  • 字段映射介绍:生物医学实体同义词数据的样本,包含前缀、标识符和同义词三列,示例数据如aeo 0000078 tube lumen等。
  • 汇总文件
  • 文件名称:synonyms_summary.tsv
  • 文件格式:TSV
  • 字段映射介绍:各生物医学术语源的同义词数量汇总,包含术语源(如umls、pr、mesh等)和对应的数量。
  • 元数据文件
  • 文件名称:synonyms_metadata.json
  • 文件格式:JSON
  • 字段映射介绍:包含版本(version)、git哈希(git_hash)、日期(date)和计数(count)等元数据信息。

数据来源

PyOBO

适用场景

  • 生物医学术语标准化: 用于统一不同生物医学术语源中实体的同义词表达,提升术语使用的一致性。
  • 生物医学数据整合: 辅助不同数据库或数据集之间的实体匹配与关联,支持跨源数据的整合分析。
  • 语义检索优化: 为生物医学文献或数据库的语义检索提供同义词支持,提高检索的全面性和准确性。
  • 生物医学本体构建: 为生物医学本体的扩展和完善提供同义词资源,增强本体的语义覆盖度。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 118.54 MiB
最后更新 2026年2月9日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。