生物医学文本本体富集数据集

数据集概述

本数据集是支持从生物医学文本中进行本体富集的资源,通过概念发现与定位实现。基于MedMentions数据集(PubMed摘要),适配2014和2017版SNOMED CT的疾病(障碍)子类别及临床发现、操作、药物/生物制品等更广泛类别,为生物医学本体研究提供数据支持。

文件详解

  • 文件名称: OET-data-ver4.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 包含版本4的数据集文件,根据文档描述,该版本为知识库外提及发现和概念定位分别提供提及级数据,将原测试集拆分为验证集与测试集,优化评估结构。

数据来源

  • SNOMED CT
  • UMLS
  • MedMentions

适用场景

  • 生物医学本体研究: 用于开发和评估从文本中发现新医学概念并将其放置到现有本体(如SNOMED CT)中的算法模型
  • 知识库外实体发现: 支持研究如何识别文本中未被现有医学知识库收录的概念提及
  • 医学文本挖掘: 为生物医学文献中的概念提取、实体链接等任务提供标注数据
  • 临床语义应用: 辅助构建更完善的临床术语系统,提升电子健康记录等文本数据的语义处理能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 567.79 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。