MedProcNER医疗程序命名实体识别金标准标注数据集

数据集概述

该数据集是用于西班牙语医疗文档中临床程序信息抽取的金标准标注资源,包含训练集七百五十份文档、测试集二百五十份文档,以及SNOMED CT编码词表、SNOMED CT与MeSH交叉映射文件,还提供九种语言的银标准版本,为医疗程序检测与实体链接任务提供支持。

文件详解

  • 文件名称: medprocner_gs_train+test+gazz+multilingual+crossmap_230808.zip
  • 文件格式: ZIP压缩包
  • 包含内容: 训练集文档、测试集文档、SNOMED CT编码词表、SNOMED CT与MeSH交叉映射文件、九种语言的银标准版本文档

数据来源

Barcelona Supercomputing Center's NLP for Biomedical Information Analysis

适用场景

  • 自然语言处理研究: 用于医疗领域命名实体识别模型的训练与测试
  • 医疗信息抽取: 支持西班牙语医疗文档中临床程序信息的自动检测与标准化
  • 医学术语链接: 可用于SNOMED CT与MeSH术语体系的交叉映射研究
  • 多语言医疗NLP: 基于银标准版本开展跨语言医疗信息抽取任务研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 26.29 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。