MultiCardioNER语料库_临床命名实体识别系统的心脏病学领域多语言适配数据集

数据集概述

该数据集为MultiCardioNER共享任务语料库,聚焦临床命名实体识别(NER)系统向心脏病学领域的适配。整合DisTEMIST(疾病)、DrugTEMIST(药物)及新标注心脏病临床病例数据,含训练、开发验证与测试集,支持西班牙语疾病识别及多语言药物识别两大任务。

文件详解

  • 文件名称: multicardioner_train+dev+test+bg+mappings_240528.zip
  • 文件格式: ZIP压缩包
  • 包含内容: 训练数据(DisTEMIST与DrugTEMIST,1000份文档)、开发验证集(258份心脏病临床病例文档)、测试集(250份心脏病临床病例文档)、背景集文件及文件名映射文件

数据来源

巴塞罗那超级计算中心(NLP for Biomedical Information Analysis团队)

适用场景

  • 临床NLP研究:用于开发与评估心脏病学领域的命名实体识别系统
  • 多语言医学文本处理:适配西班牙语、英语、意大利语的药物实体识别模型
  • 领域适配算法研究:探索通用临床NER系统向心脏病学细分领域的迁移方法
  • 医疗数据标准化:支持疾病与药物实体的结构化提取与归一化分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 93.83 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。