DrugSemantics_黄金标准_西班牙语药品特性摘要命名实体标注数据

数据集概述

DrugSemantics黄金标准数据集包含5份西班牙语撰写的药品特性摘要(SPC),来源于西班牙药品与健康产品管理局(AEMPS)下属的在线药品信息中心(CIMA)。该语料库标注了10种与药物治疗相关的命名实体,包括化学成分、疾病、药物、辅料、食品、药剂、剂型、给药途径、治疗作用和计量单位。数据集共计包含2241个命名实体、780个句子和226,729个词例,主要用于西班牙语药物领域命名实体识别工具的开发和测试。

文件详解

  • DrugSemantics-Gold-Standard.zip
  • 文件格式:ZIP压缩包
  • 字段映射介绍:压缩包内按SPC文档分别存放在独立文件夹中,每个文件夹包含一个XML格式的标注文档,采用Gate Standoff格式进行实体标注。

数据来源

西班牙药品与健康产品管理局(AEMPS)下属的在线药品信息中心(CIMA)

适用场景

  • 西班牙语命名实体识别工具开发:为药物领域的西班牙语文本命名实体识别算法提供训练和测试数据。
  • 药物信息抽取研究:支持从药品特性摘要中自动抽取关键药物成分、治疗作用和剂型等信息。
  • 药物安全监测:辅助分析药品说明书中的关键信息,支持药物安全性和有效性评估。
  • 多语言医疗自然语言处理:作为西班牙语医疗文本处理的基准数据集,支持跨语言医疗信息处理研究。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.12 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。