数据集概述
DrugSemantics黄金标准数据集包含5份西班牙语撰写的药品特性摘要(SPC),来源于西班牙药品与健康产品管理局(AEMPS)下属的在线药品信息中心(CIMA)。该语料库标注了10种与药物治疗相关的命名实体,包括化学成分、疾病、药物、辅料、食品、药剂、剂型、给药途径、治疗作用和计量单位。数据集共计包含2241个命名实体、780个句子和226,729个词例,主要用于西班牙语药物领域命名实体识别工具的开发和测试。
文件详解
- DrugSemantics-Gold-Standard.zip
- 文件格式:ZIP压缩包
- 字段映射介绍:压缩包内按SPC文档分别存放在独立文件夹中,每个文件夹包含一个XML格式的标注文档,采用Gate Standoff格式进行实体标注。
数据来源
西班牙药品与健康产品管理局(AEMPS)下属的在线药品信息中心(CIMA)
适用场景
- 西班牙语命名实体识别工具开发:为药物领域的西班牙语文本命名实体识别算法提供训练和测试数据。
- 药物信息抽取研究:支持从药品特性摘要中自动抽取关键药物成分、治疗作用和剂型等信息。
- 药物安全监测:辅助分析药品说明书中的关键信息,支持药物安全性和有效性评估。
- 多语言医疗自然语言处理:作为西班牙语医疗文本处理的基准数据集,支持跨语言医疗信息处理研究。