MEDDOPROF西班牙语医疗文档职业检测标注数据集

数据集概述

该数据集为MEDDOPROF金标准语料库,包含一千八百四十四篇西班牙语临床案例,标注内容涉及职业、工作状态及活动等信息,采用brat标注工具格式存储,还包含职业提及与ESCO、SNOMED CT术语映射的TSV文件,支持职业健康领域的自然语言处理研究。

文件详解

该数据集包含多个目录和文件,具体说明如下: - 目录文件: - meddoprof-ner/:包含标注有PROFESION(职业)、SITUACION_LABORAL(工作状态)、ACTIVIDAD(活动)标签的临床案例文件,每个案例对应.txt文本文件和.ann标注文件 - meddoprof-class/:包含与meddoprof-ner相同的临床案例,但标注标签为PACIENTE(患者)、FAMILIAR(家属)、SANITARIO(卫生专业人员)、OTRO(其他),文件格式为.txt和.ann - ner_class_joint/:包含整合了ner和class两层标注的临床案例文件,标注格式为“NER标签-分类标签”(如PROFESION-PACIENTE),文件格式为.txt和.ann - 独立文件: - meddoprof-norm.tsv:制表符分隔文件,包含语料库中每个提及与ESCO、SNOMED CT的映射关系,字段包括filename(文件名)、mention text(提及文本)、span(文本跨度)、ESCO code(ESCO编码)、SNOMED code(SNOMED编码)

适用场景

  • 自然语言处理研究:用于西班牙语医疗文本中的职业实体识别、分类及标准化任务模型训练与评估
  • 职业健康研究:分析医疗文档中职业、工作状态与健康状况的关联
  • 医疗文本挖掘:探索职业信息在临床案例中的分布及应用价值
  • 术语映射研究:开展职业提及与标准术语体系(ESCO、SNOMED CT)的映射方法研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.47 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。