数据集概述
该数据集为MEDDOPROF金标准语料库,包含一千八百四十四篇西班牙语临床案例,标注内容涉及职业、工作状态及活动等信息,采用brat标注工具格式存储,还包含职业提及与ESCO、SNOMED CT术语映射的TSV文件,支持职业健康领域的自然语言处理研究。
文件详解
该数据集包含多个目录和文件,具体说明如下:
- 目录文件:
- meddoprof-ner/:包含标注有PROFESION(职业)、SITUACION_LABORAL(工作状态)、ACTIVIDAD(活动)标签的临床案例文件,每个案例对应.txt文本文件和.ann标注文件
- meddoprof-class/:包含与meddoprof-ner相同的临床案例,但标注标签为PACIENTE(患者)、FAMILIAR(家属)、SANITARIO(卫生专业人员)、OTRO(其他),文件格式为.txt和.ann
- ner_class_joint/:包含整合了ner和class两层标注的临床案例文件,标注格式为“NER标签-分类标签”(如PROFESION-PACIENTE),文件格式为.txt和.ann
- 独立文件:
- meddoprof-norm.tsv:制表符分隔文件,包含语料库中每个提及与ESCO、SNOMED CT的映射关系,字段包括filename(文件名)、mention text(提及文本)、span(文本跨度)、ESCO code(ESCO编码)、SNOMED code(SNOMED编码)
适用场景
- 自然语言处理研究:用于西班牙语医疗文本中的职业实体识别、分类及标准化任务模型训练与评估
- 职业健康研究:分析医疗文档中职业、工作状态与健康状况的关联
- 医疗文本挖掘:探索职业信息在临床案例中的分布及应用价值
- 术语映射研究:开展职业提及与标准术语体系(ESCO、SNOMED CT)的映射方法研究