数据集概述
本数据集为eHealth CLEF2020任务1参与者提交的西班牙临床案例ICD10(CIE10)编码预测结果银标准,包含各子任务下不同团队的预测数据,采用UTF-8编码的纯文本文件存储,按子任务和团队分类组织,是西班牙临床文本编码任务的参考数据集。
文件详解
- 文件名称:silver-standard.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内按CodiEsp子任务划分目录,每个子任务目录下含各团队预测运行目录;子任务CodiEsp-Diagnostic和CodiEsp-Procedure的文件为制表符分隔格式,包含articleID(案例ID)、ICD10-code(ICD10编码)字段;子任务CodiEsp-X(可解释性)的文件含额外字段:label(标签)、text-reference(文本参考)、reference-position(参考位置)
数据来源
eHealth CLEF2020 Task 1
适用场景
- 临床编码模型评估: 用于验证西班牙临床文本ICD10编码模型的预测性能与准确性
- 医疗自然语言处理研究: 支持西班牙语临床文本的命名实体识别、概念标准化任务研究
- 可解释性医疗AI分析: 基于CodiEsp-X子任务数据探究临床编码模型的可解释性机制
- 医学信息学竞赛参考: 作为eHealth CLEF2020相关任务的基准数据集,为后续竞赛提供参考标准