DisTEMIST西班牙语临床病例疾病提及检测与标准化数据集

数据集概述

本数据集为DisTEMIST语料库,包含一千份西班牙语临床病例,病例中的疾病提及经人工标注并映射至SNOMED-CT概念。数据集分为训练集、测试集、背景集,同时提供多语言资源和跨术语映射文件,支持疾病实体检测与标准化相关研究。

文件详解

数据集以压缩包形式提供,核心内容包含以下目录与文件: - 主文件: - distemist_zenodo.zip: ZIP格式压缩包,包含所有数据集内容 - 训练集(train_set目录): - text_files: 临床病例纯文本文件 - subtrack1_entities.tsv: TSV格式文件,含疾病实体标注(字段:filename、mark、label、off0、off1、span) - subtrack2_linking.tsv: TSV格式文件,含疾病实体标准化标注(字段:filename、mark、label、off0、off1、span、codes、semantic relation) - 标注测试集(test_annotated目录): - text_files: 临床病例纯文本文件 - brat: brat格式标注文件(.ann) - subtrack1_entities.tsv: 同训练集结构的疾病实体标注 - subtrack2_linking.tsv: 同训练集结构的疾病实体标准化标注 - 未标注测试背景集(test_background_unannotated/text_files目录): 三千份临床病例纯文本文件 - 多语言资源(multilingual-resources目录): - training-text-files: 翻译后的多语言临床病例文本(含英语、葡萄牙语等六种语言) - lang子文件夹: 对应语言的标注TSV文件 - 跨映射资源(cross-mappings目录): 疾病实体与SNOMED-CT、MeSH、ICD-10、HPO、OMIM术语的映射文件

适用场景

  • 生物医学自然语言处理研究: 用于训练和评估西班牙语临床文本中的疾病实体识别模型
  • 医学术语标准化研究: 探究疾病提及与SNOMED-CT等医学术语体系的映射方法
  • 多语言临床文本分析: 基于多语言资源开展跨语言疾病实体检测任务
  • 临床信息抽取应用: 辅助开发从西班牙语临床病例中自动提取疾病信息的系统
  • 医学术语映射研究: 分析不同医学术语体系间的映射关系及应用价值
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 15.03 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。