数据集概述
本数据集为DisTEMIST语料库,包含一千份西班牙语临床病例,病例中的疾病提及经人工标注并映射至SNOMED-CT概念。数据集分为训练集、测试集、背景集,同时提供多语言资源和跨术语映射文件,支持疾病实体检测与标准化相关研究。
文件详解
数据集以压缩包形式提供,核心内容包含以下目录与文件:
- 主文件:
- distemist_zenodo.zip: ZIP格式压缩包,包含所有数据集内容
- 训练集(train_set目录):
- text_files: 临床病例纯文本文件
- subtrack1_entities.tsv: TSV格式文件,含疾病实体标注(字段:filename、mark、label、off0、off1、span)
- subtrack2_linking.tsv: TSV格式文件,含疾病实体标准化标注(字段:filename、mark、label、off0、off1、span、codes、semantic relation)
- 标注测试集(test_annotated目录):
- text_files: 临床病例纯文本文件
- brat: brat格式标注文件(.ann)
- subtrack1_entities.tsv: 同训练集结构的疾病实体标注
- subtrack2_linking.tsv: 同训练集结构的疾病实体标准化标注
- 未标注测试背景集(test_background_unannotated/text_files目录): 三千份临床病例纯文本文件
- 多语言资源(multilingual-resources目录):
- training-text-files: 翻译后的多语言临床病例文本(含英语、葡萄牙语等六种语言)
- lang子文件夹: 对应语言的标注TSV文件
- 跨映射资源(cross-mappings目录): 疾病实体与SNOMED-CT、MeSH、ICD-10、HPO、OMIM术语的映射文件
适用场景
- 生物医学自然语言处理研究: 用于训练和评估西班牙语临床文本中的疾病实体识别模型
- 医学术语标准化研究: 探究疾病提及与SNOMED-CT等医学术语体系的映射方法
- 多语言临床文本分析: 基于多语言资源开展跨语言疾病实体检测任务
- 临床信息抽取应用: 辅助开发从西班牙语临床病例中自动提取疾病信息的系统
- 医学术语映射研究: 分析不同医学术语体系间的映射关系及应用价值