数据集

DisTEMIST西班牙语临床病例疾病提及检测与标准化数据集

数据集概述

本数据集为DisTEMIST语料库，包含一千份西班牙语临床病例，病例中的疾病提及经人工标注并映射至SNOMED-CT概念。数据集分为训练集、测试集、背景集，同时提供多语言资源和跨术语映射文件，支持疾病实体检测与标准化相关研究。

文件详解

数据集以压缩包形式提供，核心内容包含以下目录与文件： - 主文件: - distemist_zenodo.zip: ZIP格式压缩包，包含所有数据集内容 - 训练集（train_set目录）: - text_files: 临床病例纯文本文件 - subtrack1_entities.tsv: TSV格式文件，含疾病实体标注（字段：filename、mark、label、off0、off1、span） - subtrack2_linking.tsv: TSV格式文件，含疾病实体标准化标注（字段：filename、mark、label、off0、off1、span、codes、semantic relation） - 标注测试集（test_annotated目录）: - text_files: 临床病例纯文本文件 - brat: brat格式标注文件（.ann） - subtrack1_entities.tsv: 同训练集结构的疾病实体标注 - subtrack2_linking.tsv: 同训练集结构的疾病实体标准化标注 - 未标注测试背景集（test_background_unannotated/text_files目录）: 三千份临床病例纯文本文件 - 多语言资源（multilingual-resources目录）: - training-text-files: 翻译后的多语言临床病例文本（含英语、葡萄牙语等六种语言） - lang子文件夹: 对应语言的标注TSV文件 - 跨映射资源（cross-mappings目录）: 疾病实体与SNOMED-CT、MeSH、ICD-10、HPO、OMIM术语的映射文件

适用场景

生物医学自然语言处理研究: 用于训练和评估西班牙语临床文本中的疾病实体识别模型
医学术语标准化研究: 探究疾病提及与SNOMED-CT等医学术语体系的映射方法
多语言临床文本分析: 基于多语言资源开展跨语言疾病实体检测任务
临床信息抽取应用: 辅助开发从西班牙语临床病例中自动提取疾病信息的系统
医学术语映射研究: 分析不同医学术语体系间的映射关系及应用价值

数据与资源

7614764.zipZIP
15.03 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	15.03 MiB
最后更新	2025年12月4日
创建于	2025年12月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。