-
CodiEsp西班牙语临床病例ICD10编码金标准数据集_CLEF2020
2025年12月19日 30 137 46
数据集概述 该数据集是CLEF eHealth 2020 CodiEsp赛道的西班牙语临床病例金标准语料库,包含训练集、开发集、测试集(含人工注释)及未标注背景集,共一千个临床病例,采用CIE10(西班牙版ICD10)编码术语,为非英语临床病例自动编码研究提供标注数据。 文件详解 数据集为zip压缩包,包含四个文件夹,具体如下: -...
-
MEDDOCAN西班牙语临床病例报告匿名化标注数据集
2025年12月16日 30 200 163
数据集概述 该数据集包含MEDDOCAN共享任务的训练、开发、测试集(含黄金标准标注)及背景集(无标注),用于西班牙语临床病例报告的文档匿名化研究。标注采用Brat和XML格式,支持格式转换,为医学文本去标识任务提供标准化数据。 文件详解 文件名称: meddocan.zip 文件格式: ZIP压缩包 内容说明:...
-
LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集
2025年12月15日 30 161 37
数据集概述 该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。 文件详解 核心压缩文件: livingner-...
-
Cantemist肿瘤临床病例CIE_O_3术语标注金标准语料库
2025年12月9日 30 153 105
数据集概述 该数据集是Cantemist共享任务语料库,包含训练集、开发集、测试集及背景集,涵盖cantemist-ner、cantemist-norm、cantemist-coding三个子任务的金标准标注数据,背景集为无标注文档,用于西班牙语癌症文本挖掘研究。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称:...
-
DisTEMIST西班牙语临床病例疾病提及检测与标准化数据集
2025年12月4日 30 70 54
数据集概述 本数据集为DisTEMIST语料库,包含一千份西班牙语临床病例,病例中的疾病提及经人工标注并映射至SNOMED-CT概念。数据集分为训练集、测试集、背景集,同时提供多语言资源和跨术语映射文件,支持疾病实体检测与标准化相关研究。 文件详解 数据集以压缩包形式提供,核心内容包含以下目录与文件: - 主文件: -...
-
DrugProt语料库_BioCreative_VII_Track1_药物化学物质_蛋白质相互作用文本挖掘数据集
2025年12月4日 30 115 20
数据集概述 该数据集是BioCreative VII Track 1任务的金标准标注语料库,包含训练集、开发集、测试集及背景集,涵盖PubMed摘要、人工标注的化学物质/基因实体及化学-蛋白质关系,用于推动药物发现、精准医疗相关的文本挖掘系统开发。 文件详解 训练集文件夹...



