数据集概述
本数据集为MeSDiCon(西班牙语医学疾病与症状名称词汇集)的未过滤初始版本,包含西班牙语临床文本中提及的疾病和症状候选名称列表。数据通过自动识别、翻译及临床语料匹配生成,每条记录关联目标术语命名空间(MeSH或OMIM)及对应标识符,提供术语在2000万份西班牙语临床笔记中的出现频率和文档频率。
文件详解
- 文件名称:MeSDiCon.zip
- 文件格式:ZIP(压缩包)
- 包含文件及字段映射:
- TSV格式文件:字段包括terminology(术语命名空间)、identifier(概念标识符)、translatedTerm(西班牙语翻译术语)、termCount(术语出现次数)、documentCount(包含术语的文档数),字段间以制表符分隔。
- JSON格式文件:字段包括terminology(术语命名空间)、identifier(概念标识符)、translatedTerm(西班牙语翻译术语)、termFrequency(术语出现次数)、documentFrequency(包含术语的文档数),以JSON对象列表存储。
数据来源
Secretaría de Estado para el Avance Digital
适用场景
- 西班牙语医学文本术语识别: 用于自动检测西班牙语临床文本中的疾病和症状提及,支持医疗文本的索引与分类。
- 医学术语翻译质量评估: 分析自动翻译生成的西班牙语医学术语准确性,优化医学机器翻译系统。
- 临床语料库术语分布研究: 基于术语出现频率和文档频率,探究西班牙语临床文本中疾病与症状术语的使用模式。
- 医学术语资源构建: 作为未过滤初始版本,为后续人工筛选和优化西班牙语医学术语词典提供基础数据。