数据集概述
本数据集为职业-临床知识图谱,基于Mesinesp2语料库(含科学文献、临床试验等人工标注内容)和临床病例报告两类语料库中标准化概念的共现关系构建,通过命名实体识别(NER)系统提取疾病、药物等临床相关提及信息,形成职业与健康状态关联的知识图谱资源。
文件详解
- README.txt
- 文件格式:TXT
- 内容介绍:数据集概述文档,说明知识图谱的构建来源、语料库类型及实体提取范围
- clinical_cases_co-occurrence.zip
- 文件格式:ZIP
- 字段映射介绍:包含职业与临床实体的共现数据,字段包括span_mention_1(职业原文提及)、normalized_entity_1(标准化职业实体)、code_mention_1(标准化ID)、mention_controlled_vocab(标准化术语表)、mention1_category(NER标签)、mention1_freq(职业实体频率)、span_mention_2(临床实体原文提及)、normalized_entity_2(标准化临床实体)、code_mention_2(临床实体标准化ID)、mention2_category(临床实体NER标签)、co-occurrence(共现次数)
- mesinesp2_co-occurrence.zip
- 文件格式:ZIP
- 字段映射介绍:包含Mesinesp2语料库中职业与临床实体的共现数据,字段与clinical_cases_co-occurrence.zip一致
数据来源
西班牙国家I+D+i 2020项目AI4ProfHealth(PID2020-119266RA-I00)
适用场景
- 职业健康关联研究:分析不同职业与疾病、症状等临床实体的关联关系
- 医疗知识图谱构建:用于职业健康领域知识图谱的扩展与完善
- 临床实体共现分析:研究职业与药物、诊疗流程等临床实体的共现规律
- 职业健康风险评估:支撑职业相关健康风险因素的挖掘与评估研究