数据集概述
本数据集为CoronaCentral系统使用的术语列表,包含基因、药物、冠状病毒蛋白、症状等多种生物医学实体的名称、同义词及标识符,共7个JSON文件,用于支持生物医学领域的实体识别与关联分析。
文件详解
- 冠状病毒蛋白术语文件:
terms_coronavirus_proteins.json,格式JSON,包含冠状病毒蛋白相关实体的名称、同义词及标识符
- 自定义术语文件:
terms_custom.json,格式JSON,包含系统自定义的生物医学实体术语信息
- 药物术语文件:
terms_drugs.json,格式JSON,包含药物相关实体的名称、同义词及标识符
- 基因与蛋白术语文件:
terms_genes_and_proteins.json,格式JSON,包含基因和蛋白相关实体的名称、同义词及标识符
- 地点术语文件:
terms_locations.json,格式JSON,包含与生物医学相关的地点实体术语信息
- 症状术语文件:
terms_symptoms.json,格式JSON,包含症状相关实体的名称、同义词及标识符
- 医学学科术语文件:
terms_medicaldisciplines.json,格式JSON,包含医学学科相关实体的术语信息
数据来源
GitHub页面:https://github.com/jakelever/corona-ml
适用场景
- 生物医学实体识别:用于自然语言处理模型训练,识别文本中的基因、药物、症状等生物医学实体
- 医学知识图谱构建:为知识图谱提供实体的名称、同义词及标识符映射关系
- 冠状病毒研究辅助:支持冠状病毒相关蛋白、药物靶点的关联分析
- 临床文本挖掘:辅助从临床文档中提取标准化的症状、药物等术语信息