COVID_19相关生物医学自然语言处理词典与标注语料库工具包

数据集概述

本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。

文件详解

  • Supplemental_file1.txt:文本文件,可能包含COVID-19相关术语词典内容
  • Supplemental_file2.txt:文本文件,包含疾病相关术语列表(如“corona acute disease”等)
  • Supplemental_file3.txt:文本文件,可能包含病毒变异株或突变相关术语
  • Supplemental_file4.txt:文本文件,可能包含其他生物医学实体术语
  • Supplemental_file5.zip:压缩文件,可能包含代码或工作流相关资源
  • Supplemental_file6.zip:压缩文件,可能包含语料库构建或标注相关资源
  • Supplemental_file7.txt:文本文件,可能包含实体类型定义或标注指南
  • Supplemental_file8.xml:XML文件,可能存储语料库元数据或标注结构
  • Supplemental_file9.json:JSON文件,可能包含词典或语料库的结构化数据
  • Supplemental_file10.csv:CSV文件,包含人工标注的金标准语料库数据,字段包括pmid(PubMed ID)、type(标注类型)、id(实体ID)、entity_type(实体类型,如Virus_SARS-CoV-2)、text(实体文本)、location/reference(位置/参考)、infon(附加信息)
  • Supplemental_file11.zip:压缩文件,可能包含工具包完整代码或示例工作流

适用场景

  • 生物医学文本挖掘:用于COVID-19相关文献、报告的命名实体识别与信息提取
  • 知识图谱构建:支持COVID-19领域知识图谱的自动构建与更新
  • 术语演化研究:分析疫情期间COVID-19相关术语的演变与变异趋势
  • NLP工具开发:用于训练和评估生物医学领域的大语言模型或命名实体识别模型
  • 共现分析:探究疾病、病毒、症状等实体之间的关联关系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 237.75 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。