数据集概述
本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。
文件详解
- Supplemental_file1.txt:文本文件,可能包含COVID-19相关术语词典内容
- Supplemental_file2.txt:文本文件,包含疾病相关术语列表(如“corona acute disease”等)
- Supplemental_file3.txt:文本文件,可能包含病毒变异株或突变相关术语
- Supplemental_file4.txt:文本文件,可能包含其他生物医学实体术语
- Supplemental_file5.zip:压缩文件,可能包含代码或工作流相关资源
- Supplemental_file6.zip:压缩文件,可能包含语料库构建或标注相关资源
- Supplemental_file7.txt:文本文件,可能包含实体类型定义或标注指南
- Supplemental_file8.xml:XML文件,可能存储语料库元数据或标注结构
- Supplemental_file9.json:JSON文件,可能包含词典或语料库的结构化数据
- Supplemental_file10.csv:CSV文件,包含人工标注的金标准语料库数据,字段包括pmid(PubMed ID)、type(标注类型)、id(实体ID)、entity_type(实体类型,如Virus_SARS-CoV-2)、text(实体文本)、location/reference(位置/参考)、infon(附加信息)
- Supplemental_file11.zip:压缩文件,可能包含工具包完整代码或示例工作流
适用场景
- 生物医学文本挖掘:用于COVID-19相关文献、报告的命名实体识别与信息提取
- 知识图谱构建:支持COVID-19领域知识图谱的自动构建与更新
- 术语演化研究:分析疫情期间COVID-19相关术语的演变与变异趋势
- NLP工具开发:用于训练和评估生物医学领域的大语言模型或命名实体识别模型
- 共现分析:探究疾病、病毒、症状等实体之间的关联关系