COVID-19开放研究数据集论文摘要数据集-CSV格式2021-huascarmendez1

COVID-19开放研究数据集论文摘要数据集-CSV格式2021-huascarmendez1 数据来源:互联网公开数据 标签:COVID-19,开放研究数据集,CORD-19,CSV,论文摘要,科研数据,数据处理

数据概述: 本数据集是COVID-19开放研究数据集挑战(CORD-19)的部分提取,旨在简化原始JSON格式数据的分析。原始数据存储在JSON文件中,结构较为复杂,因此进行了预处理,包括过滤出专门讨论COVID-19及其别名的文档,并进行了其他常规的数据审查和清理工作。

数据集包含多个CSV格式的文件,根据原始来源分为Biorxiv、Comm_use、Custom_licence、Nomcomm_use四类。每种类型的文件包含以下核心字段: - paper_id:论文的唯一标识符 - doc_title:论文的标题 - doc_text:论文的摘要或正文文本 - source:数据来源类别

数据用途概述: 该数据集适用于COVID-19相关研究、文献分析、信息检索、自然语言处理等多种场景。研究人员可以利用此数据集进行大规模文本分析,了解COVID-19相关的研究成果;教育者可以使用此数据集进行教学演示和案例分析;政策制定者可以参考数据评估公共卫生政策的有效性;开发者可以利用此数据集进行文本挖掘和机器学习模型训练。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 15:47 (UTC)
创建于 五月 31, 2025, 15:47 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。