CORD-19文本清洗数据集

CORD-19文本清洗数据集 数据来源:互联网公开数据
标签:文本清洗,COVID-19,学术研究,自然语言处理,数据预处理,文本挖掘,信息提取

数据概述:
本数据集是对CORD-19(COVID-19 Open Research Dataset)中的文本数据进行清洗后的结果,主要包含对“abstract”列在元数据CSV文件以及所有JSON文件中的“abstract”和“body_text”字段的清洗操作。清洗过程包括去除特殊字符、标准化文本格式、分句分段等,旨在提高文本数据的质量和可读性,为后续的文本分析和研究提供更干净、更规范的数据基础。

数据用途概述:
该数据集适用于文本挖掘、信息提取、学术研究、自然语言处理等多种场景。研究人员可以利用清洗后的文本数据进行关键词提取、主题分析、情感分析等研究;学术机构可以将其用于疫情相关研究的文本分析;自然语言处理领域学者可以将其作为训练和测试数据集,用于模型优化和性能评估。此外,该数据集也适合用于数据预处理教学,帮助学习者理解文本清洗在实际项目中的重要性。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 17:20 (UTC)
创建于 五月 31, 2025, 17:15 (UTC)