新冠疫情相关新闻数据集
数据来源:互联网公开数据
标签:新冠疫情,新闻报道,数据分析,美国新闻,孟加拉国新闻,自然语言处理,健康危机,社会影响
数据概述
本数据集包含来自美国和孟加拉国的在线新闻报道,主要涉及新冠疫情相关主题。具体包括:
- 美国新闻数据集(Covid-News-USA-NNK):
- 收录了1000篇来自美国的在线新闻报道,主要来源为《华盛顿邮报》(The Washington Post)和《明星论坛报》(Star Tribune)。
- 数据收集时间为手动操作,由10名拥有大学学历的数据采集员完成,年龄在23岁及以上。
-
数据采集过程中,采集员需遵守特定标准,如新闻标题和内容中需包含与新冠疫情直接或间接相关的关键词,避免重复报道,并保持新闻来源的时间一致性。
-
孟加拉国新闻数据集(Covid-News-BD-NNK):
- 收录了50篇来自孟加拉国的在线新闻报道,主要来源为《每日星报》(The Daily Star)和《普罗特姆·阿洛》(Prothom Alo)。
- 同样采用手动采集方式,遵循与美国新闻数据集相同的采集标准。
数据预处理:
- 移除新闻中的超链接。
- 移除非英文字符和停用词。
- 对文本进行了词形还原(Lemmatization)。
- 为确保数据质量,采用人工编辑复查,避免垃圾信息和重复内容。
数据用途概述
该数据集适用于多个研究和分析场景,主要包括:
- 新冠疫情分析:
- 研究新冠疫情在不同国家的传播、政策响应和社会影响。
-
比较美国和孟加拉国在疫情报道中的差异,分析文化、经济和社会背景对新闻呈现的影响。
-
自然语言处理(NLP)应用:
- 作为训练数据集,用于主题建模、情感分析、关键词提取等NLP任务。
-
支持多语言处理研究,尤其是英文和孟加拉语的文本分析。
-
社会学和传播学研究:
- 探讨媒体在公共卫生事件中的角色,分析新闻报道对公众认知和行为的影响。
-
研究不同国家媒体对同一事件的报道倾向和差异。
-
教育与培训:
- 用于新闻学、传播学和公共卫生领域的教学,帮助学生理解疫情危机中的媒体作用。
-
提供真实案例数据,支持学生进行新闻采写和分析实践。
-
行业应用:
- 支持新闻媒体机构进行内容分析,优化报道策略。
- 为公共健康机构提供数据支持,评估疫情传播的公众关注度和信息传播效果。
通过上述描述,本数据集为研究者、分析师和从业者提供了丰富的新闻数据资源,有助于深入理解新冠疫情对全球社会的影响及其在不同国家的传播和报道特点。