数据集概述
该数据集包含2020年2月14日至8月14日期间非洲五个国家(尼日利亚、南非、阿尔及利亚、埃及、苏丹)与COVID-19和封锁相关的推文数据,涵盖原始及清洗后的826,412条原始推文与619,203条有效推文,为多领域研究提供支持。
文件详解
该数据集包含3个数据文件,具体说明如下:
- raw and clean tweets.xlsx: Excel格式文件,包含原始及清洗后的推文数据。
- clean tweets.csv: CSV格式文件,字段包括date(日期)、tweet(推文内容)、retweets(转发数)、favorites(收藏数)、replies(回复数)、hashtags(话题标签)、country(国家)、link_to_the_tweet(推文链接)等。
- raw tweets.csv: CSV格式文件,字段包括date(日期)、replies(回复数)、retweets(转发数)、favorites(收藏数)、text(推文文本)、mentions(提及对象)、hashtags(话题标签)、id(推文ID)、permalink(永久链接)、country(国家)等。
适用场景
- 社交媒体数据分析:研究非洲地区疫情期间的公众讨论热点与情绪倾向。
- 公共卫生研究:分析封锁政策对非洲民众生活及信息传播的影响。
- 自然语言处理:用于训练或测试针对疫情相关文本的分类、情感分析模型。
- 旅游行业研究:探究疫情期间非洲地区旅游相关话题的变化趋势。