数据集概述
该数据集是“新冠疫情数字叙事”项目的推特数据,覆盖二零二零年五月至二零二一年五月,聚焦英语和西班牙语的疫情相关推文,按日期、语言和地区分类,包含美国南佛罗里达、阿根廷、墨西哥等多地的双语数据,用于研究疫情期间的公众叙事。
文件详解
该数据集为一个ZIP压缩包,内部按日期组织为每日文件夹,每个文件夹包含九类纯文本文件,具体如下:
- 文件结构:
- 按日期命名文件夹(格式:YEAR-MONTH-DAY),每个文件夹含九类TXT文件
- 文件命名规则:dhcovid_YEAR-MONTH-DAY_语言_地区.txt
- 语言标识:en(英语)、es(西班牙语)
- 地区标识:fl(南佛罗里达)、ar(阿根廷)、mx(墨西哥)、co(哥伦比亚)、pe(秘鲁)、ec(厄瓜多尔)、es(西班牙)
- 典型文件示例:
- dhcovid_YEAR-MONTH-DAY_es_fl.txt:南佛罗里达西班牙语推文,通过坐标、地点或用户信息定位
- dhcovid_YEAR-MONTH-DAY_en_fl.txt:迈阿密及南佛罗里达英语推文,聚焦双语研究需求
- dhcovid_YEAR-MONTH-DAY_es.txt:所有西班牙语推文,无地区限制
- 文件内容:包含推文ID列表,需通过Twitter Hydratator工具获取原始推文及元数据
数据来源
迈阿密大学(University of Miami)
适用场景
- 疫情传播研究:分析不同地区疫情相关公众讨论的时间趋势和内容特征
- 双语传播分析:对比英语和西班牙语在南佛罗里达地区的疫情叙事差异
- 区域比较研究:探究阿根廷、墨西哥等拉美国家与西班牙的疫情话语异同
- 公共卫生政策评估:评估疫情防控措施在不同地区的公众反应和接受度
- 社交媒体语言学研究:分析疫情期间英语和西班牙语在推特平台的使用模式