数据集概述
本数据集收录2020年1月至2024年9月间Instagram平台上500,153条COVID-19相关帖子,涵盖161种语言,包含帖子ID、描述、发布日期、语言信息及情感标签(正/负/中性),支持多语言情感分析研究,填补Instagram平台长期COVID-19讨论数据的空白。
文件详解
- 文件名称:
Dataset.xlsx
- 文件格式:XLSX
- 字段映射介绍:
- Post ID: 帖子唯一标识符
- Post Description: 帖子原始语言完整描述
- Date: 发布日期(MM/DD/YYYY格式)
- Language code: Google Translate API检测的语言代码(如"en")
- Full Language: 语言完整名称(如"English")
- Sentiment: 经VADER和twitter-xlm-roberta-base-sentiment分析的情感标签(正/负/中性)
数据来源
论文“Five Years of COVID-19 Discourse on Instagram: A Labeled Instagram Dataset of Over Half a Million Posts for Multilingual Sentiment Analysis”
适用场景
- 多语言情感对比研究: 分析不同语言群体对COVID-19的情感差异
- 情感趋势演化分析: 探究2020-2024年公众对COVID-19的情感变化规律
- 文化差异与话语研究: 研究不同语言背后的文化因素对COVID-19讨论的影响
- 公共卫生政策效果评估: 分析公共卫生宣传对不同语言群体情感倾向的影响
- 疫苗态度分析: 挖掘不同语言中疫苗犹豫或支持的表达模式
- 社交媒体话语与行为关联研究: 探讨多语言社区中COVID-19讨论对公众行为的影响
- 小众语言情感研究: 对比主流语言与小众语言对COVID-19的情感表达差异