推特PfizerCOVID-19疫苗公众情绪分析数据集-2021-gallo33henrique

推特PfizerCOVID-19疫苗公众情绪分析数据集-2021-gallo33henrique 数据来源:互联网公开数据 标签:推特, Pfizer, COVID-19, 疫苗, 公众情绪, 情感分析, 数据科学, 自然语言处理

数据概述: 本数据集包含从Twitter收集的与Pfizer COVID-19疫苗相关的2万个推文。数据集的主要目标是帮助研究人员、数据科学家和分析师理解公众对Pfizer疫苗的看法。数据集结构支持情感分析、主观性分析和分类任务。

字段描述:

id:每个推文的唯一标识符。类型:整数。用途:用于唯一标识和区分数据集中的每个推文。

Text:推文的文本内容。类型:字符串。用途:提供每个推文的实际内容。此字段可用于各种自然语言处理任务,如情感分析、关键词提取和主题建模。

Subjectivity:推文的主观性分数,范围为0到1。0表示推文是客观的,1表示推文高度主观。类型:浮点数(范围:0到1)。用途:指示推文中有多少内容基于个人意见而非事实信息。这对于识别更多基于意见的推文很有帮助。

Polarity:情感极性分数,范围从-1(极其负面)到1(极其正面)。类型:浮点数(范围:-1到1)。用途:用于确定推文的情感基调,是负面、中性还是正面。此字段是情感分析任务的关键。

Target:指示推文对Pfizer疫苗总体情感的二元变量。0表示负面情感,1表示正面情感。类型:整数(0或1)。用途:作为机器学习模型的目标标签。它有助于将推文的情感分类为正面或负面。

数据来源: 该数据集通过Twitter API从Twitter收集。数据集中包括在指定时间段内包含与Pfizer疫苗和COVID-19相关关键词和标签的推文。使用Python的TextBlob库计算了主观性和极性分数。TextBlob广泛用于自然语言处理任务。数据已组织以确保与各种自然语言处理和机器学习任务兼容。请注意,该数据集已匿名化,任何敏感个人信息已被删除,以符合数据隐私标准。

更新频率: 该数据集是静态的,不会定期更新。但是,未来可能会根据新的推文收集或提高数据集质量发布新版本。如果存在任何重大更新,将在Kaggle的数据集元数据标签中注明。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 21:30 (UTC)
创建于 四月 22, 2025, 21:30 (UTC)