数据集概述
本数据集包含2015-2018年西班牙语疫苗与疾病相关推文及情感分析结果,涉及脑膜炎球菌病、流感等疾病及对应疫苗。数据涵盖推文内容、用户信息、关键词,以及专家人工标注(负面/非负面)、三大工具自动标注(IBM Watson、Google Cloud、Meaning Cloud)和机器学习元模型的情感分类结果,共6个文件。
文件详解
tweets_info.tsv(TSV格式):含推文核心信息,字段包括id、cleanedText(清洗后文本)、createdAt(发布时间)、geoInfo(地理信息)、用户互动数据(inReplyToStatusId等)、lang(语言)、互动计数(favoriteCount等)、source(来源)、text(原文)、twitterUser_id(用户ID)
users_info.tsv(TSV格式):存储推文发布用户的内在信息(具体字段未展示)
tweets_annotations.tsv(TSV格式):含推文专家标注结果,字段包括tweetId、evaluator1至evaluator5(5位专家的情感分类:neg/non-neg)
tweets_sentiments.tsv(TSV格式):存储工具及元模型的情感标注结果(具体字段未展示)
tweets_keywords.tsv(TSV格式):记录每条推文提及的关键词(具体字段未展示)
Codebook.xlsx(XLSX格式):数据集的代码本,用于解释字段定义及数据说明(具体内容未展示)
数据来源
MSD Spain资助的MAVIS Study(VEAP ID: 7789)
适用场景
- 疫苗舆情情感分析:研究西班牙语用户对疫苗及疾病的态度倾向与分布特征
- 医疗社交媒体研究:分析疫苗相关信息在社交媒体的传播规律与用户互动模式
- 情感标注工具评估:对比人工标注与自动工具(IBM Watson等)的情感分类一致性
- 机器学习模型训练:基于专家标注数据优化医疗领域社交媒体情感分类模型
- 公共卫生政策参考:为疫苗科普与舆情引导提供数据支持