MAVIS_Based_西班牙语疫苗疾病推文情感分析数据集2015_2018

数据集概述

本数据集包含2015-2018年西班牙语疫苗与疾病相关推文及情感分析结果,涉及脑膜炎球菌病、流感等疾病及对应疫苗。数据涵盖推文内容、用户信息、关键词,以及专家人工标注(负面/非负面)、三大工具自动标注(IBM Watson、Google Cloud、Meaning Cloud)和机器学习元模型的情感分类结果,共6个文件。

文件详解

  • tweets_info.tsv(TSV格式):含推文核心信息,字段包括id、cleanedText(清洗后文本)、createdAt(发布时间)、geoInfo(地理信息)、用户互动数据(inReplyToStatusId等)、lang(语言)、互动计数(favoriteCount等)、source(来源)、text(原文)、twitterUser_id(用户ID)
  • users_info.tsv(TSV格式):存储推文发布用户的内在信息(具体字段未展示)
  • tweets_annotations.tsv(TSV格式):含推文专家标注结果,字段包括tweetId、evaluator1至evaluator5(5位专家的情感分类:neg/non-neg)
  • tweets_sentiments.tsv(TSV格式):存储工具及元模型的情感标注结果(具体字段未展示)
  • tweets_keywords.tsv(TSV格式):记录每条推文提及的关键词(具体字段未展示)
  • Codebook.xlsx(XLSX格式):数据集的代码本,用于解释字段定义及数据说明(具体内容未展示)

数据来源

MSD Spain资助的MAVIS Study(VEAP ID: 7789)

适用场景

  • 疫苗舆情情感分析:研究西班牙语用户对疫苗及疾病的态度倾向与分布特征
  • 医疗社交媒体研究:分析疫苗相关信息在社交媒体的传播规律与用户互动模式
  • 情感标注工具评估:对比人工标注与自动工具(IBM Watson等)的情感分类一致性
  • 机器学习模型训练:基于专家标注数据优化医疗领域社交媒体情感分类模型
  • 公共卫生政策参考:为疫苗科普与舆情引导提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 594.68 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。