数据集概述
本数据集为2021年4月29日至5月18日期间,微博平台上含指定新冠相关关键词(如疫苗、核酸检测等)的内容数据,包含105万+用户的原创帖、评论、转发及384万+关注关系,所有ID以UUID形式脱敏,仅保留构建内容与关系的必要变量。
文件详解
- tweet_spider_by_tweet_id_uuid.json
- 文件格式:JSON
- 字段映射介绍:微博原创帖数据列表,含weibo_id_uuid(帖子UUID)、user_uuid(发帖用户UUID)、creat_at_h(发帖时间,向下取整至小时级)
- comment.json
- 文件格式:JSON
- 字段映射介绍:帖子评论元数据,含user_uuid(评论用户UUID)、ori_weibo_id_uuid(原帖UUID)、creat_at_h(评论时间,向下取整至小时级)
- repost.jsonl
- 文件格式:JSONL
- 字段映射介绍:帖子转发元数据(结构同原创帖),含user_uuid(转发用户UUID)、ori_weibo_id_uuid(原帖UUID)、creat_at_h(转发时间,向下取整至小时级)
- follower.jsonl
- 文件格式:JSONL
- 字段映射介绍:用户关注关系数据列表,含fan_id_uuid(粉丝用户UUID)、follower_id_uuid(被关注用户UUID),描述粉丝→被关注者的关系
数据来源
微博平台(Weibo)
适用场景
- 新冠舆情传播分析: 研究微博平台新冠相关内容的发布、评论、转发路径及传播特征
- 社交媒体用户行为研究: 分析用户在新冠话题下的原创、评论、转发行为模式及时空分布
- 社交网络结构分析: 基于关注关系数据构建用户社交网络,探究新冠话题相关用户的连接特征
- 公共卫生信息传播评估: 评估疫苗、核酸检测等新冠相关公共卫生信息在微博平台的传播效率与覆盖范围