数据简介:
该数据集收集了与唐纳德·特朗普(Donald Trump)相关的推文文本及其元信息,内容涵盖用户生成的转发、评论和直接提及。数据时间上集中于2015年前后美国大选时期,具有一定的舆情代表性,可用于情感分析、文本分类、信息传播研究、政治观点分析等多种任务。
数据源自 Twitter 社交平台,包含原始推文内容、互动数据(如转发数、点赞数)、用户信息(如用户注册时间、位置、粉丝数)以及与地理位置和链接相关的字段。
字段定义(部分字段如下,实际字段较多):
text:推文原文内容
retweet_count:该推文被转发的次数
favorited:是否被用户标记为“喜欢”
truncated:推文是否被截断
id_str:推文 ID 字符串
created_at:推文创建时间
lang:推文语言
screen_name:推文发布者用户名
location:用户标注的位置(可为空)
followers_count:粉丝数量
friends_count:关注数
statuses_count:用户累计推文数量
user_created_at:用户注册时间
geo_enabled:是否启用地理定位功能
url, expanded_url:推文中包含的外部链接
Class:推文是否属于某一特定分类(如情感极性,推测为 1/0)
数据格式:
CSV 格式,UTF-8 编码,字段较多,建议进行字段选择和预处理后使用。
数据来源:
Twitter 平台
适用场景:
政治言论情感分析与话题建模
社交媒体影响力传播研究
文本分类与自然语言处理教学
舆情监控与媒体研究
用户行为画像建模与趋势识别