宾夕法尼亚交通局SEPTA推文与OTP历史数据集
数据来源:互联网公开数据
标签:SEPTA,推特,公共交通,准时性分析,数据挖掘,社交媒体分析,时间序列
数据概述:
本数据集整理自SEPTA(费城东南宾夕法尼亚交通局)的社交媒体推文数据,旨在支持参与Kaggle竞赛的用户结合OTP(On-Time Performance,准点率)数据进行多维分析。数据记录涵盖了SEPTA在运营过程中通过Twitter发布的消息内容,为研究交通信息传播效率、用户互动及其与运营表现之间的关系提供了基础。
字段定义: 由于原始描述未提供具体字段信息,以下为可能字段示例,具体需根据数据实际情况确认:
tweet_id:推文唯一标识
timestamp:推文发布时间
content:推文文本内容
retweet_count:转发数量
like_count:点赞数量
reply_count:评论数量
sentiment(如有):情绪分析结果
otp_reference_time(如有关联):关联的OTP数据时间点
数据特征:
以Twitter推文为主,内容丰富,带有时间戳
可与OTP数据关联分析
适用于文本分析、情绪识别和交通运行研究
数据体量适中,适合快速建模与探索性数据分析
数据来源: 数据通过TWINT(一个无需API Key即可采集Twitter数据的开源工具)采集自SEPTA的官方社交媒体账号。数据用于Kaggle竞赛项目,供公开研究与建模分析使用。
数据格式: 结构化文本数据,可能为CSV或JSON格式,包含时间、文本及互动相关字段。
时间范围: 原始说明未明确时间范围,建议使用者查看数据文件中的时间戳字段获取具体时间段。
更新频率: 本数据集为Kaggle竞赛提供的静态版本,无定期更新计划。
适用场景:
分析公共交通运营机构在社交媒体的信息发布特征
探索推文内容与交通准点率的相关性
进行情绪分析、文本分类、关键词抽取等自然语言处理任务
研究社交媒体在交通信息传递和乘客互动中的作用