数据集概述
本数据集包含2014年2月2日至4月23日期间,Twitch平台“Twitch Plays Pokemon”活动产生的约三千七百八十万条IRC聊天消息。数据以单条消息为记录单位,记录了用户在游戏直播互动中的实时输入内容,可用于分析网络社区行为、用户互动模式及异常用户识别等研究。
文件详解
- 文件名称:tpp_data.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含IRC聊天日志数据,每条消息记录包含以下字段:
- date(日期):消息发送日期,格式为YYYY-MM-DD
- time(时间):消息发送时间,格式为HH:MM:SS
- user(用户):发送消息的用户名
- msg(消息内容):用户发送的具体文本内容
数据来源
论文“Detecting Internet Trolls in the Twitch Plays Pokemon Dataset”(arXiv:1902.06208)
适用场景
- 网络社区行为分析: 研究游戏直播平台中用户的实时互动模式、消息发送频率及内容特征。
- 异常用户( troll )检测: 基于用户消息的上下文特征(如发送时间、内容与群体目标的偏离度),识别与正常用户行为显著差异的异常用户。
- 用户画像构建: 提取用户的消息历史特征,建立用户行为模型,分析不同类型用户的互动偏好。
- 大规模文本数据处理: 基于MapReduce等技术,开展海量聊天日志的预处理、特征提取与分布式计算研究。
- 游戏直播互动机制研究: 分析集体互动游戏中用户的协作与干扰行为,探索群体决策过程。