维基百科网站流量日度时间序列数据集_含缺失值

数据集概述

本数据集包含145063条时间序列数据,记录2015年7月1日至2022年6月30日期间维基百科页面的日度访问量(含缺失值)。数据基于Kaggle维基百科流量预测竞赛使用的页面范围扩展而来,文章名称中的冒号已替换为短横线以适配.tsf文件加载器,可用于网页流量趋势分析与预测研究。

文件详解

  • 文件名称:web_traffic_extended_dataset_with_missing_values.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内含.tsf格式文件,记录145063个维基百科页面的日度访问量时间序列数据,覆盖2015-07-01至2022-06-30的时间范围,包含缺失值;文章名称中的特殊字符已做替换处理。

数据来源

Wikimedia REST API

适用场景

  • 网页流量预测建模: 用于训练和验证维基百科页面日度访问量的时间序列预测模型。
  • 网络用户行为分析: 分析不同维基百科页面访问量的变化趋势与用户行为特征。
  • 缺失值插补算法研究: 基于含缺失值的流量数据,测试和优化时间序列缺失值处理方法。
  • 竞赛数据集扩展应用: 作为Kaggle维基百科流量预测竞赛数据集的扩展版本,支持相关研究的延续与深化。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 434.48 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。