扩展版维基百科日度网络流量数据集_无缺失值

数据集概述

该数据集包含十四万五千零六十三条时间序列数据,记录了2015年7月1日至2022年6月30日期间一组维基百科页面的日访问量。此数据集为Kaggle维基百科流量预测竞赛所用数据集的扩展版本,保留了竞赛中的维基百科页面,且将文章名称中的冒号替换为短横线,以适配特定数据加载器。原始数据中的缺失值已被简单替换为零。

文件详解

  • 文件名称: web_traffic_extended_dataset_without_missing_values.zip
  • 文件格式: ZIP压缩包 (.zip)
  • 文件内容: 包含扩展版维基百科日度网络流量数据集,内部可能存储有.tsf格式的时间序列文件,记录了特定维基百科页面的日访问量数据,时间跨度为2015年7月1日至2022年6月30日。

数据来源

Wikimedia REST API

适用场景

  • 时间序列分析: 用于研究维基百科页面访问量的长期趋势、季节性模式和周期性波动。
  • 网络流量预测: 可作为训练数据,开发和评估预测维基百科页面未来访问量的模型。
  • 数据预处理研究: 适合分析缺失值处理(如简单填充零)对时间序列数据建模效果的影响。
  • 维基百科内容影响力分析: 探究不同主题或语言版本的维基百科页面在特定时间段内的受欢迎程度和关注度变化。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 433.45 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。