云性能变异性研究复制包_流处理应用基准测试数据集2024

数据集概述

本数据集为云性能变异性研究的复制包,包含2024年在AWS两个区域(us-east-1、eu-central-1)、两种机器类型(m6i、m6g)下,2366次ShuffleBench流处理基准测试的吞吐量数据,以及用于重复分析的代码和自动执行脚本,支持云基准测试相关研究的复现与扩展分析。

文件详解

  • 核心数据文件(位于results目录):
  • 结果文件:遵循results/{DATE}_{TIME}-{INSTANCE}-{REGION}/results/exp0_250000_9_generic_throughput_{IDX}.csv命名规则,CSV格式,含timestamp(时间戳,秒级)、value(吞吐量,记录数/秒)字段
  • 辅助文件:每个结果目录下含theodolite.log(Theodolite工具日志)、配置文件(执行配置记录)
  • 分析文件:
  • results-analysis.ipynb:Jupyter Notebook,用于复现数据研究分析,支持扩展分析
  • requirements.txt:Python依赖包列表,用于配置分析环境
  • 自动执行脚本(位于periodic-executor目录):
  • 脚本与配置文件:用于自动执行ShuffleBench基准测试,含Kubernetes集群搭建、Theodolite安装、结果收集等功能
  • Docker镜像相关文件:用于构建周期性基准测试执行器的Docker镜像

适用场景

  • 云性能研究:分析不同AWS区域、机器类型下的流处理基准测试吞吐量变异性
  • 基准测试复现:复现原研究中关于云环境下基准测试执行时机的结论
  • 云资源优化:探究云资源配置对应用性能的影响,为资源选型提供数据支持
  • 自动化测试研究:参考周期性基准测试执行器的实现方案,优化云环境下的自动化测试流程
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 27.41 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。