计算系统模拟器_可靠性扫描数据与绘图脚本_2024

数据集概述

本数据集包含用于生成GB200系统可靠性扫描图表(图6)的模拟数据及Python绘图脚本。核心内容围绕平均故障时间、平均修复时间和GPU请求数量等参数的扫描结果展开,共涉及二百七十次模拟,为分析计算系统可靠性提供数据支持。

文件详解

  • 数据文件(.npy格式,共8个):
  • allocation_sizes.npy:存储GPU分配数量数组(如72、68等)
  • mttf.npy:存储平均故障时间数组(单位:天)
  • mttr.npy:存储平均修复时间数组(单位:天)
  • disabled_gpus.npy、vms_completed.npy、training_utilization.npy、time_frac.npy、vms_interrupted.npy:补充性模拟结果数据
  • 图表文件:
  • clusterscan_scan.png:预生成的可靠性扫描结果图表
  • 脚本文件:
  • cluster_scan.py:Python绘图脚本(需设置run_simulations=False,仅用于绘图)

适用场景

  • 计算系统可靠性分析:研究GPU分配规模对系统故障恢复能力的影响
  • 高性能计算资源优化:评估不同硬件配置下的任务完成效率与中断风险
  • 系统运维策略制定:基于故障时间参数优化设备维护周期
  • 学术研究可视化:复现或扩展计算系统可靠性相关研究的图表结果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.27 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。