基于MLPerf基准数据的机器学习系统数据分析与优化复现包

数据集概述

本数据集是硕士论文《基于MLPerf基准数据的机器学习系统数据分析与优化》的完整复现包,包含利用MLPerf基准数据开展系统性能分析、构建多目标优化框架以推荐最优硬件配置的相关代码与数据。

文件详解

该数据集包含多个文件和目录,具体说明如下: - 代码文件(Jupyter Notebook格式): - Data_Analysis.ipynb: 探索性数据分析(EDA)代码,可复现eda_plots/目录中的图表 - Dataset_Extension.ipynb: 数据增强代码,以Inference_data.csv为输入生成包含硬件规格、成本估算、能耗指标的Inference_data_Extended.csv - Optimization_Model.ipynb: 核心优化模型代码,包含5折交叉验证、模型训练、帕累托最优推荐及结果可视化功能 - 数据文件(CSV格式): - Inference_data.csv: 原始未处理数据,来自MLPerf Inference v4.0官方结果 - Inference_data_Extended.csv: 最终增强数据集,用于所有分析与建模 - 日志文件: - eda_log.txt: 探索性数据分析生成的统计摘要日志 - 依赖文件: - requirements.txt: Python库依赖清单 - 输出目录: - eda_plots/: 存储EDA生成的图表 - optimization_models_final/: 存储训练后的模型文件(.joblib格式) - 结果文件: - pareto_validation_plot_fold_0.png: 帕累托前沿验证图 - shap_waterfall_final_model.png: SHAP模型可解释性分析图

适用场景

  • 机器学习系统性能分析: 基于MLPerf基准数据开展系统吞吐量、能耗、成本等维度的量化分析
  • 硬件配置优化研究: 构建多目标优化框架,平衡性能、能效与成本的硬件配置推荐
  • 学术研究复现: 复现硕士论文中的数据分析与模型训练流程
  • 机器学习工程实践: 为计算机视觉任务提供硬件选型的决策支持工具
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 28.74 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。