数据集概述
本数据集是硕士论文《基于MLPerf基准数据的机器学习系统数据分析与优化》的完整复现包,包含利用MLPerf基准数据开展系统性能分析、构建多目标优化框架以推荐最优硬件配置的相关代码与数据。
文件详解
该数据集包含多个文件和目录,具体说明如下:
- 代码文件(Jupyter Notebook格式):
- Data_Analysis.ipynb: 探索性数据分析(EDA)代码,可复现eda_plots/目录中的图表
- Dataset_Extension.ipynb: 数据增强代码,以Inference_data.csv为输入生成包含硬件规格、成本估算、能耗指标的Inference_data_Extended.csv
- Optimization_Model.ipynb: 核心优化模型代码,包含5折交叉验证、模型训练、帕累托最优推荐及结果可视化功能
- 数据文件(CSV格式):
- Inference_data.csv: 原始未处理数据,来自MLPerf Inference v4.0官方结果
- Inference_data_Extended.csv: 最终增强数据集,用于所有分析与建模
- 日志文件:
- eda_log.txt: 探索性数据分析生成的统计摘要日志
- 依赖文件:
- requirements.txt: Python库依赖清单
- 输出目录:
- eda_plots/: 存储EDA生成的图表
- optimization_models_final/: 存储训练后的模型文件(.joblib格式)
- 结果文件:
- pareto_validation_plot_fold_0.png: 帕累托前沿验证图
- shap_waterfall_final_model.png: SHAP模型可解释性分析图
适用场景
- 机器学习系统性能分析: 基于MLPerf基准数据开展系统吞吐量、能耗、成本等维度的量化分析
- 硬件配置优化研究: 构建多目标优化框架,平衡性能、能效与成本的硬件配置推荐
- 学术研究复现: 复现硕士论文中的数据分析与模型训练流程
- 机器学习工程实践: 为计算机视觉任务提供硬件选型的决策支持工具