数据集概述
本数据集是论文《MLSToolbox Code Generator: A tool for generating quality ML pipelines for ML systems》的复现包,包含评估协议、可用性调查结果及质量对比代码管道等文件,用于复现该论文的研究内容。
文件详解
- 文件名称: MLSToolbox Code Generation_Evaluation protocol.pdf,文件格式: PDF,内容为MLSToolbox代码生成器首次发布时有效性和可用性初步评估的协议文档。
- 文件名称: MLSToolbox Code Generation_Usability results.xlsx,文件格式: Excel,内容为可用性调查收集的数据及基于回答计算的系统可用性量表(SUS)结果。
- 文件名称: MLSToolbox Code Generation_Quality comparison.zip,文件格式: 压缩包,包含与工具生成代码对比的管道文件,含11个文件夹:
- "data"文件夹:包含对比所用两个案例(糖尿病、Big Mart销售预测)的数据源文件
- P01至P10文件夹(每个管道对应一个文件夹):
- "src"子文件夹:含所有管道代码模块及输入数据(在"data"子文件夹中)
- "quality metrics"子文件夹:含Radon和Pylint执行的输出结果
- 说明:P01和P02由MLSToolbox代码生成器生成
适用场景
- 机器学习工具复现研究:用于复现MLSToolbox代码生成器论文的实验结果
- 机器学习管道质量评估:对比不同方法生成的ML管道质量
- 系统可用性研究:分析ML工具的用户可用性及SUS评分
- 代码生成工具验证:验证MLSToolbox代码生成器的有效性和可用性