机器学习算法性能评估数据集-2020-mi2datalab
数据来源:互联网公开数据
标签:机器学习,算法评估,ACC,AUC,OpenML,基准测试,超参数,数据集
数据概述:
本数据集包含7种常用机器学习算法在39个OpenML数据集上的ACC(准确率)和AUC(曲线下面积)评分。每个算法在每个数据集上进行20次训练/测试拆分,每次拆分使用不同的bootstrap采样。数据集中的每个评分均可复现。
数据集结构包括7列:第一列“dataset”表示数据集的OpenML ID,第二列“row_index”表示训练/测试拆分的标识符,第三列“model”表示算法名称,第四列“param_index”表示超参数集的标识符,第五列“time”表示学习时间(以毫秒为单位),最后两列分别是ACC和AUC指标。
对于每个算法,还提供了一个超参数数据框,其中第一列是“param_index”,其余列对应于该算法的超参数,并在计算中使用。
此外,为每个使用的数据集提供了一个单独的训练/测试拆分文件,每行表示该数据集中单个测试子集的行索引。
算法包括:
- catboost
- gbm
- glmnet
- kknn
- randomforest
- ranger
- xgboost
每个机器学习模型使用了一组固定的、最常用的超参数。
数据用途概述:
该数据集适用于机器学习算法的性能评估、基准测试、超参数优化和算法选择等场景。研究人员可以利用该数据集比较不同算法在不同数据集上的表现,优化算法参数,选择最优的机器学习模型。此外,该数据集也适用于教学和培训,帮助学习者理解机器学习算法的优缺点和应用场景。