机器学习算法性能评估数据集-2020-mi2datalab

机器学习算法性能评估数据集-2020-mi2datalab 数据来源:互联网公开数据 标签:机器学习,算法评估,ACC,AUC,OpenML,基准测试,超参数,数据集

数据概述: 本数据集包含7种常用机器学习算法在39个OpenML数据集上的ACC(准确率)和AUC(曲线下面积)评分。每个算法在每个数据集上进行20次训练/测试拆分,每次拆分使用不同的bootstrap采样。数据集中的每个评分均可复现。

数据集结构包括7列:第一列“dataset”表示数据集的OpenML ID,第二列“row_index”表示训练/测试拆分的标识符,第三列“model”表示算法名称,第四列“param_index”表示超参数集的标识符,第五列“time”表示学习时间(以毫秒为单位),最后两列分别是ACC和AUC指标。

对于每个算法,还提供了一个超参数数据框,其中第一列是“param_index”,其余列对应于该算法的超参数,并在计算中使用。

此外,为每个使用的数据集提供了一个单独的训练/测试拆分文件,每行表示该数据集中单个测试子集的行索引。

算法包括: - catboost - gbm - glmnet - kknn - randomforest - ranger - xgboost

每个机器学习模型使用了一组固定的、最常用的超参数。

数据用途概述: 该数据集适用于机器学习算法的性能评估、基准测试、超参数优化和算法选择等场景。研究人员可以利用该数据集比较不同算法在不同数据集上的表现,优化算法参数,选择最优的机器学习模型。此外,该数据集也适用于教学和培训,帮助学习者理解机器学习算法的优缺点和应用场景。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 15:41 (UTC)
创建于 五月 31, 2025, 15:41 (UTC)