数据集

机器学习算法性能评估数据集-2020-mi2datalab

机器学习算法性能评估数据集-2020-mi2datalab 数据来源：互联网公开数据标签：机器学习,算法评估,ACC,AUC,OpenML,基准测试,超参数,数据集

数据概述：本数据集包含7种常用机器学习算法在39个OpenML数据集上的ACC（准确率）和AUC（曲线下面积）评分。每个算法在每个数据集上进行20次训练/测试拆分，每次拆分使用不同的bootstrap采样。数据集中的每个评分均可复现。

数据集结构包括7列：第一列“dataset”表示数据集的OpenML ID，第二列“row_index”表示训练/测试拆分的标识符，第三列“model”表示算法名称，第四列“param_index”表示超参数集的标识符，第五列“time”表示学习时间（以毫秒为单位），最后两列分别是ACC和AUC指标。

对于每个算法，还提供了一个超参数数据框，其中第一列是“param_index”，其余列对应于该算法的超参数，并在计算中使用。

此外，为每个使用的数据集提供了一个单独的训练/测试拆分文件，每行表示该数据集中单个测试子集的行索引。

算法包括： - catboost - gbm - glmnet - kknn - randomforest - ranger - xgboost

每个机器学习模型使用了一组固定的、最常用的超参数。

数据用途概述：该数据集适用于机器学习算法的性能评估、基准测试、超参数优化和算法选择等场景。研究人员可以利用该数据集比较不同算法在不同数据集上的表现，优化算法参数，选择最优的机器学习模型。此外，该数据集也适用于教学和培训，帮助学习者理解机器学习算法的优缺点和应用场景。

数据与资源

versions_20250404032735.zipZIP
64.24 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	64.24 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

机器学习算法性能评估数据集-2020-mi2datalab

数据与资源

附加信息

注册成功！