数据集

机器学习特征选择回归问题基准测试数据集-artemcheremuhin

机器学习特征选择回归问题基准测试数据集-artemcheremuhin 数据来源：互联网公开数据标签：特征选择,回归,机器学习,基准测试,数据集,Spotify,学生表现,医疗保险,房屋租赁,纽约房价,人力资源,超级商店销售,星巴克,快餐营养,超市销售,数据科学薪资,电商,伦敦房价,丹麦房价数据概述：本数据集旨在为评估不同特征选择方法在解决回归问题上的效率和有效性提供基准。数据集由两部分组成：

第一部分：经过转换和清洗的原始数据集，这些数据集来源于Kaggle平台，包括：

2024年Spotify最受欢迎歌曲
学生表现数据集
医疗保险数据集
房屋租赁预测数据集
纽约住房市场数据集
人力资源分析数据集
超级商店销售数据集
星巴克数据集
快餐营养数据集
超市销售数据集
最新数据科学薪资数据集
电商数据集
伦敦房价数据
1992-2024年丹麦住宅房价数据

第二部分：生成的数据库，包含以下几类变量：

显著数值型变量（变量名以"SN"开头）
显著二元变量（变量名以"SF"开头）
对应的非显著数值型变量（变量名以"NSN"开头）
对应的非显著二元变量（变量名以"NSF"开头）

生成这些数据库的Python代码已在随附的Notebook中提供。

数据用途概述：该数据集主要用于机器学习研究，特别是评估和比较不同特征选择算法在回归问题上的性能。研究人员可以使用此数据集来测试各种特征选择方法，并分析其在不同数据集上的表现，从而更好地理解和改进特征选择技术。此外，该数据集也可用于教学和实践，帮助学习者熟悉特征选择流程，以及理解不同特征选择方法对模型性能的影响。

数据与资源

versions_20250413073815.zipZIP
474.80 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	474.8 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

机器学习特征选择回归问题基准测试数据集-artemcheremuhin

数据与资源

附加信息

注册成功！