机器学习特征选择回归问题基准测试数据集-artemcheremuhin
数据来源:互联网公开数据
标签:特征选择,回归,机器学习,基准测试,数据集,Spotify,学生表现,医疗保险,房屋租赁,纽约房价,人力资源,超级商店销售,星巴克,快餐营养,超市销售,数据科学薪资,电商,伦敦房价,丹麦房价
数据概述:
本数据集旨在为评估不同特征选择方法在解决回归问题上的效率和有效性提供基准。数据集由两部分组成:
第一部分:经过转换和清洗的原始数据集,这些数据集来源于Kaggle平台,包括:
- 2024年Spotify最受欢迎歌曲
- 学生表现数据集
- 医疗保险数据集
- 房屋租赁预测数据集
- 纽约住房市场数据集
- 人力资源分析数据集
- 超级商店销售数据集
- 星巴克数据集
- 快餐营养数据集
- 超市销售数据集
- 最新数据科学薪资数据集
- 电商数据集
- 伦敦房价数据
- 1992-2024年丹麦住宅房价数据
第二部分:生成的数据库,包含以下几类变量:
- 显著数值型变量(变量名以"SN"开头)
- 显著二元变量(变量名以"SF"开头)
- 对应的非显著数值型变量(变量名以"NSN"开头)
- 对应的非显著二元变量(变量名以"NSF"开头)
生成这些数据库的Python代码已在随附的Notebook中提供。
数据用途概述:
该数据集主要用于机器学习研究,特别是评估和比较不同特征选择算法在回归问题上的性能。研究人员可以使用此数据集来测试各种特征选择方法,并分析其在不同数据集上的表现,从而更好地理解和改进特征选择技术。此外,该数据集也可用于教学和实践,帮助学习者熟悉特征选择流程,以及理解不同特征选择方法对模型性能的影响。