Kaggle竞赛数据集-不平衡数据重采样训练集-机器学习-2024

Kaggle竞赛数据集-不平衡数据重采样训练集-机器学习-2024 数据来源:互联网公开数据 标签:机器学习,数据预处理,重采样,不平衡数据,Kaggle,训练集,分类,算法 数据概述: 本数据集是为Kaggle平台上的机器学习竞赛而准备的训练数据集,主要针对类别不平衡问题和数据量过大的情况进行处理。原始数据经过RandomUnderSampler(随机欠采样)和TomekLinks算法重采样处理,以平衡各类样本数量,并降低数据规模。最终数据集包含约450万行数据,其中包含一些经过处理的特征。多数类与少数类的比例约为2:1。

数据用途概述: 该数据集适用于机器学习模型的训练与评估,特别是在处理类别不平衡问题时。研究人员和竞赛参与者可以利用此数据进行模型构建、调参优化、算法比较等,从而提升分类模型的性能。此外,该数据集也适合用于数据预处理技术的实践,加深对重采样算法的理解。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 58.34 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。