数据1994年美国人口普查收入预测训练测试数据集-nimapourmoradi

1994年美国人口普查收入预测训练测试数据集-nimapourmoradi

数据来源:互联网公开数据

标签:人口普查,收入预测,成人收入,数据挖掘,机器学习,美国,经济学

数据概述: 本数据集基于1994年的美国人口普查数据库,由Barry Becker提取。数据集包含一组相对干净的记录,提取条件为:年龄大于16岁、年收入大于100美元、最终加权人口大于1、每周工作小时数大于0。数据分为训练集和测试集,使用MLC++的GenCVFiles工具以2/3和1/3的比例随机分割。原始数据包含48842条记录,混合了连续和离散特征。去除未知值后,数据量为45222条记录。数据集中存在6条重复或冲突的记录。类别概率如下:收入大于50000美元的概率为23.93%(去除未知值后为24.78%),收入小于等于50000美元的概率为76.07%(去除未知值后为75.22%)。

数据用途概述: 该数据集适用于成人收入预测、数据分析、机器学习模型训练与评估等场景。研究人员和数据科学家可以利用该数据集进行分类算法的训练和测试,评估模型性能;政策制定者可基于数据评估不同群体的收入状况,为制定相关政策提供依据。此外,数据集还适合用于教育和培训,帮助学习者掌握数据挖掘和机器学习的基本技能。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.62 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。