美国1994年人口普查收入分类数据集-vivamoto

美国1994年人口普查收入分类数据集-vivamoto 数据来源:互联网公开数据 标签:人口普查,收入分类,社会经济,预测模型,美国,数据集,社会研究,分类任务

数据概述: 本数据集来自UCI机器学习库,包含1994年人口普查的数据。数据集的预测任务是根据13个预测因子(特征)判断个人的年收入是否超过50000美元。数据集包括年龄、职业类别、教育程度、婚姻状况、职业、与家庭关系、种族、性别、资本收益、资本损失、每周工作小时数及原籍国等14个特征。此外,数据集中还包含一个最终权重特征(fnlwgt),用于调整数据以反映美国非机构化人口的独立估计。

数据用途概述: 该数据集适用于社会经济研究、收入预测建模、机器学习算法的验证和测试、分类任务的实践等场景。研究人员可以通过分析数据集中的社会经济特征,探索不同人口群体的收入差异及其影响因素。同时,数据集也是数据科学教育和实践中的重要资源,适合用于教学案例和项目开发。

字段定义: - age: 年龄(连续值) - workclass: 职业类别(如Private, Self-emp-not-inc等) - fnlwgt: 最终权重(连续值) - education: 教育程度(如Bachelors, Some-college等) - education-num: 教育年限(连续值) - marital-status: 婚姻状况(如Married-civ-spouse, Divorced等) - occupation: 职业(如Tech-support, Craft-repair等) - relationship: 家庭关系(如Wife, Own-child等) - race: 种族(如White, Asian-Pac-Islander等) - sex: 性别(Male, Female) - capital-gain: 资本收益(连续值) - capital-loss: 资本损失(连续值) - hours-per-week: 每周工作小时数(连续值) - native-country: 原籍国(如United-States, Cambodia等)

数据特征: - 数据集为多元特征集,包含连续值和分类值。 - 数据集适用于社会经济领域的研究和预测。 - 数据集包含14个特征,其中13个用于预测,1个用于调整权重。 - 数据集中存在缺失值。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.21 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。