美国1994年人口普查收入分类数据集-vivamoto
数据来源:互联网公开数据
标签:人口普查,收入分类,社会经济,预测模型,美国,数据集,社会研究,分类任务
数据概述:
本数据集来自UCI机器学习库,包含1994年人口普查的数据。数据集的预测任务是根据13个预测因子(特征)判断个人的年收入是否超过50000美元。数据集包括年龄、职业类别、教育程度、婚姻状况、职业、与家庭关系、种族、性别、资本收益、资本损失、每周工作小时数及原籍国等14个特征。此外,数据集中还包含一个最终权重特征(fnlwgt),用于调整数据以反映美国非机构化人口的独立估计。
数据用途概述:
该数据集适用于社会经济研究、收入预测建模、机器学习算法的验证和测试、分类任务的实践等场景。研究人员可以通过分析数据集中的社会经济特征,探索不同人口群体的收入差异及其影响因素。同时,数据集也是数据科学教育和实践中的重要资源,适合用于教学案例和项目开发。
字段定义:
- age: 年龄(连续值)
- workclass: 职业类别(如Private, Self-emp-not-inc等)
- fnlwgt: 最终权重(连续值)
- education: 教育程度(如Bachelors, Some-college等)
- education-num: 教育年限(连续值)
- marital-status: 婚姻状况(如Married-civ-spouse, Divorced等)
- occupation: 职业(如Tech-support, Craft-repair等)
- relationship: 家庭关系(如Wife, Own-child等)
- race: 种族(如White, Asian-Pac-Islander等)
- sex: 性别(Male, Female)
- capital-gain: 资本收益(连续值)
- capital-loss: 资本损失(连续值)
- hours-per-week: 每周工作小时数(连续值)
- native-country: 原籍国(如United-States, Cambodia等)
数据特征:
- 数据集为多元特征集,包含连续值和分类值。
- 数据集适用于社会经济领域的研究和预测。
- 数据集包含14个特征,其中13个用于预测,1个用于调整权重。
- 数据集中存在缺失值。