成人收入数据集
数据来源:互联网公开数据
标签:成人收入,线性回归,逻辑回归,职业分类,婚姻状况,教育水平,收入预测,分类编码
数据概述:
本数据集源于公开的成人收入数据集,经过处理和编码后形成,主要用于线性回归和逻辑回归分析。数据集包含了个人信息、职业、婚姻状况、教育水平等关键特征,以及收入是否超过50K美元的二元分类标签。数据集已对缺失值(NA值)进行了清理,去除约13%的原始数据,确保数据质量。此外,部分分类变量(如职业、婚姻状况、教育水平等)已被编码为数值形式,便于机器学习模型的训练和分析。
数据用途概述:
该数据集适用于以下场景:
-
收入预测分析:通过线性回归或逻辑回归模型,研究影响个人收入水平的因素,如职业、教育水平、婚姻状况等。
-
特征关系解读:分析不同分类特征(如职业、婚姻状况)与收入之间的关系,帮助理解哪些因素对收入有显著影响。
-
职业与收入关系研究:通过构建逻辑回归模型,探索特定职业组合与高收入(收入超过50K美元)之间的关系。
-
教育与收入关系研究:分析不同教育水平对收入的影响,为教育政策制定或职业规划提供参考。
-
社会学研究:研究婚姻状况、种族、性别等因素对收入的潜在影响,揭示社会经济现象。
-
机器学习教学与实践:作为经典数据集,广泛用于教学和项目实践,帮助学习者掌握数据预处理、特征编码、模型训练等技能。
数据字段定义:
以下是数据集中主要字段的描述:
- 年龄 (Age):个人年龄,数值型特征。
- 工作类别 (Workclass):个人工作类型,分类特征。
- 教育水平 (Education):个人最高教育程度,分类特征。
- 教育年限 (Education-Num):个人接受的教育年限,数值型特征。
- 婚姻状况 (Marital Status):个人婚姻状态,分类特征,编码如下:
- 0: 离婚 (Divorced)
- 1: 军人配偶 (Married-AF-spouse)
- 2: 已婚 (Married-civ-spouse)
- 3: 失踪配偶 (Married-spouse-absent)
- 4: 未婚 (Never-married)
- 5: 分居 (Separated)
- 6: 丧偶 (Widowed)
- 职业 (Occupation):个人职业类别,分类特征,编码如下:
- 0: 行政/文员 (Adm-clerical)
- 1: 军人 (Armed-Forces)
- 2: 手工艺/维修 (Craft-repair)
- 3: 高管/经理 (Exec-managerial)
- 4: 农业/渔业 (Farming-fishing)
- 5: 助理/清洁工 (Handlers-cleaners)
- 6: 机器操作/检验 (Machine-op-inspct)
- 7: 其他服务 (Other-service)
- 8: 家庭服务 (Priv-house-serv)
- 9: 专业/特殊技能 (Prof-specialty)
- 10: 保护服务 (Protective-serv)
- 11: 销售 (Sales)
- 12: 技术支持 (Tech-support)
- 13: 运输/搬运 (Transport-moving)
- 性别 (Gender):个人性别,分类特征,编码如下:
- 0: 女性 (Female)
- 1: 男性 (Male)
- 种族 (Race):个人种族,分类特征,编码如下:
- 0: 美洲原住民/因纽特人 (Amer-Indian-Eskimo)
- 1: 亚裔/太平洋岛民 (Asian-Pac-Islander)
- 2: 非裔 (Black)
- 3: 其他 (Other)
- 4: 白人 (White)
- 收入 (Income):个人年收入是否超过50K美元,二元分类标签,编码如下:
- 0: 收入低于或等于50K美元
- 1: 收入高于50K美元
数据特征:
- 数据量:经过清理和编码,数据集包含约45,000条记录。
- 字段数量:数据集包含约15个字段,涵盖个人信息、职业、教育、婚姻状况、收入等多方面信息。
- 数据分布:收入字段为二元分类,数据集中收入高于50K美元的样本约占30%。
应用场景:
- 学术研究:用于社会学、经济学领域的研究,分析影响个人收入的因素。
- 商业应用:帮助企业制定招聘策略、薪酬体系,或进行客户收入预测。
- 教育与培训:作为经典数据集,用于机器学习课程的教学和项目实践。
- 政策制定:为教育政策、就业支持政策等提供数据支持,评估政策效果。
原始数据来源:
备注:
- 数据集中的缺失值(NA值)已被清理,占原始数据的约13%。
- 部分类别特征(如职业、婚姻状况、教育水平、性别、种族等)已被编码为数值形式,便于建模分析。
- 数据集适用于线性回归、逻辑回归等经典机器学习任务,同时也可作为深入研究收入不平等、职业发展等社会经济现象的起点。