成人收入数据集

成人收入数据集

数据来源:互联网公开数据

标签:成人收入,线性回归,逻辑回归,职业分类,婚姻状况,教育水平,收入预测,分类编码

数据概述:

本数据集源于公开的成人收入数据集,经过处理和编码后形成,主要用于线性回归和逻辑回归分析。数据集包含了个人信息、职业、婚姻状况、教育水平等关键特征,以及收入是否超过50K美元的二元分类标签。数据集已对缺失值(NA值)进行了清理,去除约13%的原始数据,确保数据质量。此外,部分分类变量(如职业、婚姻状况、教育水平等)已被编码为数值形式,便于机器学习模型的训练和分析。

数据用途概述:

该数据集适用于以下场景:

  1. 收入预测分析:通过线性回归或逻辑回归模型,研究影响个人收入水平的因素,如职业、教育水平、婚姻状况等。

  2. 特征关系解读:分析不同分类特征(如职业、婚姻状况)与收入之间的关系,帮助理解哪些因素对收入有显著影响。

  3. 职业与收入关系研究:通过构建逻辑回归模型,探索特定职业组合与高收入(收入超过50K美元)之间的关系。

  4. 教育与收入关系研究:分析不同教育水平对收入的影响,为教育政策制定或职业规划提供参考。

  5. 社会学研究:研究婚姻状况、种族、性别等因素对收入的潜在影响,揭示社会经济现象。

  6. 机器学习教学与实践:作为经典数据集,广泛用于教学和项目实践,帮助学习者掌握数据预处理、特征编码、模型训练等技能。

数据字段定义:

以下是数据集中主要字段的描述:

  1. 年龄 (Age):个人年龄,数值型特征。
  2. 工作类别 (Workclass):个人工作类型,分类特征。
  3. 教育水平 (Education):个人最高教育程度,分类特征。
  4. 教育年限 (Education-Num):个人接受的教育年限,数值型特征。
  5. 婚姻状况 (Marital Status):个人婚姻状态,分类特征,编码如下:
  6. 0: 离婚 (Divorced)
  7. 1: 军人配偶 (Married-AF-spouse)
  8. 2: 已婚 (Married-civ-spouse)
  9. 3: 失踪配偶 (Married-spouse-absent)
  10. 4: 未婚 (Never-married)
  11. 5: 分居 (Separated)
  12. 6: 丧偶 (Widowed)
  13. 职业 (Occupation):个人职业类别,分类特征,编码如下:
  14. 0: 行政/文员 (Adm-clerical)
  15. 1: 军人 (Armed-Forces)
  16. 2: 手工艺/维修 (Craft-repair)
  17. 3: 高管/经理 (Exec-managerial)
  18. 4: 农业/渔业 (Farming-fishing)
  19. 5: 助理/清洁工 (Handlers-cleaners)
  20. 6: 机器操作/检验 (Machine-op-inspct)
  21. 7: 其他服务 (Other-service)
  22. 8: 家庭服务 (Priv-house-serv)
  23. 9: 专业/特殊技能 (Prof-specialty)
  24. 10: 保护服务 (Protective-serv)
  25. 11: 销售 (Sales)
  26. 12: 技术支持 (Tech-support)
  27. 13: 运输/搬运 (Transport-moving)
  28. 性别 (Gender):个人性别,分类特征,编码如下:
  29. 0: 女性 (Female)
  30. 1: 男性 (Male)
  31. 种族 (Race):个人种族,分类特征,编码如下:
  32. 0: 美洲原住民/因纽特人 (Amer-Indian-Eskimo)
  33. 1: 亚裔/太平洋岛民 (Asian-Pac-Islander)
  34. 2: 非裔 (Black)
  35. 3: 其他 (Other)
  36. 4: 白人 (White)
  37. 收入 (Income):个人年收入是否超过50K美元,二元分类标签,编码如下:
  38. 0: 收入低于或等于50K美元
  39. 1: 收入高于50K美元

数据特征:

  1. 数据量:经过清理和编码,数据集包含约45,000条记录。
  2. 字段数量:数据集包含约15个字段,涵盖个人信息、职业、教育、婚姻状况、收入等多方面信息。
  3. 数据分布:收入字段为二元分类,数据集中收入高于50K美元的样本约占30%。

应用场景:

  1. 学术研究:用于社会学、经济学领域的研究,分析影响个人收入的因素。
  2. 商业应用:帮助企业制定招聘策略、薪酬体系,或进行客户收入预测。
  3. 教育与培训:作为经典数据集,用于机器学习课程的教学和项目实践。
  4. 政策制定:为教育政策、就业支持政策等提供数据支持,评估政策效果。

原始数据来源:

备注:

  1. 数据集中的缺失值(NA值)已被清理,占原始数据的约13%。
  2. 部分类别特征(如职业、婚姻状况、教育水平、性别、种族等)已被编码为数值形式,便于建模分析。
  3. 数据集适用于线性回归、逻辑回归等经典机器学习任务,同时也可作为深入研究收入不平等、职业发展等社会经济现象的起点。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 05:57 (UTC)
创建于 四月 15, 2025, 05:57 (UTC)