数据集

世界收入数据集

数据来源：互联网公开数据

标签：收入预测,人口统计,社会经济研究,二分类问题,数据挖掘,决策树模型,机器学习

数据概述：本数据集为美国人口普查收入数据集的扩展版本，包含48,842条记录，涵盖15个字段。数据集的目标是根据个人的年龄、教育水平、职业、婚姻状况、种族等特征，预测其年收入是否超过50,000美元（二分类问题：50K）。每个字段的详细定义如下： 1. age：个人年龄（连续值）。 2. workclass：就业类型（分类值，如“Private”、“Self-emp-not-inc”、“State-gov”等）。 3. fnlwgt：最终权重，代表该观测值所代表的人口数量（连续值）。 4. education：最高教育水平（分类值，如“Bachelors”、“HS-grad”、“11th”等）。 5. education-num：教育水平的数值表示（如“Bachelors”对应13）。 6. marital-status：婚姻状况（分类值，如“Married-civ-spouse”、“Never-married”等）。 7. occupation：职业（分类值，如“Adm-clerical”、“Exec-managerial”、“Handlers-cleaners”等）。 8. relationship：家庭关系（分类值，如“Husband”、“Wife”、“Not-in-family”等）。 9. race：种族（分类值，如“White”、“Black”等）。 10. sex：性别（二分类值：“Male”、“Female”）。 11. capital-gain：上一年度的资本收益（连续值）。 12. capital-loss：上一年度的资本损失（连续值）。 13. hours-per-week：每周工作小时数（连续值）。 14. native-country：国籍（分类值，如“United-States”、“Cuba”等）。 15. income：个人年收入（目标变量，二分类值：50K）。

数据用途概述：该数据集适用于多种社会经济研究和机器学习应用场景，主要包括： 1. 收入预测模型构建：通过分析个人特征与收入之间的关系，构建预测模型，评估不同因素对收入的影响。 2. 社会经济分析：研究不同人口群体的收入分布情况，分析影响收入的关键因素，如教育水平、职业类型、性别、种族等。 3. 精准营销：企业可以根据收入预测结果，针对不同收入群体制定精准的营销策略。 4. 政策制定：政府机构可基于收入数据，制定更有效的社会福利政策，帮助低收入人群改善生活状况。 5. 机器学习算法测试：数据集的二分类特性使其成为测试和验证机器学习算法（如决策树、逻辑回归、随机森林等）的理想数据集。 6. 数据挖掘研究：研究人员可以使用该数据集探索不同特征之间的关联，发现隐藏的模式和趋势，为后续研究提供参考。

总体而言，该数据集为研究个人收入水平及其影响因素提供了丰富的信息基础，适用于学术研究、商业应用以及机器学习算法开发等多种场景。

数据与资源

世界收入数据集.zipZIP
0.60 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.6 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

世界收入数据集

数据与资源

附加信息

注册成功！