世界收入数据集

世界收入数据集

数据来源:互联网公开数据

标签:收入预测,人口统计,社会经济研究,二分类问题,数据挖掘,决策树模型,机器学习

数据概述: 本数据集为美国人口普查收入数据集的扩展版本,包含48,842条记录,涵盖15个字段。数据集的目标是根据个人的年龄、教育水平、职业、婚姻状况、种族等特征,预测其年收入是否超过50,000美元(二分类问题:50K)。每个字段的详细定义如下: 1. age:个人年龄(连续值)。 2. workclass:就业类型(分类值,如“Private”、“Self-emp-not-inc”、“State-gov”等)。 3. fnlwgt:最终权重,代表该观测值所代表的人口数量(连续值)。 4. education:最高教育水平(分类值,如“Bachelors”、“HS-grad”、“11th”等)。 5. education-num:教育水平的数值表示(如“Bachelors”对应13)。 6. marital-status:婚姻状况(分类值,如“Married-civ-spouse”、“Never-married”等)。 7. occupation:职业(分类值,如“Adm-clerical”、“Exec-managerial”、“Handlers-cleaners”等)。 8. relationship:家庭关系(分类值,如“Husband”、“Wife”、“Not-in-family”等)。 9. race:种族(分类值,如“White”、“Black”等)。 10. sex:性别(二分类值:“Male”、“Female”)。 11. capital-gain:上一年度的资本收益(连续值)。 12. capital-loss:上一年度的资本损失(连续值)。 13. hours-per-week:每周工作小时数(连续值)。 14. native-country:国籍(分类值,如“United-States”、“Cuba”等)。 15. income:个人年收入(目标变量,二分类值:50K)。

数据用途概述: 该数据集适用于多种社会经济研究和机器学习应用场景,主要包括: 1. 收入预测模型构建:通过分析个人特征与收入之间的关系,构建预测模型,评估不同因素对收入的影响。 2. 社会经济分析:研究不同人口群体的收入分布情况,分析影响收入的关键因素,如教育水平、职业类型、性别、种族等。 3. 精准营销:企业可以根据收入预测结果,针对不同收入群体制定精准的营销策略。 4. 政策制定:政府机构可基于收入数据,制定更有效的社会福利政策,帮助低收入人群改善生活状况。 5. 机器学习算法测试:数据集的二分类特性使其成为测试和验证机器学习算法(如决策树、逻辑回归、随机森林等)的理想数据集。 6. 数据挖掘研究:研究人员可以使用该数据集探索不同特征之间的关联,发现隐藏的模式和趋势,为后续研究提供参考。

总体而言,该数据集为研究个人收入水平及其影响因素提供了丰富的信息基础,适用于学术研究、商业应用以及机器学习算法开发等多种场景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.6 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。