数据集

成人收入数据集

数据来源：互联网公开数据

标签：成人收入,线性回归,逻辑回归,职业分类,婚姻状况,教育水平,收入预测,分类编码

数据概述：

本数据集源于公开的成人收入数据集，经过处理和编码后形成，主要用于线性回归和逻辑回归分析。数据集包含了个人信息、职业、婚姻状况、教育水平等关键特征，以及收入是否超过50K美元的二元分类标签。数据集已对缺失值（NA值）进行了清理，去除约13%的原始数据，确保数据质量。此外，部分分类变量（如职业、婚姻状况、教育水平等）已被编码为数值形式，便于机器学习模型的训练和分析。

数据用途概述：

该数据集适用于以下场景：

收入预测分析：通过线性回归或逻辑回归模型，研究影响个人收入水平的因素，如职业、教育水平、婚姻状况等。
特征关系解读：分析不同分类特征（如职业、婚姻状况）与收入之间的关系，帮助理解哪些因素对收入有显著影响。
职业与收入关系研究：通过构建逻辑回归模型，探索特定职业组合与高收入（收入超过50K美元）之间的关系。
教育与收入关系研究：分析不同教育水平对收入的影响，为教育政策制定或职业规划提供参考。
社会学研究：研究婚姻状况、种族、性别等因素对收入的潜在影响，揭示社会经济现象。
机器学习教学与实践：作为经典数据集，广泛用于教学和项目实践，帮助学习者掌握数据预处理、特征编码、模型训练等技能。

数据字段定义：

以下是数据集中主要字段的描述：

年龄 (Age)：个人年龄，数值型特征。
工作类别 (Workclass)：个人工作类型，分类特征。
教育水平 (Education)：个人最高教育程度，分类特征。
教育年限 (Education-Num)：个人接受的教育年限，数值型特征。
婚姻状况 (Marital Status)：个人婚姻状态，分类特征，编码如下：
0: 离婚 (Divorced)
1: 军人配偶 (Married-AF-spouse)
2: 已婚 (Married-civ-spouse)
3: 失踪配偶 (Married-spouse-absent)
4: 未婚 (Never-married)
5: 分居 (Separated)
6: 丧偶 (Widowed)
职业 (Occupation)：个人职业类别，分类特征，编码如下：
0: 行政/文员 (Adm-clerical)
1: 军人 (Armed-Forces)
2: 手工艺/维修 (Craft-repair)
3: 高管/经理 (Exec-managerial)
4: 农业/渔业 (Farming-fishing)
5: 助理/清洁工 (Handlers-cleaners)
6: 机器操作/检验 (Machine-op-inspct)
7: 其他服务 (Other-service)
8: 家庭服务 (Priv-house-serv)
9: 专业/特殊技能 (Prof-specialty)
10: 保护服务 (Protective-serv)
11: 销售 (Sales)
12: 技术支持 (Tech-support)
13: 运输/搬运 (Transport-moving)
性别 (Gender)：个人性别，分类特征，编码如下：
0: 女性 (Female)
1: 男性 (Male)
种族 (Race)：个人种族，分类特征，编码如下：
0: 美洲原住民/因纽特人 (Amer-Indian-Eskimo)
1: 亚裔/太平洋岛民 (Asian-Pac-Islander)
2: 非裔 (Black)
3: 其他 (Other)
4: 白人 (White)
收入 (Income)：个人年收入是否超过50K美元，二元分类标签，编码如下：
0: 收入低于或等于50K美元
1: 收入高于50K美元

数据特征：

数据量：经过清理和编码，数据集包含约45,000条记录。
字段数量：数据集包含约15个字段，涵盖个人信息、职业、教育、婚姻状况、收入等多方面信息。
数据分布：收入字段为二元分类，数据集中收入高于50K美元的样本约占30%。

应用场景：

学术研究：用于社会学、经济学领域的研究，分析影响个人收入的因素。
商业应用：帮助企业制定招聘策略、薪酬体系，或进行客户收入预测。
教育与培训：作为经典数据集，用于机器学习课程的教学和项目实践。
政策制定：为教育政策、就业支持政策等提供数据支持，评估政策效果。

原始数据来源：

备注：

数据集中的缺失值（NA值）已被清理，占原始数据的约13%。
部分类别特征（如职业、婚姻状况、教育水平、性别、种族等）已被编码为数值形式，便于建模分析。
数据集适用于线性回归、逻辑回归等经典机器学习任务，同时也可作为深入研究收入不平等、职业发展等社会经济现象的起点。

数据与资源

成人收入数据集.zipZIP
0.59 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.59 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

成人收入数据集

数据与资源

附加信息

注册成功！