数据集

Sanbercode最终项目-个人收入预测数据集

Sanbercode最终项目-个人收入预测数据集数据来源：互联网公开数据标签：收入预测,分类,机器学习,人口统计,工资,职业,教育,年龄,性别

数据概述：本数据集旨在用于预测个人收入水平，基于一系列人口统计和职业相关特征。数据集包含训练集 (train.csv) 和测试集 (test.csv)，以及一个示例提交文件 (sample_submission.csv)。目标是构建一个分类模型，预测“Gaji”（收入）列的值，该列的值基于以下规则进行转换：0 代表 Gaji 700万印尼盾。

数据字段说明：

id：每个样本的唯一标识符。 Umur (年龄)：个人的年龄。 Kelas Pekerja (工作类别)：个人所属的工作类别。 Berat Akhir (最终权重)：根据 16 岁以上人口的累积值，考虑人口、种族、性别等因素。来自具有相似人口统计特征的区域的样本将具有相同的最终权重。 Pendidikan (教育)：个人的最高教育程度。 Jmlh Tahun Pendidikan (受教育年数)：个人受教育的年数。 Status Perkawinan (婚姻状况)：个人的婚姻状况。 Pekerjaan (职业)：个人的当前职业。 Jenis Kelamin (性别)：个人的性别。 Keuntungan Kapital (资本收益)：如果个人出售其所有资产，所获得的资本收益。 Kerugian Kapital (资本损失)：如果个人出售其所有资产，所遭受的资本损失。 Jam per Minggu (每周工作小时数)：个人每周的工作小时数。 Gaji (收入)：个人的收入水平，已转换为分类变量：0 ( 700万印尼盾)。

数据用途概述：该数据集主要用于机器学习模型的训练和评估，特别是用于收入预测的分类任务。参与者可以使用 train.csv 训练模型，并使用 test.csv 进行预测。最终的提交文件应包含 "id" 和预测的 "Gaji" 列。此外，该数据集也可用于探索不同人口统计特征与收入之间的关系，以及分析影响收入的各种因素。适用于数据科学、机器学习、经济学等领域的研究和实践。

数据与资源

Sanbercode最终项目-个人收入预测数据集.zipZIP
0.59 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.59 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Sanbercode最终项目-个人收入预测数据集

数据与资源

附加信息

注册成功！