Sanbercode最终项目-个人收入预测数据集

Sanbercode最终项目-个人收入预测数据集 数据来源:互联网公开数据 标签:收入预测,分类,机器学习,人口统计,工资,职业,教育,年龄,性别

数据概述: 本数据集旨在用于预测个人收入水平,基于一系列人口统计和职业相关特征。 数据集包含训练集 (train.csv) 和测试集 (test.csv),以及一个示例提交文件 (sample_submission.csv)。 目标是构建一个分类模型,预测“Gaji”(收入)列的值,该列的值基于以下规则进行转换:0 代表 Gaji 700万印尼盾。

数据字段说明:

id:每个样本的唯一标识符。 Umur (年龄):个人的年龄。 Kelas Pekerja (工作类别):个人所属的工作类别。 Berat Akhir (最终权重):根据 16 岁以上人口的累积值,考虑人口、种族、性别等因素。 来自具有相似人口统计特征的区域的样本将具有相同的最终权重。 Pendidikan (教育):个人的最高教育程度。 Jmlh Tahun Pendidikan (受教育年数):个人受教育的年数。 Status Perkawinan (婚姻状况):个人的婚姻状况。 Pekerjaan (职业):个人的当前职业。 Jenis Kelamin (性别):个人的性别。 Keuntungan Kapital (资本收益):如果个人出售其所有资产,所获得的资本收益。 Kerugian Kapital (资本损失):如果个人出售其所有资产,所遭受的资本损失。 Jam per Minggu (每周工作小时数):个人每周的工作小时数。 Gaji (收入):个人的收入水平,已转换为分类变量:0 ( 700万印尼盾)。

数据用途概述: 该数据集主要用于机器学习模型的训练和评估,特别是用于收入预测的分类任务。 参与者可以使用 train.csv 训练模型,并使用 test.csv 进行预测。 最终的提交文件应包含 "id" 和预测的 "Gaji" 列。 此外,该数据集也可用于探索不同人口统计特征与收入之间的关系,以及分析影响收入的各种因素。 适用于数据科学、机器学习、经济学等领域的研究和实践。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.59 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。