Sanbercode最终项目-个人收入预测数据集
数据来源:互联网公开数据
标签:收入预测,分类,机器学习,人口统计,工资,职业,教育,年龄,性别
数据概述:
本数据集旨在用于预测个人收入水平,基于一系列人口统计和职业相关特征。 数据集包含训练集 (train.csv) 和测试集 (test.csv),以及一个示例提交文件 (sample_submission.csv)。 目标是构建一个分类模型,预测“Gaji”(收入)列的值,该列的值基于以下规则进行转换:0 代表 Gaji 700万印尼盾。
数据字段说明:
id:每个样本的唯一标识符。
Umur (年龄):个人的年龄。
Kelas Pekerja (工作类别):个人所属的工作类别。
Berat Akhir (最终权重):根据 16 岁以上人口的累积值,考虑人口、种族、性别等因素。 来自具有相似人口统计特征的区域的样本将具有相同的最终权重。
Pendidikan (教育):个人的最高教育程度。
Jmlh Tahun Pendidikan (受教育年数):个人受教育的年数。
Status Perkawinan (婚姻状况):个人的婚姻状况。
Pekerjaan (职业):个人的当前职业。
Jenis Kelamin (性别):个人的性别。
Keuntungan Kapital (资本收益):如果个人出售其所有资产,所获得的资本收益。
Kerugian Kapital (资本损失):如果个人出售其所有资产,所遭受的资本损失。
Jam per Minggu (每周工作小时数):个人每周的工作小时数。
Gaji (收入):个人的收入水平,已转换为分类变量:0 ( 700万印尼盾)。
数据用途概述:
该数据集主要用于机器学习模型的训练和评估,特别是用于收入预测的分类任务。 参与者可以使用 train.csv 训练模型,并使用 test.csv 进行预测。 最终的提交文件应包含 "id" 和预测的 "Gaji" 列。 此外,该数据集也可用于探索不同人口统计特征与收入之间的关系,以及分析影响收入的各种因素。 适用于数据科学、机器学习、经济学等领域的研究和实践。