房贷预测数据集
数据来源:互联网公开数据
标签:房贷预测,机器学习,特征工程,分类模型,数据预处理,数据清洗,数据标准化,贷款风险评估
数据概述:
本数据集为房贷预测竞赛(AI511-HOMELOAN-2022)准备的标准化数据集,包含4对文件,每对文件包括训练集和测试集。数据集经过不同程度的预处理,适用于不同研究和建模需求。
具体文件说明:
1. train_with_new_features.csv
和 test_with_new_features.csv
:包含所有新特征,未进一步处理,适合进行缺失值填充和特征缩放的自定义实验。
2. train_scaled_no_nulls.csv
和 test_scaled_no_nulls.csv
:所有新特征已添加,缺失值通过中位数(数值特征)和众数(类别特征)填充,数值特征已进行归一化处理,适合进行类别特征编码实验。
3. train_le_scaled_no_nulls.csv
和 test_le_scaled_no_nulls.csv
:在上述处理基础上,类别特征通过标签编码(Label Encoding)处理。注意部分类别在训练集和测试集中存在差异,差异类别编码为-1。
4. train_ohe_scaled_no_nulls.csv
和 test_ohe_scaled_no_nulls.csv
:与上述文件相同,但类别特征通过独热编码(One-Hot Encoding)处理。
新增特征说明:
- loan_rate
:贷款利率,由贷款总额与月还款额的比率计算得出,反映贷款期限。
- loan_income_ratio
:贷款收入比,由贷款总额与总收入的比率计算得出,反映申请人承担的负债规模。值越大表示申请人负债越高。
- annuity_income_ratio
:月还款收入比,由月还款额与总收入的比率计算得出,反映申请人每月的还款压力。
- application_is_incomplete
:标识申请人是否提交了不完整的申请。
- es1_is_missing
:标识外部数据源1是否缺失。
- es3_is_missing
:标识外部数据源3是否缺失。
此外,在最后两对文件的训练集中,新增了通过分层K折交叉验证生成的kfold
列,方便进行模型验证实验。
数据用途概述:
该数据集适用于房贷风险评估、贷款审批决策、客户资质分析等场景。研究人员可利用此数据集进行机器学习模型训练、特征工程研究、分类算法评估等。数据集也适合用于教学和竞赛,帮助学习者理解房贷预测模型的构建和优化过程。