客户贷款违约风险预测竞赛数据集-2023年
数据来源:互联网公开数据
标签:贷款违约,风险预测,机器学习,金融风控,信用评分,客户行为,竞赛数据
数据概述:
本数据集是2023年分析学奥林匹克竞赛(Analytics Olympiad)中用于客户贷款违约风险预测的数据集。该数据集旨在帮助参赛者构建机器学习模型,预测客户在贷款中违约的可能性,从而降低金融机构的风险。数据集包含了客户的信用记录、还款行为以及账户详细信息等多种维度的数据。
数据字段包括:
客户信息:
customer_id:客户唯一标识符。
firstname:客户的姓氏。
lastname:客户的名字。
信用记录信息:
record_number:信用产品在信用历史中的序号。
days_since_opened:从信用开户日期到数据收集日期的天数。
days_since_confirmed:从信用信息确认日期到数据收集日期的天数。
primary_term:计划的信用开户日期到关闭日期的天数。
final_term:实际的信用开户日期到关闭日期的天数。
days_till_primary_close:从数据收集日期到贷款关闭日期的计划天数。
days_till_final_close:从数据收集日期到贷款关闭日期的实际天数。
loans_credit_limit:客户的贷款信用额度。
loans_next_payment_summary:下一笔贷款的还款额。
loans_outstanding_balance:未偿还贷款余额。
loans_max_overdue_amount:最大逾期金额。
loans_credit_cost_rate:与贷款相关的成本率。
贷款逾期信息:
loans_within_5_days to loans_over_90_days:不同时间范围内的逾期贷款数量。
is_zero_loans_within_5_days to is_zero_loans_over_90_days:不同时间范围内零逾期贷款的二元指示符。
信用利用率和限额信息:
utilization:信用利用率。
over_limit_count:客户超出信用额度的次数。
max_over_limit_count:客户超出信用额度的最大次数。
is_zero_utilization:信用利用率为零的二元指示符。
is_zero_over_limit_count:超限次数为零的二元指示符。
is_zero_max_over_limit_count:最大超限次数为零的二元指示符。
编码特征:
encoded_payment_X:关于付款X的编码信息(分类特征转换为数值)。
encoded_loans_account_holder_type:关于贷款账户持有者类型的编码信息。
encoded_loans_credit_status:关于贷款信用状态的编码信息。
encoded_loans_credit_type:关于贷款信用类型的编码信息。
encoded_loans_account_currency:关于贷款使用的货币的编码信息。
关闭标志:
primary_close_flag:主要期限关闭的二元指示符。
final_close_flag:最终期限关闭的二元指示符。
数据用途概述:
该数据集主要用于机器学习模型的开发和评估,旨在预测客户的贷款违约风险。 适用于金融机构进行风险评估、信用评分模型构建、贷款审批流程优化等场景。 参赛者可利用该数据集探索特征工程、模型选择、模型调优等技术,以提高贷款违约预测的准确性。 此外,该数据集也适用于学术研究,用于探索信用风险管理、客户行为分析等领域。