台湾信用卡违约预测数据集2005年-reeljojo
数据来源:互联网公开数据
标签:信用卡违约,预测模型,数据挖掘,客户信用,风险评估,台湾,机器学习
数据概述:
本数据集包含2005年4月至9月期间台湾地区客户的信用卡使用和还款记录,旨在研究客户的违约支付情况,并比较六种数据挖掘方法在预测违约概率方面的准确性。研究采用了“排序平滑法”来估计真实的违约概率,并通过简单线性回归分析发现,人工神经网络模型在预测违约概率方面表现最佳,具有最高的决定系数,回归截距接近零,回归系数接近一。
数据集包含24个字段,包括一个响应变量和23个解释变量:
- 响应变量:违约支付(是=1,否=0)
- 解释变量:
X1: 授信额度(新台币)
X2: 性别(1=男,2=女)
X3: 教育程度(1=研究生,2=大学,3=高中,4=其他)
X4: 婚姻状况(1=已婚,2=单身,3=其他)
X5: 年龄(岁)
X6-X11: 过去六个月的还款状态(-1=按时还款,1=延付1个月,2=延付2个月,...,8=延付8个月,9=延付9个月以上)
X12-X17: 过去六个月的账单金额(新台币)
X18-X23: 过去六个月的还款金额(新台币)
数据来源为UCI机器学习库,具有较高的权威性和实用性。
数据用途概述:
该数据集适用于信用风险评估、客户信用分析、违约预测模型开发等多种场景。金融机构可以利用此数据优化信用评估模型,提高风险控制能力;研究人员可以利用此数据进行算法比较和性能评估;教育机构可以将其作为数据分析和机器学习课程的教学素材。该数据集为相关领域的研究和实践提供了宝贵的数据支持。