个人信贷违约风险预测数据集PersonalCreditDefaultRiskPredictionDataset-arieljumba
数据来源:互联网公开数据
标签:信贷风险, 违约预测, 机器学习, 客户画像, 金融风控, 信用评分, 数据挖掘, 银行
数据概述:
该数据集包含来自信贷申请人的相关信息,用于预测个人信贷违约风险。主要特征如下:
时间跨度:数据未明确标注时间,可视为一段时间内的信贷申请记录快照。
地理范围:数据未明确标注地理位置,但从字段内容推测,可能来源于特定国家或地区。
数据维度:数据集包含大量特征,涵盖申请人的个人信息、财务状况、信贷历史等,主要包括:SK_ID_CURR(申请人ID)、TARGET(违约标签,1表示违约,0表示未违约)、NAME_CONTRACT_TYPE(贷款类型)、CODE_GENDER(性别)、FLAG_OWN_CAR(是否有车)、FLAG_OWN_REALTY(是否有房产)、CNT_CHILDREN(子女数量)、AMT_INCOME_TOTAL(年收入)、AMT_CREDIT(贷款额度)、AMT_ANNUITY(年金)、AMT_GOODS_PRICE(商品价格)、NAME_TYPE_SUITE(同住人类型)、NAME_INCOME_TYPE(收入类型)、NAME_EDUCATION_TYPE(教育程度)、NAME_FAMILY_STATUS(家庭状况)、NAME_HOUSING_TYPE(居住类型)、REGION_POPULATION_RELATIVE(居住地人口密度)、DAYS_BIRTH(出生日期)、DAYS_EMPLOYED(就业天数)、DAYS_REGISTRATION(注册天数)、DAYS_ID_PUBLISH(身份证件发布天数)、OWN_CAR_AGE(车龄)、FLAG_MOBIL(是否有手机)、FLAG_EMP_PHONE(是否有工作电话)、FLAG_WORK_PHONE(是否有住宅电话)、FLAG_CONT_MOBILE(是否使用移动电话)、FLAG_PHONE(是否有电话)、FLAG_EMAIL(是否有邮箱)、OCCUPATION_TYPE(职业类型)、CNT_FAM_MEMBERS(家庭成员数量)、REGION_RATING_CLIENT(居住地客户评级)、REGION_RATING_CLIENT_W_CITY(城市客户评级)、WEEKDAY_APPR_PROCESS_START(申请开始的星期)、HOUR_APPR_PROCESS_START(申请开始的小时)、REG_REGION_NOT_LIVE_REGION(居住地与注册地是否相同)、REG_REGION_NOT_WORK_REGION(工作地与注册地是否相同)、LIVE_REGION_NOT_WORK_REGION(工作地与居住地是否相同)、REG_CITY_NOT_LIVE_CITY(居住城市与注册城市是否相同)、REG_CITY_NOT_WORK_CITY(工作城市与注册城市是否相同)、LIVE_CITY_NOT_WORK_CITY(工作城市与居住城市是否相同)、ORGANIZATION_TYPE(组织类型)、EXT_SOURCE_1、EXT_SOURCE_2、EXT_SOURCE_3(外部数据源)、APARTMENTS_AVG(公寓平均值)、BASEMENTAREA_AVG(地下室面积平均值)、YEARS_BEGINEXPLUATATION_AVG(开始使用年份平均值)、YEARS_BUILD_AVG(建筑年份平均值)、COMMONAREA_AVG(公共区域平均值)、ELEVATORS_AVG(电梯平均值)、ENTRANCES_AVG(入口平均值)、FLOORSMAX_AVG(最高楼层平均值)、FLOORSMIN_AVG(最低楼层平均值)、LANDAREA_AVG(土地面积平均值)、LIVINGAPARTMENTS_AVG(居住公寓平均值)、LIVINGAREA_AVG(居住面积平均值)、NONLIVINGAPARTMENTS_AVG(非居住公寓平均值)、NONLIVINGAREA_AVG(非居住面积平均值)、APARTMENTS_MODE(公寓模式)、BASEMENTAREA_MODE(地下室面积模式)、YEARS_BEGINEXPLUATATION_MODE(开始使用年份模式)、YEARS_BUILD_MODE(建筑年份模式)、COMMONAREA_MODE(公共区域模式)、ELEVATORS_MODE(电梯模式)、ENTRANCES_MODE(入口模式)、FLOORSMAX_MODE(最高楼层模式)、FLOORSMIN_MODE(最低楼层模式)、LANDAREA_MODE(土地面积模式)、LIVINGAPARTMENTS_MODE(居住公寓模式)、LIVINGAREA_MODE(居住面积模式)、NONLIVINGAPARTMENTS_MODE(非居住公寓模式)、NONLIVINGAREA_MODE(非居住面积模式)、APARTMENTS_MEDI(公寓中位数)、BASEMENTAREA_MEDI(地下室面积中位数)、YEARS_BEGINEXPLUATATION_MEDI(开始使用年份中位数)、YEARS_BUILD_MEDI(建筑年份中位数)、COMMONAREA_MEDI(公共区域中位数)、ELEVATORS_MEDI(电梯中位数)、ENTRANCES_MEDI(入口中位数)、FLOORSMAX_MEDI(最高楼层中位数)、FLOORSMIN_MEDI(最低楼层中位数)、LANDAREA_MEDI(土地面积中位数)、LIVINGAPARTMENTS_MEDI(居住公寓中位数)、LIVINGAREA_MEDI(居住面积中位数)、NONLIVINGAPARTMENTS_MEDI(非居住公寓中位数)、NONLIVINGAREA_MEDI(非居住面积中位数)、FONDKAPREMONT_MODE(房屋修复模式)、HOUSETYPE_MODE(房屋类型模式)、TOTALAREA_MODE(总面积模式)、WALLSMATERIAL_MODE(墙体材料模式)、EMERGENCYSTATE_MODE(紧急状态模式)、OBS_30_CNT_SOCIAL_CIRCLE(30天内观察到的社交圈人数)、DEF_30_CNT_SOCIAL_CIRCLE(30天内观察到的违约社交圈人数)、OBS_60_CNT_SOCIAL_CIRCLE(60天内观察到的社交圈人数)、DEF_60_CNT_SOCIAL_CIRCLE(60天内观察到的违约社交圈人数)、DAYS_LAST_PHONE_CHANGE(最后一次电话号码变更的天数)、FLAG_DOCUMENT_2-21(各类文件标记)、AMT_REQ_CREDIT_BUREAU_HOUR(请求信用局的小时数)、AMT_REQ_CREDIT_BUREAU_DAY(请求信用局的天数)、AMT_REQ_CREDIT_BUREAU_WEEK(请求信用局的周数)、AMT_REQ_CREDIT_BUREAU_MON(请求信用局的月数)、AMT_REQ_CREDIT_BUREAU_QRT(请求信用局的季度数)、AMT_REQ_CREDIT_BUREAU_YEAR(请求信用局的年数)等。
数据格式:CSV格式,包含home_loan_train.csv(训练集)和home_loan_test.csv(测试集)两个文件,方便模型训练与评估。
该数据集适用于金融风控、信用风险评估、客户细分等领域。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于金融风险管理、信用评分建模、欺诈检测等领域的学术研究,如探索不同特征对违约风险的影响、构建更精准的信用评分模型等。
行业应用:为银行、消费金融公司、互联网金融平台等提供数据支持,特别是在贷款审批、风险定价、客户管理等方面。
决策支持:支持金融机构的风险管理决策,优化信贷策略,降低坏账率。
教育和培训:作为金融风控、数据挖掘、机器学习等课程的实训素材,帮助学生和从业人员掌握实际应用技能。
此数据集特别适合用于构建和评估信用违约预测模型,帮助用户提升风险管理能力,优化信贷业务流程。