基于二分类LR的个人信贷违约风险评估
来源:用户上传
作者:
摘 要: 本文采用阿里云网站天池实验室中的公开部分个人信贷面板数据资料,利用STATA软件实现二分类Logistics Regression建模,对个人信贷信用风险进行了研究。研究结果显示:该模型的拟合能力较好,对违约的识别正确率较高,达到80.26%。在0.95的置信区间内,工龄、信用卡负债和负债率对信用违约风险有显著的影响,而其他的因素的影响不是很明显。借款公司可借助该模型评估贷款客户的违约风险,改善贷款的质量。
关键词: 信用风险;STATA软件;Logistic模型
中图分类号: O212.4;TP39 文献标识码: A DOI:10.3969/j.issn.1003-6970.2020.08.044
本文著录格式:李新华,余开朝,凌灵. 基于二分类LR的个人信贷违约风险评估[J]. 软件,2020,41(08):165-167
【Abstract】: The published personal credit panel data in tianchi laboratory of aliyun website were used to study the credit risk of personal credit in this paper, and a dichotomy Logistics Regression model was implemented by using STATA software. The results show that the model has a good fitting ability and a high recognition accuracy of default (80.26%). Within the confidence interval of 0.95 years of service, credit card debt and debt ratio had significant effects on credit default risk, while other factors were less significant. Loan companies can use this model to evaluate the default risk of loan customers and improve the quality of loans.
【Key words】: The credit risk; STATA software; Logistic model
0 引言
随着我国经济体制和政策不断改革创新,信用经济和市场得到了迅速的发展和开放。另一方面,互联网不断创新发展,广泛普及,使得各种网贷平台应运而生,由于其便利和受众广等因素受到客户的认可。但我国相关的经济政策仍需不断的完善,公众信用素养需进一步提高,信用经济和市场需稳定和发展。对于借贷而言,由于借贷双方之间的信息不对称性、不透明性,借款人违约的风险增加。因此,信用风险评估受到各界的关注。建立行之有效的评估模型和体系,对相关的信用数据进行科学研究,来降低风险,提高贷款质量。本文利用阿里云网站天池实验室中的公开部分个人信贷数据资料,采用二分类LR(Logistics Regression,LR)模型,识别主要影响因素,为借贷方开展信贷业务,评估违约风险提供一定的参考。
信用风险评估的研究可从定性化和定量化来进行,王颖基于模糊综合评价模型对农户信贷风险进行评估[1]、宋丽平等人建立BP神经网络模型预测P2P网贷风险[1]、王华松基于贝叶斯网络建立信用评估模型[2]和罗方科等人对广大银行某分行的信贷风险进行评估[3]。席卫华用LR模型设计废旧物资处理系统[5]。关于LR模型使用的研究表明,LR模型因为限制条件较少,便于操作,预测性较好等原因,使用较为广泛,可在信贷违约风险评估上取得良好的效果。
1 LR模型简介
LR分析,作为一种广义的线性模型,用途比较广泛。根据因变量的类型,模型中的可以分为多分类LR和常用的二分类LR。LR不局限在类条件概率服从Normal Distribution,也不要求等协方差等作为前提假设,只需要类条件概率服从Exponential Family of Distributions,可知該回归模型的鲁棒性较强,而对于最佳回归系数,则使用最大似然法来确定。
2 基于二分类LR的个人信贷风险评估模型
2.1 数据变量处理
为建立二分类LR的个人信贷风险评估模型,作者采用阿里云天池实验室中的公开部分个人信贷面板数据作为实证数据来源,其中包含有效数据699条,因页面有限,仅展示部分数据如表1,其主要变量包括:年龄、教育、工龄、收入、负债率、信用卡负债和其他负债为自变量,违约作为因变量(1为违约,0为不违约),变量对应的量化或编码如表2所示。
2.2 模型的建立
采用STATA软件进行二分类LR计算,考虑到在置信区间内,自变量对结果是否存在明显影响,本文采用逐步后退法对其进行回归,剔除变量过程如图2,最终得到回归OR值、回归系数、标准差、显著性水平等结果如图3,可得违约的LR方程可以表示为。
自变量工龄、信用卡负债和其他负债对应的OR值分别为0.783703、1.646704和1.092159。对于自变量的假设性检验,结果可以看出工龄(P=0.0000)、信用卡负债(P=0.0000)和负债率(P=0.0000)对违约有明显的影响,对应的回归系数为–0.2437251,0.498776和0.0881566,常数项的回归系数为–1.229872。即工龄的系数为负,表示该变量对违约有负向的影响,该变量在定义范围内越大违约风险越低,反知信用卡负债和负债率对违约有正向的影响,该变量越大违约风险越大。LR逐步回归过程中,剔除P值比0.05大的因变量,可知年龄、教育、其他负债和收入对违约在95%的置信区间内,无明显的影响。 2.3 模型的检验
为进一步评估LR模型(3)的科学合理性和预测的效果,利用以下检验方法对其进行检验和分析。
(1)拟合优度检验:利用拟合优度来评估预测结果与实际结果的效果,在STATA软件中运用lfit命令进行检验,结果如图4:可知拟合优度的P值为0.9720,即回归模型与观测值之间的拟合程度是比较高的,可以认为建立的回归模型是合理的。
(2)交叉验证:在STATA软件中利用lstat命令进行交叉验证,结果如图5:可知模型的敏感性为45.60%、特异性为92.46%,LR模型的阳性、阴性预测值分别为68.03%、82.84%,总的结果预测分类正确率为80.26%。
(3)灵敏度和特性度图检验:利用STATA中的lsens命令绘制出灵敏度、特异度的关系图(如图6所示),可以更直观地看出二者与切分点的关系和位置。其灵敏度和特异度的相交点对应的P值约为0.3,得知以此为分割点可得到最佳得结果。
ROC检验:利用STATA中的lroc命令绘制出本回归模型的ROC曲线(图7所示),且其曲线下面积AUC值为0.8421,说明用该模型预测具有一定的准确性。
3 结论
在目前的研究基础上,利用STATA软件对个人信贷违约风险数据进LR回归,可得以下主要结论:确定的回归模型可以用于初步的违约风险评估,具有一定的科学合理性。其中有显著影响因素是工龄的长短、信用卡负债的高低和负债率的大小,而且工龄的长短对违约有着负向影响,工龄越大则违约风险越小;信用卡负债越高和负债率越小则违约风险越大。由于收集的资料有限,考虑的因素不够全面,可能影响评估结果。
参考文献
[1] 王颖. 中国农户小额信贷信用风险评估研究——基于模糊综合評价模型[J]. 西南金融, 2010(8): 60-62.
[2] 宋丽平, 张利坤, 徐玮. P2P网络借贷个人信用风险评估[J]. 财会月刊, 2015(35): 94-96.
[3] 王华松. 基于贝叶斯网络的SVM客户信用评估模型研究[D]. 辽宁工程技术大学, 2017.
[4] 罗方科, 陈晓红. 基于Logistic回归模型的个人小额贷款信用风险评估及应用[J]. 财经理论与实践, 2017, 38(1): 30-35.
[5] 席卫华. 基于多因素Logistic回归分析的废旧物资处理系统设计与实现[J]. 软件, 2018, 39(9): 188-193.
转载注明来源:https://www.xzbu.com/8/view-15321592.htm