基于PSO的个人信用评估组合预测模型
作者 :  殷 爽 姜明辉

  摘要:将组合预测模型用于个人信用评估,在两种单一统计模型的基础上,利用粒子群算法(PSO)求解组合模型的权重,并通过粒子适应度函数的设置来控制第二类误判的发生,构建了基于PSO的组合预测模型。应用结果表明,基于PSO的组合预测模型的分类精度高于单一统计模型,并且有效降低了第二类误判率,对于商业银行控制信用风险具有更好的适用性。
  关键词:粒子群算法;组合预测;个人信用评估
  中图分类号:F832.479文献标志码:A文章编号:1673-291X(2008)14-0083-04
  
  随着我国消费信贷市场的迅速发展,个人信用评估的作用日益增强。对于商业银行而言,个人信用评估就是通过考察反映消费信贷申请者的各种指标,对其按时还款的可能性进行全面的判断和评估,从而作出是否放贷的决定。在西方发达国家,对于个人信用评估方法的研究不断发展而且日趋成熟,许多方法被应用到个人信用评估领域[1],包括线性回归、Logistic回归等统计方法以及以神经网络为代表的人工智能方法等。我国现阶段仍未建立起完善的个人征信体系,各商业银行没有一套科学合理的个人信用评估方法,这种状况严重制约着我国消费信贷的发展。因此,建立适合我国国情的个人信用评估模型是很有意义的。本文将组合预测模型用于个人信用评估,并利用粒子群算法[2](Particle Swarm Optimization,PSO)来求解模型中的权重,建立基于PSO算法的组合预测模型,并与单一模型进行对比,考察模型的适用性。
  
  1理论背景及模型构建思路
  
  1.1组合预测的基本原理
  组合预测是将各种预测加权重组而得到结果,Clemen曾指出,组合预测将成为预测研究的主流之一[3]。在组合预测理论中,按照集结各单项预测模型的方式大致可分为线性组合和非线性组合,其中,线性组合预测模型是研究最多、应用最广泛的[4]。线性组合预测的基本原理如下:
  1.2基本PSO算法
  1.3模型构建思路
  个人信用评估本质上是模式识别中的一类分类问题,将消费信贷申请者划分为能够按期还本付息和违约两类,从而作出接受或拒绝其信贷申请的决定。在信用评估的实践中通常存在着两类误判:第一类误判是将信用好的客户误判为信用差从而拒绝其贷款申请;第二类误判是将信用差的客户误判为信用好从而接受其贷款申请。一般来说,在银行和其他金融机构的实际操作中,后者给银行造成的损失更大。因此,运用模型进行个人信用评估时,在提高分类精度的同时,应当尽量控制第二类误判的发生。
  本文在个人信用评估中利用线性回归和Logistic回归两种统计方法分别建立单一预测模型,进一步构建基于二者的线性组合预测模型。在权重的求解上,本文尝试采用PSO算法搜索一组权重,为了使组合预测模型能够有效地控制第二类误判发生,通过粒子的适应度函数的设置使PSO算法向第二类误判降低的方向进行权重的搜索。最后通过与单一模型的分类效果进行对比,考察基于PSO算法的组合模型的适用性。
  
  2样本数据及预处理
  
  2.1样本数据
  本文所使用的数据来自深圳某商业银行的消费信贷数据库。分类(是否违约)的标准根据“违约次数”,即在分期偿付贷款时出现还款滞后或还款金额不足的次数进行判定。在国外的实践中,一般认为在上一年中违约次数超过4次,则认为该客户具有较强的违约倾向。本文采用相对严格的分类方法,即只要该违约次数大于0,就定义为违约。同时,将属性缺失较严重的指标剔出,最终选择的数据中包含10个解释指标,这些指标及量化方法列于文尾表1。
  对于这些数据,本文选择分层抽样的方法,将样本分为违约和未违约两类,为了降低数据不均衡对模型分类能力的影响,选择使两类样本个数近似相等。按照上述步骤,最终选择1 057个数据用于模型的建立和测试,并将其随机分为两部分:一部分528个样本,包括257个违约样本和271个未违约样本用于建立模型;另一部分529个样本,包括248个违约样本和281个未违约样本,用于测试模型的分类效果。
  2.2数据的归一化处理
  为了消除量纲的影响以及降低数据不均衡对模型分类能力的影响,本文首先将训练数据和测试数据进行归一化处理。对于本文所采用的10个解释指标,将其分成离散型变量和连续型变量两组。
  
  3模型的构建及应用
  
  3.1单一统计模型
  作为组合预测模型建立的基础,本文首先分别建立线性回归和Logistic回归模型。
  线性回归要求解释变量的分布只有服从一定的前提条件,才能得到较好的结果。在这些前提条件中,一个重要的假定就是解释变量之间不存在较强的相关性,即不存在多重共线性。因此,本文利用SPSS软件建立线性回归模型,为了消除解释变量之间的共线性对模型的影响,变量进入模型的方法选择逐步进入(stepwise)法,得到的结果为:
  回归方程调整的R2为0.651,对式(6)的系数进行t检验以及对式(6)进行F检验,结果均表明回归方程有效。将回归方程用于测试样本,并以0.5作为分类界限,即如果预测结果大于0.5,则将其判为未违约类,否则判为违约类,得到的预测分类结果列于表2。线性回归应用于个人信用评估存在着一个缺点就是:回归方程的右边取值可以从-∞到+∞,但等式的左边是一个概率,其取值范围只能在(0,1)区间内。如果等式左边变换成p的一个函数,它可以取任意值,则模型会更有意义[1]。Logistic回归正是在线性回归的基础上产生的。将概率p进行Logit变换,即y=ln,就克服了线性回归的上述缺点。利用SPSS建立Logistic回归模型,变量筛选的方法选择Backward: conditional(以假定参数为基础作似然比概率检验,向后逐步选择自变量)的方法,本文得到的Logistic回归方程为:
  其中:分别表示未违约和违约样本总数;y和y分别表示网络的实际输出和期望输出;M是一个放大系数,是为了保证适应度的变化比较明显,这里取为100;k是一个变量,为了控制个人信用评估中造成损失较大的第二类误判,本文将其设置为大于1的常数,引导种群向第二类误判降低的方向进化,如果k取值过大,虽然会降低第二类误判,但会使第一类误判增加,从而造成总的误判增加。通过对不同数值的试验,最终模型中k取为10。
  将线性回归与Logistic回归模型在建模样本上的预测结果作为输入向量,建立基于PSO算法的组合预测模型,PSO算法在权重搜索过程中,其最优粒子所对应的适应度函数值的变化如右图1所示。
  PSO算法经过500次的迭代,搜索得到的最优权重为
  因此,本文求得的组合预测模型为
  将线性回归和Logistic回归模型在测试样本上的预测结果代入组合模型(14),并以0.5作为分类界限,得到的预测分类结果见下页表2。
  
  4结果分析
  
  下面分别从分类精度与两类误判两方面进行单一模型与基于PSO算法的组合预测模型的对比分析。
  从分类精度的对比可以看出,在建模样本和测试样本上,基于PSO算法的组合预测模型高于线性回归和Logistic回归模型,说明组合模型由于结集了各种单一模型的优点,用于个人信用评估中较单一模型具有优势。
  从两类误判的对比可以看出,在建模样本和测试样本上,组合预测模型在第一类误判方面得到了与Logistic回归相同的结果,高于线性回归模型。但在第二类误判方面,组合模型是三者中最低的,有效地降低了第二类误判的发生。两种单一统计模型的第二类误判都高于第一类误判,说明在实际中违约类客户的特征较未违约类客户的特征更为复杂,但通过PSO算法中粒子的适应度函数的设置,在第一类误判没有增加的情况下,实现了第二类误判的进一步降低,说明本文中PSO算法的适应度函数的设置是有效的,对于实践中规避信用风险的要求具有更好的适用性。
  
  5结论
  
  本文将组合预测模型用于个人信用评估,在构建线性回归和Logistic回归两种单一统计模型的基础上,构建了基于PSO算法的组合预测模型,利用PSO算法的全局搜索能力求解组合预测模型的权重,并利用粒子的适应度函数来控制第二类误判的发生。通过实证研究,本文得出以下结论:(1)组合预测模型的分类精度高于两种单一统计模型,因此,从提高分类精度的角度考虑,运用组合预测模型进行个人信用评估是具有优势的。(2)通过PSO算法中粒子的适应度函数的设置,组合模型在第一类误判没有增加的情况下,实现了第二类误判的进一步降低,对于商业银行控制信用风险的意义更为重要。
  
  参考文献:
  [1]Lyn C. Thomas. A Survey of Credit and Behavioral Scoring: Forecasting Financial Risk of Lending to Consumers [J]. International
  Journal of Forecasting, 2000,(16):149-172.
  [2]Kennedy J, Eberhart R C. Particle Swarm Optimization[A]. Proceedings of IEEE International Conference on Neural Networks
  [C].Perth: IEEE Piscataway, 1995:1942-1948.
  [3]Clemen R T. Combining forecasts: A review and annotated bibliography[J]. International Journal of Forecasting, 1989, (5): 559-
  583.
  [4]马永开,唐小我.线性组合预测模型优化问题研究[J].系统工程理论与实践,1998,(9):110-115.
  [5]Shi Y H, Eberhart R C. Parameter Selection in Particle Swarm Optimization [A]. Proceedings of the Seventh Annual Conf. on
  Evolutionary Programming [C]. New York: Springer-Verlag, 1998: 591-601.
  [6]Shi Y H, Eberhart R C. A Modified Particle Swarm Optimizer [A]. IEEE International Conference on Evolutionary Computation
  [C]. Anchorage, Alaska: IEEE Press, 1998:69-73.
  [7]周家林,段正澄,邓建春,等.基于粒子群算法的神经网络优化及其在镗孔加工中的应用[J]. 中国机械工程,2004,15(21):
  1927-1929.
  [8]Shi Y H, Eberhart R C. Empirical study of particle swarm optimization [A]. Proceedings of Congress on Evolutionary Computation
  [C]. Piscataway: IEEE Service Center, 1999:1945-1950.
  Combining Forecast Model Based on PSO for Personal Credit Scoring
  YIN Shunag, JIANG Ming-hui
  (Administration College, Harbin Institute of Technology, Harbin 150001, China)
  Abstract: This paper used combining forecast model for personal credit scoring. Based on two statistical models, this paper constructed a combining forecast model using particle swarm optimization (PSO) to search the combining model's weights and using particle's fitness function to control the type II error rate. The application results indicate that the combining forecast gets higher accuracy with lower type II error rate on training samples and testing samples. The combining forecast model based on PSO presents more applicable for commercial banks to control the credit risk.
  Key words: particle swarm optimization; combining forecast; personal credit scoring

文秘写作 期刊发表