一种全新的两阶段个人信用评分方法探究
来源:用户上传
作者: 杨 彬 李育林 张浩智
摘要:目前我国还没有一套规范的个人信用评分指标体系和方法。本文利用真实的个人消费信贷数据,首先建立了个人信用评分的多元线性判别分析模型和BP神经网络模型,然后将线性判别分析模型的结果与其它变量一起作为输入变量建立了混合两阶段个人信用评分模型。实证研究表明,混合两阶段个人信用评分模型相对于前两种单一模型能同时满足预测精度和稳健性的双重要求,从而,突破了通常应用单一模型于个人信用评分领域的局限。
关键词:个人信用评分;判别分析;神经网络;两阶段模型
中图分类号:F830.589文献标识码:A文章编号:1006―1428(2010)04―0090―06
一、研究综述
对个人信用评分模型优劣程度的评价,通常从三个方面进行分析。(1)模型预测的精度,指预测的精确性,即模型是否能较好地对实际的违约情况作出判断;(2)模型预测的稳健性,指模型对训练样本数据以外样本的预测能力;(3)模型的可解释性,指模型中特征变量有较好的解释意义。以往的理论及实证研究都较多地关注个人信用评分模型预测的精度,因为预测精度对信贷机构的损益有很大的影响。然而,我国经济正处在转轨时期,消费市场环境变化十分迅速,加上个体之间差异比较大。因此。要求个人信用评分模型还必须具有较高的稳健性。
在过去的个人信用评分模型研究中。对单一模型如判别分析法(Discriminant Analysis)、回归分析法(Regression Analysis)、数学规划法(Mathematical Pro-gramming)、神经网络法(Neural Network)以及分类树法等的研究都比较多,并取得一定的成就,这些模型虽各有千秋,但很少能同时满足预测精度和稳健性的双重要求。
在国外,Bates J.M.和Granger C.W.J.(1969)首次对组合预测方法进行了系统研究。所谓组合预测方法(combination forecasting)就是设法将不同的预测模型组合起来,综合利用各种预测方法所提供的信息,以适当的加权平均形式得出组合预测模型,以提高预测性能。Granger和Ramanathan(1984)使用最小二乘法对单个模型进行回归,这种方法的优势在于可以保证组合后的模型无偏,而不用满足单个模型的无偏性前提。Zhu Beling and Overstreet(1999)考查了一组汽车贷款样本的组合评分问题。利用申请信息样本建立信用评分模型S1,再从信用局取得这些客户的信用局评分S2,然后利用两种评分构造了一个组合评分SC=A0+A1S1+A2S2。其研究结果表明,只要组合系数设置得当,组合模型评分就可能优于单个模型评分。此外,在摩根大通银行(Morgan Chase,2002)的一个住房按揭行为评分模型中,FICO评分被作为Logistic回归模型的解释变量之一以提高模型的预测精度。在国内,利用组合预测方法研究个人信用评分的人比较少。
纵观国内外对个人信用评估的研究成果,可以看出。国外主要是以预测的精度、错分率作为评价模型好坏的标准,由于仅仅依靠同一样本对不同方法进行优劣分析,而缺乏不同样本之间的比较,导致对模型稳健性的考查不够充分:同时,对于各个模型组合的孰优孰劣,尚缺乏成熟的技术能够进行比较。国内个人信用评分的研究落后于发达国家,尤其是在评分方法研究方面,由于目前我国还没有制订出一套基本的个人信用评分指标体系,所以对这方面的研究仅限于理论,而很少利用实际的样本数据对指标和模型进行实证研究。
因而,利用真实的样本数据建立个人信用评分模型并进行实证研究。以同时提高其精确性和稳健性就具有重要的理论价值和现实意义。
二、本文提出的方法
本文以个人信用理论为基础,分析个人信用评估的现状和相关信用评分模型的优缺点,提出一个基于判别分析和神经网络的混合两阶段个人信用评分模型,旨在改进多元线性判别分析模型和神经网络模型。以提高模型在实际应用中的精确性和稳健性。
判别分析被认为是在分类模型领域应用最为广泛的统计技术之一,基本思想是根据历史累积样本建立数学模型。并对新样本发生某种事件的可能性进行预测的方法。其原理是根据预测变量的属性值,寻找出这些预测变量的最佳线性组合。从而以最优的精度将研究对象的总体划分成两个或多个部分。但是,为了达到较好的性能,即将好(不违约)客户误判为坏(违约)客户或将坏客户误判为好客户的概率最小,判别分析需要满足较严格的前提假设条件:样本独立。样本为多元正态分布,样本等协方差。
人工神经网络是模仿人脑和神经系统的结构而产生的,它具有类似人脑功能的若干基本特征。具有大规模并行处理、自学习、自组织、自适应等能力,能独立处理复杂的非线性问题,不限于严格的前提假设条件。将该方法应用于风险管理中。能够较好地忠实于客观实际,对噪音和缺失数据有较强的忍耐能力。人工神经网络在对实际问题的预测方面非常有用,特别是当出现无法确定输入与输出之间的数学关系、对问题的预测比对问题的解释更加重要、具备大量的训练数据等情况时,其应用较为广泛。
神经网络与判别分析最大的差异在于神经网络具有学习能力,因此对于无法以线性模型来区别群组的问题,神经网络最能发挥特长与优势。判别分析是一种“白盒”技术,具有较强的透明度,模型中变量的系数都具有一定的经济学含义,代表了指标的重要性程度,可以比较各变量对模型贡献的大小。而神经网络是一种“黑箱”技术,它可以根据新的样本不断地调整模型。适用于样本分布不断变化的情况。根据以往的研究,虽然神经网络方法能很好地处理那些数据结构不太清楚的情况、且短期预测准确性稍胜判别分析方法,但由于其工作随机性较强,为了得到一个较好的神经网络结构,需要人为地去调试,而且其样本训练时间较长。非常耗费人力和时间,使得神经网络在计算效率、可解释性、适应性、稳定性、操作简单性方面逊于判别分析方法。此外,神经网络在分类不当的情况下错判比例较高,可能造成模型的解释性不强。
通过比较分析,可以看到,在利用相关数据建立个人信用评分模型时,以上两种方法各有优缺点。神经网络的优点是预测精度较高。其缺点一是稳健性不够好,当用保留样本进行预测时,精度下降较多;二是模型的解释性不强,建模过程基本上是一个“黑箱”;三是它主要用于分类,即将申请人分成“好客户”和“坏客户”,而不能像判别分析那样产生线性评分卡。判别分析方法的主要优点是其稳健性较好、模型的可解释性较强、可以产生一个线性评分卡,缺点则是其预测精度比神经网络差。
鉴于以上分析,本文提出一种综合使用判别分析和神经网络两种方法建立个人信用评分模型的新方法。首先,以个人信用理论为基础,在国内外已有个人信用评估方法研究成果的基础上,利用真实的个人消
费信贷数据,建立个人信用评分的线性判别模型;然后,将线性判别模型的结果作为解释变量之一,加上其余的特征变量,建立一个基于神经网络的信用评分模型。其好处是:由于判别分析稳健性较好、模型的可解释性较强、可以产生一个线性评分卡,因此其信用评分结果中应该综合了解释变量与因变量之间关系的更多信息,将这种信用评分结果作为解释变量之一,应该能够提高模型的稳健性和可解释性,而最终用神经网络建立模型,又可提高模型的预测精度。
模型建立好后,还需要对模型的效果进行验证。模型验证的方法有多种,常用的有自身验证,但自身验证效果的好坏并不能说明该模型对外部数据预测效果的好坏。因此该方法实用价值不大。采用外部数据进行验证从理论上讲有一定优越性,但再收集的数据不能用来建立函数,有些浪费。样本二分法是外部数据验证的改进,它采用随机函数将样本分为两部分,多的部分用来建立模型,少的部分用来验证,但其样本容量要求较大,否则建立的判别函数不稳定而浪费信息。交叉验证(Cross-Validation)是近年来发展起来的一种非常重要的判别效果验证技术,它是在样本二分法的基础之上建立的。其原理是建立判别函数时依次去掉一个观测值,然后用建立的判别函数对该例进行判别,该方法可有效避免强影响点的干扰。为了验证模型的精确性与稳健性。本文将原始数据按一定比例划分为训练数据集和验证数据集,采用交叉验证法对模型的应用效果进行验证。
三、实证研究
(一)建模数据和特征变量
本文使用真实的个人消费信贷原始数据。其数据质量好,不存在数据缺失的情况,样本个数为1000个,属大样本,根据林德贝格一列维中心极限定律,样本平均数近似服从正态分布。数据中属性字段共有20个,涉及个人的财务、信用和自然特征等各个方面。通过分析字段设置的意义,排除性别、电话、贷款目的、现有支票账户状况、支票账户持续时间等不合适的字段,从中选出15个字段作为个人消费信贷评分模型的解释变量,如表1所示。
对选出的15个解释变量中的分类变量、有序变量进行适当的赋值,以使其符合判别分析的基本要求,最终在数据表格中共包含18个字段,如表1所示。分组变量的值域是Y,其中1代表好客户组,2代表坏客户组。
(二)个人信用评分的多元线性判别分析模型
通过一些相关检验,个人信用评分的各项指标服从正态分布,解释变量组间均值相等,各组协方差矩阵相等,各指标变量之间不存在多重共线性’。由于各指标变量之间不存在多重共线性,所以本文不采用逐步选择法对解释变量进行筛选,而使用全模型法,即将指定的解释变量全部放入判别函数中。
1、模型的建立。
通过描述性统计,样本中共有观测值1000个,无缺失值,有效样本1000个,占比100%。通过SPSS14.0计算出非标准化判别系数。
由于原始变量所取的测量单位有所不同,因此非标准化系数之间没有可比性。必须进行标准化,去掉其量纲,从而使该系数能够直观比较各判别变量在判别作用上的大小。经标准化后,获得标准化判别系数。从而推导出个人消费信贷的标准化判别函数:
Y=1.008-0.53X1+0.45X2-0.47X3-0.22X4+0.40X5+0.25X61+0.20X62+0.04X7+0.16X8-0.14X9+0.10X101+0.20X102-0.11X111+0.14X112+0.12X12-0.11X13+0.05X14-0.14X15 (1)
式(1)中系数的t值大多较大,其显著性水平P值较小,F值较大,说明模型比较显著,152较大,显示模型模拟效果较好。其中,X1的系数最大,说明信贷历史这一指标变量对判别函数的作用较大。通过判别函数进行验证,判别模型效果良好。
2、判别模型的结果
表2给出了判别分析的分类结果。表中第一部分(Origihal)是对建模样本的每条观测的分组统计结果。其中y=1组共700个观测中有483个判断正确,217个判断错误,故模型犯第二类错误(将好客户误判为坏客户)的百分比为31%,对建模样本进行判别的平均正确率为69%;y=2组共300个观测中205个判断正确,95个判断错误,故模型犯第一类错误(将坏客户误判为好客户)的百分比为31.7%,对建模样本进行判别的平均正确率为68.3%。由于(69%+68.3%)/2=68.7%,因而,判别函数对建模样本判别的平均正确率为68.7%。从表2的第二部分(Cross-validated)可见,由于(68%+67%)/2=67.5%,说明利用交叉验证法对判别模型的预测效果进行验证所得到的结果,其平均正确率是67.5%,与第一部分的平均正确率68.7%差异不大。从建模样本和交叉验证的结果可以看出,多元线性判别分析模型的准确性不高。但稳定性较好。
(三)个人信用评分的BP神经网络模型
BP神经网络是一种单向传播的多层前馈型神经网络。Vellido、Lisboa和Vaughan(1999)指出,在商用神经网络中超过75%都会采用BP算法。BP神经网络模型结构相对较为简单,目前对于BP的研究较成熟、算法较稳定。因而本文采用BP网络建立个人消费信贷评分的神经网络模型。
1、指标数据的标准化。
为了使BP神经网络更容易训练和学习。并提高网络训练的速度和拟合精度,将定性指标和定量指标进行定量化和归一化处理。各指标值变化在[0,1]范围内。
对于贷款金额、分期付款占可自由支配收入的比重、在现居住地的居住时间、年龄、在本银行的信贷次数及家庭收入情况等6个定量数据。最常用的数据转换形式是比例变换。即通过线性比例变换将原始数据映射到[0,1]区间内。
2、输入层和输出层的设计。
本文所选择的数据中包含18个解释变量。因此BP神经网络输入层神经数目为18个。网络的输出结果对应于客户的好或坏,因此输出层神经元数目为1个。
3、隐含层的设计。
Cybenko(1989)和Hornik等(1989)在其研究中都发现,对于任何复杂系统,只要具备足够的训练数据、足够的隐含层节点和足够的训练时间,只有一个隐含层的神经网络可以在任意精度之上建模,因此本文设计的网络模型也只含有一个隐含层。通过参阅大量文献,将最初的隐含层神经元个数设为34、35、36、37和38。Rumelhart(1986)在其研究中得出结论,较低的学习率往往能够实现最好的网络学习结果,而且当学习率大于0.006时网络运算结果无法收敛,所以在BP模型建立过程中学习率被分别设置为0.002、0.004和0.006。在模型训练过程中网络运算结果收敛的标准(root mean squared error,RMSE)是小于等于0.0001或迭代次数不超过3000次。能够实现
最小的RMSE的网络拓扑结构就是最优的BP网络结构。
4、BP算法参数的设定。
本文建立了一个多层感知器网络。即使用线性函数作为组合函数,使用Sigmoid函数作为激活函数。
5、利用SAS/EM的具体实施(略)。
对于不同的隐含层神经元数目和不同的学习率。得出了不同的预测结果。从预测结果中可以看出,一个有18个输入、35个隐含层神经元、1个输出并且学习率为0.006的BP神经网络拓扑结构的预测效果最好,因为此时该网络结构的Validation RMSE最小。通过以上对神经网络拓扑结构、模型参数和有关算法的设定,即可借助SAS/EM数据挖掘工具建立BP神经网络模型。在该网络模型结构之下,对建模样本Training数据集进行判别的错误分类率为25.7%。即平均判别正确率为74.3%,而对验证样本Validation数据集进行判别的错误分类率为30.7%,即判别的平均正确率为69.3%。
(四)混合两阶段个人信用评分模型
本文提出的基于多元线性判别分析――BP神经网络两种不同方法建立混合两阶段个人信用评分模型的方法是先建立个人信用评分的多元线性判别分析模型。然后将这一模型的输出结果作为自变量之一与其他特征变量一起作为输入变量。再建立BP神经网络模型,最后用BP神经网络模型对客户进行信用评分,以取得较好的预测效果。
两阶段个人消费信贷评分模型的建立。参考前述BP神经网络模型的构建方法,即网络包含一个输入层、一个隐含层及一个输出层。与前述BP网络不同的是混合两阶段模型的输入层新增了一个输入节点,即共有19个输入节点,新增的节点是前述线性判别分析模型的判别结果。对于训练数据集和验证数据集的划分采用70%和30%的比例。对于有19个输入节点的BP神经网络,为获得最优的网络拓扑。需考查学习率分别为0.002、0.004和0.006以及隐含层神经元数目为36、37、38、39和40时验证数据集的RMSE,取得最小RMSE的网络拓扑结构就是最优的BP神经网络结构。
表3描述了根据不同隐含层神经元数目和学习率计算出的混合两阶段模型的预测结果。
从表3中可以看出,当隐含层神经元数和学习率分别为37和0.002时,验证数据集上的RMSE最小。所以可以确定两阶段BP模型的最优网络拓扑结构为19个数据节点、37个隐含层神经元以及一个输出节点。
借助SAS/EM数据挖据软件即可建立混合两阶段模型。
在两阶段神经网络模型结构之下,对建模样本Training数据集进行判别的错误分类率为27.9%,即平均判别正确率为72.1%,而对验证样本Validation数据集进行判别的错误分类率为29.0%。即判别的平均正确率为71.0%。
至此。本文利用真实的信用数据建立了三种个人信用评分模型,分别是多元线性判别分析模型、BP神经网络模型以及综合这两种方法的混合两阶段模型。考察各种模型的错误分类率,也就是当利用评分模型对训练数据集和验证数据集中的贷款申请人进行分类时,比较各种模型在两种数据集中的分类准确性及错误分类比率的大小。分类正确率较高且该比率在两种数据集之间差别不大的模型显然是较好的模型。各模型的应用结果如表4所示。
通过对这三种模型的应用结果进行比较分析,可以看出:
(1)三种模型对验证数据集的分类正确率均低于对训练数据集的分类正确率。这说明仅用训练集计算的分类正确率还不能真正地反映模型的预测能力。特别是神经网络模型存在过度拟合的问题,其对验证集的错分率较训练集错分率高很多,若仅用对训练集的预测能力来评价模型的优劣将会由于结果过于乐观而产生误导,对验证集的分类正确率才是对模型预测能力的一个较好的评估。
(2)三种模型在验证数据集上的分类正确率均在70%左右。这在一定程度上说明三种模型都具有一定的判别预测能力,能够在相当程度上对信贷申请者的“好”“坏”进行区分。
(3)将多元线性判别分析模型的应用结果与BP神经网络模型相比较,对于训练数据集。神经网络模型的分类正确率要比判别分析模型高5.6%;对于验证数据集,神经网络模型的分类正确率仅比判别分析模型高1.8%。这说明神经网络模型的预测精度更高,其在预测精确性方面要优于判别分析模型。但神经网络模型的精确性在训练集和验证集之间有较大幅度的下降,幅度达5.0%,而判别分析模型分类正确率的下降幅度为1.2%,表明就模型的稳健性而言神经网络模型不及判别分析模型,这与前人的研究成果相一致。
(4)综合比较这三种个人信用评分模型,在精确性方面,两阶段个人消费信贷评分模型的分类正确率在验证数据集上要高于其他两种模型,且该模型的分类正确率在任一数据集上的表现都明显优于线性判别分析模型。在稳健性方面,混合两阶段模型的分类正确率在不同数据集间的差别明显小于BP神经网络。因此可以得出结论,基于线性判别分析和BP神经网络的两阶段个人消费信贷评分模型的表现满足了先前的假设,即与使用单一模型相比较,在对结果进行判断的精确性和稳健性上都有所改善,从而实现了前面的构想,即将判别分析模型和神经网络模型结合起来,克服二者的缺点,发挥二者的优势,建立了一个更优的模型。
(责任编辑:姜天鹰)
转载注明来源:https://www.xzbu.com/3/view-1418243.htm