基于PLS的组合预测模型及其应用
来源:用户上传
作者: 管 勇
[摘要]本文运用组合预测理论,利用偏最小二乘回归方法建立了基于灰色预测模型GM(1,1)、2阶自回归模型AR(2)和龚伯兹曲线模型的组合预测模型,并对农业贷款需求进行了预测。
[关键词]组合预测偏最小二乘法(PLS)农业贷款
组合预测法是指通过建立一个组合预测模型,把多种预测方法所得到的预测结果进行综合,以得到一个较窄的预测值取值范围供系统分析或决策使用。组合预测值往往比被组合的单一预测值具有更高精度。从定性角度看,每个单项预测模型都能从其独特角度解构出样本资料的统计特征,把不同的统计预测模型所反映出的样本资料的有用信息加以综合,就能更真实、更全面地反映样本资料的内涵特征。从定量角度看,组合预测模型是建立在一个统计准则之下的,比如预测误差为最小,那么,组合预测值必定比被组合的单一预测值具有更好的统计特性。因此,组合预测方法能够取长补短,达到提高预测精度和增加预测结果可靠性的效果。
但在应用组合预测时,也需要注意一些问题。一是模型的适宜性,要求单项模型不仅适宜样本资料的特点而且要适合组合预测模型的应用条件。二是单项模型的多样性,经验得知各单项模型的差异性越大,组合预测模型效果越好。三是要确定适合的单项模型的组合权重。
由于各个单项预测模型都是对同一个样本资料的预测,因此各预测结果具有高度线性相关性。偏最小二乘回归法是一种新型的多元统计数据分析方法,它的一个突出特点是将多元线性回归分析、变量的主成份分析和变量问的典型分析有机地结合起来,提取对因变量解释性最强的综合变量,辨识系统中的信息和噪声,从而有效地克服变量的多重相关性,特别是适合在小样本(样本容量小于变量个数)下进行回归建模。因此本文采用偏最小二乘回归方法赋权进行组合预测,并对我国农业贷款需求进行预测。
一、偏最小二乘回归建模步骤简介
设有q个自变量和p个因变量,共个观测值的数据集。并不失一般性地将自变量矩阵X与因变量矩阵Y进行标准化处理,设为E0和F0。
提取第一对成分,并使之相关性最大。T、U分别为从自变量与因变量中提取的成分,这里提取的成分通常称为偏最小二乘因子。各自尽可能多地提取所在变量组的变异信息,同时保证两者之间的相关程度达到最大。
在第一个成份和被提取后,偏最小二乘回归分别实施X对 以及Y对的回归。如果回归方程已经达到了满意的精度,算法终止;否则,将利用X被解释后的残余信息以及Y被解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较为满意的精度为止。若最终对X共提取了m个成分,偏最小二乘回归将通过实施对的回归,然后表达成关于原变量的回归方程,。
二、基于PLS的农业贷款需求组合预测
1.数据
为了更好地说明建模步骤及模型的应用,本文以农业贷款需求预测为例进行建模型说明,从数据的可靠性和可获得性角度选取2001-2010年《中国统计年鉴》中金融机构资金运用平衡表中的贷款年末农业贷款余额为农业贷款需求的代表,具体数据见表现。
2.单项预测模型
根据组合预测建模的适宜性和多样性要求,同时根据农业贷款额数据序列的特点,本文选择灰色预测模型GM(1,1),龚伯兹曲线模型,单变量线性回归模型OLS三种模型进行单项预测,依据平均相对误差最小为误差统计原则,选择平均相对误差msn为模型测定系数。
其中,。
(1)灰色预测GM(1,1)模型
灰色系统理论认为,随机量可以看作是在一定范围内变化的灰色量。对于贫信息的灰色系统,灰色变量所取的值十分有限,并且数据变化无规律。对这些灰色变量作生成运算处理,处理后的数据变化有一定规律,与原始数据相比,增加了数据变化的确定性,从而在生成数据的基础上建立灰色系统模型。本文运用累加生成运算法AGO(Accumulated Generating Operation)建立了GM(1,1)模型,模型如下:
预测结果如表1,模型的测定系数msn=0.048443。
(2)随机时间序列模型
经单位根检验,农业贷款额序列是非平稳时间序列,不能直接建立模型。但是其含常数项和趋势项的一阶差分且滞后期为2的序列是平稳的,再根据序列的自相关系数、偏相关系数以及AIC准则,建立2阶自回归过程AR(2)。模型如下:
预测结果见表1,模型的测定系数msn=0.034975。
(3)龚伯兹曲线模型
根据图1中农业贷款额曲线特征,符合龚伯兹曲线形态,故建立龚伯兹曲线模型进行拟合,并采用三点法求解模型参数。模型如下:
预测结果见表1,模型测定系数msn=0.054901。
表1 三个单项预测模型的预测结果 单位:亿元
年份 农业贷款额 灰色预测模型(GM(1,1)) 自回归预测模型
(AR(2)) 龚伯兹曲线模型
2000 4889
2001 5711.5 5678.29 6349.24
2002 6884.6 6268.60 6696.08 6699.70
2003 8411.4 8085.12 8768.91 8268.34
2004 9843.1 10164.45 10189.18 10106.00
2005 11529.9 11897.00 11390.11 11628.50
2006 13208.2 13415.13 13350.43 13012.43
2007 15429.3 15291.16 15416.52 14906.53
2008 17628.8 17437.61 17752.91 17356.20
2009 21623 21353.40 21246.36 22095.14
模型测定系数msn 0.048443 0.034975 0.054901
3.基于偏最小二乘回归的组合预测模型
由于三个单项预测模型是对同一样本资料进行了预测,因此其与实际值之间必定具有高度的相关性,表2给出了预测值和实际值之间的相关系数。可见,各预测值之间具有高度的线性相关性。也进一步证实使用PLS进行组合预测是适宜的。
表2 相关系数表
其中,y表示实际值,表示GM(1,1)模型预测值、表示AR(2)模型预测值、表示龚伯兹曲线模型预测值。
以三种预测模型对各年贷款额的预测值为自变量,以各年实际贷款额为因变量,建立最小二乘回归模型。由于灰色预测模型和龚伯兹曲线模型没有进行第一年数据的预测,而AR(2)模型不能预测出前两年的数据,故剔除掉前两年的数据,只用3个样本共24年样本观测值进行建模。经“舍一交叉验证”法得出,当提取一个成分时已提取了自变量99.2302%的信息,因变量99.4417%的信息,预测误差平方和(PRESS)为最小,其值为0.0179。而且从预测模型的建立意义出发,只需提取一个成分建模型。最后建立的组合预测模型如下:
其中,表示组合预测值,组合预测结果如表3。
表3PLS模型对农业贷款需求的预测结果(单位:亿元)
年份 农业贷款额 预测值 绝对误差 相对误差
2000 4889
2001 5711.5
2002 6884.6 6558.454 -326.146 -0.04737
2003 8411.4 8390.8681 -20.5319 -0.00244
2004 9843.1 10169.3103 326.2103 0.03314
2005 11529.9 11657.2093 127.3093 0.01104
2006 13208.2 13297.42845 89.22845 0.00676
2007 15429.3 15258.912 -170.388 -0.01104
2008 17628.8 17585.9038 -42.8962 -0.00243
2009 21623.0 21640.21368 17.21368 0.00080
模型的测定系数msn=0.02571,可见比前面三个单项预测模型的测定系数都要小,即组合预测模型的预测水平有了很大的提高。
为了反映出三个单项预测模型对组合预测的贡献大小,表6给出了预测值的变量投影重要性指标VIP,从中可以看出,2阶自回归预测模型的重要性指标最大,再从组合预测模型的系数来看,三种预测模型对组合预测模型的作用系数都差不多大,但是由PLS赋予的权重之和为1.02104138>1,这就是PLS组合预测与其它确定权数方法的不同。
表6 变量投影重要性指标值VIP
三、结论
基于偏最小二乘回归方法的组合预测模型具有计算简便,预测精度高的特点,可根据单项预测模型的预测能力进行长短期预测,具有一定的应用价值。
本文采用PLS组合预测模型对2010年农业贷款进行预测,预测结果如表7。可以看出,2010年的农业贷款需求为22919.33亿元,较之前年份有了较大幅度的增长。
表7 基于PLS的农业贷款余额需求组合预测(单位:亿元)
参考文献:
[1] 孙凤:组合预测方法及其应用[J].山西财经学院学报,1991,6
[2] 杨广喜:经济预测中组合预测法的应用――关于单项预测模型的选取问题[J].统计与决策,1998,6
[3] 王惠文:偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1994
[4] 邓聚龙:灰色预测与决策[M].武汉:华中科技大学出版社,2002
[5] 易丹辉.数据分析与EViews应用[M].中国统计出版社,2002
转载注明来源:https://www.xzbu.com/3/view-1476141.htm