基于组合预测模型的广东省第三产业产值预测
作者 :  叶艺勇

  摘要首先分析了影响广东省第三产业发展的主要因素,指出由于上述因素相互制约、相互影响,导致第三产业的发展呈现出高度的非线性特征,并使得单一的预测模型在预测效果和泛化能力方面难以胜任.在此基础上,提出了基于神经网络集成的组合预测模型,对广东省第三产业的发展进行预测,阐述了算法的基本原理和数据处理流程,实证分析表明:基于神经网络集成的组合预测模型要比单一预测模型的预测精度高.
  关键词第三产业,核方法,组合预测,支持向量回归,神经网络
  中图分类号N945.12 文献标识码A
  AbstractThis paper analyzed the main factors on the improvement of tertiary industry, and pointed out that the single forecast model was difficult to satisfy the need of economic forecasting as the factors restrict and influence each other. On this basis, we proposed the combination forecasting model based on neural network ensemble, forecasted the development of tertiary industry of Guangdong Province, and described the basic principles and data processing algorithms. The empirical analysis shows that the combination forecasting model based on neural network ensemble has high prediction accuracy than a single forecast model.
  Key wordstertiary industry; kernel method; forecast model; support vector regression; neural network ensemble
  1引言
  第三产业是指对消费者提供最终服务和对生产者提供中间服务的行业,除了第一、第二产业以外,其他所有的行业均属于第三产业.随着社会经济的发展和国家对产业结构的调整,第三产业的地位和重要性日益突出,以市场经济发达的广东省为例,2013年,47.76%的生产总值是由第三产业贡献的,远远超出第一产业的4.9%,略高于第二产业的47.34%,从以上数据可以看出,第三产业已经成为广东经济发展的主要推动力,加快发展第三产业既可以有效地推进我国工业化和现代化的进程,扩大就业领域和就业人数,还可以保证社会安定,提高人民生活水平,改善生活质量.
  因此,深入研究第三产业的发展状况,对第三产业未来的发展有着重要的指导意义.要考察第三产业的发展,必须从全局的角度出发进行分析,研究它的规律和发展趋势,其中第三产业生产总值作为衡量第三产业发展状况的重要指标之一,对其进行科学的分析和预测,能为第三产业的发展和政策的制定提供有力的参考依据.
  图1是广东省1987~2013年三大产业产值比例变化图,从图1可知:第一产业所占的比重迅速下降,第二产业的比重稳中有升,而第三产业的比重增加最快,但从图2可知,广东省第三产业生产总值的增长是呈现非线性状态的,这是由于反映经济发展的各项指标互相联系、互相作用所导致的,特别是由于经济系统自身的复杂性和动态性,使得指标数据呈现高度的非线性、非精确性等特征.因此,要实现对广东省第三产业生产总值的准确预测,必须要解决两方面的问题,一方面是预测指标体系的构建要全面反映第三产业发展的基本情况,另一方面是选择合适的预测方法对样本数据进行模拟仿真.
  2文献综述
  当前已有众多学者对第三产业的发展进行了深入的研究.使用的方法包括灰色理论、神经网络、ARIMA模型、逐步回归分析等,并取得了一定的成效.如崔二涛等利用二次曲线指数平滑模型对厦门市第三产业的增加值进行预测研究,获得了较为精准的预测效果[1];吕一清等研究了基于灰色神经网络的第三产业发展趋势的预测模型,实证分析表明灰色神经网络比单一的灰色预测模型和传统BP神经网络预测模型拟合和预测能力要好,适合应用于成都第三产业发展趋势的预测[2];徐群等将主成分分析和逐步回归分析应用于我国第三产业发展现状研究及趋势预测,并对如何保持我国第三产业稳步发展给出合理化建议[3];邓伟使用ARIMA模型对广东省第三产业的发展情况进行短期预测,实证检验发现:模型的预测误差较小,预测精度较高[4];李荣丽等则研究了将时间序列BP神经网络应用于福州市第三产业值的预测,研究结果表明:BP神经网络模型收敛速度较快,预测精度较高,具有较高的应用价值[5].
  上述研究成果的特点是将单一的模型应用于第三产业的发展预测,但由于每个模型均有自身的局限性,导致在实践中,对同一个问题,采用不同的预测方法会产生不同的预测结果,即存在预测精度的差异.因为每一种预测方法都不可能做到零误差,但是不同的方法往往又能提供不同角度的有效信息,因此,单一预测模型在预测结果的准确性和信息反映的全面性、以及模型的泛化能力方面均存在一定的缺陷,考虑使用组合预测模型的方法来改善单一模型的不足,因为组合预测模型能够较大限度地利用样本的各种信息,比单个模型考虑问题更加系统、全面,能够有效地减少预测过程中随机因素的影响程度,避免在面对复杂系统时出现预测偏差波动较大,泛化能力不足的情况,从而提高预测的精度与模型的稳定性.
  3广东省第三产业发展影响因素分析   第三产业作为国民经济一个重要的组成部分,它的发展受到多方面因素的制约,这些因素相互联系、互相渗透,共同影响着第三产业的发展水平和发展速度,本文遵循可获得性、可比性、客观性、综合性的原则,结合定性和定量的相关性分析,以及参考其他学者的研究成果[6-8],认为以下几个方面与广东省第三产业生产总值的变化相关性最大.
  1)人均生产总值
  人均GDP反映了一个地区的经济总体发展水平,人均GDP的增长会引起社会需求结构的相应变化,与之相关的是,各产业产品的需求收入也会弹性地发生变化,从而引起各产业在经济发展中的地位发生改变,最终导致产业结构的变化.
  2)城镇居民可支配收入
  一个地区居民的消费水平与该地区第三产业的发展水平是密切相关的.城乡居民消费带动了城市第三产业的发展,其消费水平越高,第三产业的发展就越迅速,第三产业产值占国民收入总额的比例也越大.一个地区居民的消费水平可以用城镇居民可支配收入指标来衡量.
  3)固定资产投资
  固定资产投资是衡量经济发展水平的重要指标,固定资产投资额的增加会加强区域的水利、电力、能源、通讯、城乡公用设施等基础建设, 从而带动地质勘察、水利管理、交通运输、仓储及邮电、房地产业等第三产业的产值增加,加大其投资力度能消除经济发展中的“瓶颈 ”问题,因此, 固定资产投资作为模型的一个输入变量.
  4)第三产业就业人数
  第三产业的快速发展能广泛地吸收劳动力资源,因此第三产业的就业人数在一定程度上能够反映第三产业的发展状况;而就业人员的素质,将在很大程度上决定了第三产业发展的进程和行业经营的状况,高素质的人力资源能够促使第三产业的快速健康发展.
  5)城市化水平
  城市化水平是指一个地区农村向城市发展的状况,通常代表着该地区经济的发展水平.城市经济的发展,吸引了大量农村剩余劳动力的涌入,产生了很强的规模经济效应.城市经济聚集性、开放性等特点为第三产业发展创造了良好的条件.因此,要想实现第三产业发展,需要努力提高地区的城市化水平.
  6)外贸出口总额
  服务产品的输出状况会影响一个区域的第三产业结构.因为在输出商品的同时,也是运输、信息、科技等服务的对外输出.此外,出口的产值将会对第三产业行业的结构产生影响,此结论也是被很多经济学家认同的,所以本文中也引进外贸出口总额作为输入指标.
  综上所述,最终确定预测模型的输入指标是:广东省人均GDP,城镇居民可支配收入,固定资产投资,第三产业就业人数,城市化水平,外贸出口总额,预测对象为广东省第三产业生产总值.
  3基于神经网络的组合预测模型
  3.1支持向量回归模型
  由统计学习理论发展而成的核方法,是一类模式识别的算法,其目的是找出并学习一组数据中的相互关系,它是解决非线性模式分析问题的一种有效途径.SVR,即支持向量回归,是目前核方法应用的经典模型,它对非线性、非确定性、非精确性数据的拟合能力表现非常优秀,在复杂的非线性预测以及综合评价中有着非常的广泛应用前景[9].更加重要的是,SVR是建立在结构风险最小化的优化目标上,它可以在过度学习和模型适应性之间取得很好的平衡,在很大程度上改善了其他智能算法在非线性拟合上存在的不足.
  从本质上讲,线性多元回归就是求方程[10]:
  y=Xw+ε.(1)
  考虑到对回归曲线本身的要求,在如图3所示的ε不敏感损失函数下,线性回归问题可转化为优化问题:
  3.2约束条件下的线性回归模型
  在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归.当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归.约束条件下的线性多元回归模型(简称为CMVR模型)[11],可描述为:
  y=Xβ+ε,lb≤β≤ub.(8)
  其中,lb,ub分别为β的上下限.
  其中,式(8)可转化为如下的求优化问题:
  min Q=(y-Xβ)2,s.t.lb0.(12)
  3.4基于神经网络的组合预测模型
  由于单个模型预测存在一定的不足之处,因此,本文使用组合预测模型的方法来完成数据的建模与仿真.目前,关于组合预测的研究,主要集中在3个方面,一是关于预测信息的组合,二是预测方法的组合,三是预测结果的组合.本文主要是针对单个模型的预测结果进行组合,其中的关键步骤就是寻找用于组合各单项模型预测结果的权系数.现有的组合预测处理方法大部分是限于定权系数,即对于第i种预测方法,其加权系数Ki是固定的,与时间、外部环境等因素无关,这显然是不科学的.因为各种预测方法对于不同的预测时间段表现出不同的预测能力:有的方法对瞬态变化敏感,适用于短期预测;有的方法善于把握长期趋势,表现出优越的中长期预测能力.如果将不同时间组合的权系数设定为常值,就无法各取所长,获得最佳预测结果.   鉴于变权重的组合预测方法是提高模型的拟合精度和预测精度、增强预测模型实用性的有效手段.本文提出使用神经网络来集成各个模型的输出,因为从理论上讲,一个具有Sigmoid函数的三层前馈神经网络能够拟合任意非线性函数[12].神经网络的实质就是一个从输入层到输出层的非线性映射,它的训练过程实际上就是一个优化计算的过程.如果以各个模型的预测数据作为输入,以待预测序列的真实值作为理想输出来训练神经网络,则其训练过程就是寻找最优的权值,使得组合预测的误差平方和达到最小的过程,这实际上就实现了组合预测的最优组合.神经网络结构如图4所示.
  因此,基于神经网络集成的组合预测模型,其数据处理的基本原理是:将各个模型训练阶段的预测数据作为神经网络的输入,训练阶段的实际数据作为输出,构建神经网络模型,即该模型具有n个输入变量(假设有n个预测模型),1个输出变量的结构,由训练阶段的数据确定模型最佳参数;第二步,将测试阶段各个模型的预测数据作为训练好的神经网络模型的输入,计算其输出,即为组合预测模型的输出结果.
  4实证研究
  4.1数据预处理及模型训练
  本文所有经济数据均来源于广东省统计年鉴(1987~2014年).
  由于不同指标的单位不一致,为了提高预测的精度,也为了消除不同年份价格指数差异所带来的影响,使不同年份的数据具有可比性,在使用模型处理数据之前,首先把原始数据转化为环比数据,转换公式如下:
  X当前年份=Y当前年份/W当前年份Y上一年度/W上一年度.(13)
  式中:X为指标的环比数据,Y为指标的纯量数据,W为累计物价指数.
  由于经济发展具有一定的延续性和滞后性,因此,在实际的经济系统运行过程中,近期的经济数据对未来的影响比早期的数据应该更大,为了体现对近期数据的重视程度,把1987~2008年22个年度的数据样本按1.2的比例加权作为学习样本,对模型进行训练,以确定各模型的参数值,然后将2009~2013年的数据作为测试样本,用于检验模型的预测效果.
  4.2模型测试
  4.2.1单个模型预测
  分别使用上述3个训练好的模型对测试样本数据进行拟合,得到的结果如表1所示.
  从表1可知,3个模型的平均预测误差分别为5.68%,5.92%和3.77%,其中SVR模型的预测效果略比其他2个模型高.为了便于比较,将3个模型的预测输出使用平均组合法处理,得到相应的预测结果及误差,如表1最后2列所示,可以看到,5年的平均预测误差为5.12%,说明了简单的组合预测效果在当前的参数状态下是可行的,但是由于平均组合法是忽略了各个模型之间的差异性,以同等的权重衡量各个模型的计算精度和重要性,从理论上来讲,平均权重无法保证一定能获得最优的处理结果,权重相同只是众多情况下的一种特殊选择,因此,本文继续使用基于神经网络集成的组合预测模型来改善预测精度.
  4.2.2神经网络组合预测模型
  根据神经网络组合预测的基本原理,该模型的输入变量个数为3,输出变量个数为1,关于隐含层的数量,设置其范围初始区间为[4,10],通过训练样本数据循环计算并比较,确定最佳的隐含层单元数为5,然后将3个模型的预测结果使用训练好的神经网络模型集成输出,结果如表2最后2列所示.
  从表2可知,与平均组合法相比较,经过神经网络优化权重的组合预测模型在预测精度上更为准确,5年的预测平均误差为0.83%,远远低于平均组合的5.12%,该方法不但在训练样本的数据拟合方面表现优秀(如图5,图6和图7所示),而且对测试样本的学习效果也表现良好(如图8所示),以2009年的数据为例,预测误差为1.54%,转换为实际的数据就是相差278亿元,预测误差非常理想,并且各模型的权值完全由历史数据确定,不受主观因素的干扰,因此能更客观地反映出在组合模型中,各个模型自身的重要程度,计算结果也验证了基于神经网络集成的组合预测模型的有效性.将预测数据反映在图上,如图8所示.
  4.3模型应用
  分别使用上述3个模型预测未来5年广东省第三产业的生产总值,并且采用神经网络集成的方法将预测数据合成输出,这里假设未来五年各指标保持现有的增长速度,结果见表3所示.表32014-2018年预测结果
  预测得2014年第三产业生产总值约为33 137亿元,增长率为11.62%,由于广东省2015年统计年鉴尚未发布,通过查询广东省统计局发布的季度统计数据可知道:2014年第三产业实际的生产总值为34006亿元,增长率为14.55%,预测值与实际值只相差2.93%,如果再扣除当年的消费价格指数,预测数据与实际数据是基本吻合的,可见使用神经网络组合预测模型的效果是相当准确的.
  5结论
  在现有第三产业发展预测研究成果的基础上,针对单一预测模型的不足,构建了基于神经网络的组合预测模型,以广东省第三产业发展为例,验证了模型的有效性.由于组合预测方法依然处于不断的发展和完善中,本文只是针对预测结果进行了组合处理,如何在预测过程中,针对样本信息和预测方法进行有效的组合,力求做到预测的系统性和科学性,进而提高预测的效果,是下一步需要研究的方向.
  参考文献
  [1]崔二涛,肖哲.厦门市第三产业增加值增长预测――二次曲线指数平滑模型在第三产业增加值预测中的应用[J].中国市场.2010, 582(23):54-57.
  [2]吕一清,何跃.基于灰色神经网络的第三产业发展趋势的预测模型[J].统计与决策. 2011, 382 (4) : 154 -157.
  [3]徐群,于德淼,赵春阁.我国第三产业发展现状研究及趋势预测――基于主成分分析和逐步回归分析[J].巢湖学院学报. 2014, 125(2):45-49.
  [4]邓伟.论ARIMA模型在广东省第三产业预测中的应用[J].现代商贸工业. 2010,50(24):29-31.
  [5]李荣丽,黄曦,叶夏,陈志强,陈志彪.时间序列BP神经网络在福州市第三产业值预测中的应用[J].江西农业学报. 2010, 22(12):183-185.
  [6]张亚峰.河南省第三产业发展影响因素分析及对策研究[J].江苏商论,2011,(08):91-95.
  [7]彭丰,杜洋.基于VAR模型的第三产业发展影响因素分析[J].现代商贸工业,2010(17):31-33.
  [8]聂晓博.邢台市第三产业发展的影响因素研究[D].石家庄:河北大学经济学院,2013.
  [9]彭森.基于粗糙集与支持向量机的工业企业经济景气指数智能预测模型研究[D].武汉:华中师范大学信息管理学院,2012.
  [10]张学工.关于统计学习理论与支持向量机[J].自动化学报. 2000, 26(1):37-39.
  [11]肖健华.区域经济发展智能预测方法[J].经济数学. 2005, 22(1):57-63.
  [12]蒋林利.改进的PSO算法优化神经网络模型及其应用研究[D].厦门:厦门大学软件学院,2014.