您好, 访客   登录/注册

经济数据分析:一种基于数据的函数性视角的分析方法

来源:用户上传      作者:

  摘要:在经济数据分析中,经常会见到融合时间序列和横截面两者的数据。虽然20多年来,计量经济学大量研究了具有时间和横截面两维特征的面板数据,并提出了许多行之有效的分析方法,但是面板数据只是函数性数据的一种类型,且其分析方法太过于依赖模型的线性结构和假设条件等。本文基于经济数据的函数性特征,引入一种对数据进行分析的全新方法,并利用基于MATLAB编写的程序,率先对经济函数性数据进行分析,拓展了函数性数据分析的应用范围,填补了我国在此方面研究的空白。实例分析结果表明,函数性数据分析方法,较之计量经济学和其它统计方法具有更多的优越性,尤其能够揭示其它方法所不能揭示的数据特征。
  关键词:函数性数据;修匀;函数性主成份分析;资产收益率
  中图分类号:F276.1
  文献标识码:A
  文章编号:1002―2848―2007(01)-0108―06
  
  一、前 言
  
  在经济数据的传统定量分析中,所分析的数据对象具有这样的特征,即数据要么是时间序列数据,要么是横截面数据。而实际中获得的许多经济数据,往往是在时间序列上取多个截面,再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta),也被翻译成“面板数据”,或“纵向数据”(longitudinal data)。20多年来,许多学者研究分析了面板数据。事实上,关于面板数据的研究是计量经济学理论方法的重要发展之一,它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响,以及区分经济变量的作用等方面,具有突出优点。但是,研究面板数据的计量模型,以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷,本文基于经济数据的函数性特征,介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis,FDA)。
  函数性数据分析的概念,始见于加拿大统计学家J.O.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)将对函数性数据进行统计分析的已有理论和方法,总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导,不利于统计基础薄弱者使用。经过5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函数性数据案例,并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究,也取得了许多有价值的结果,但是有关函数性数据的研究依然处于起步阶段,还有很多问题需要研究或进一步完善。另外,从方法应用的具体领域来看,很少涉及对经济函数性数据的分析。就目前研究文献来看,我国在此方面的研究尚是一片空白。
  为填补我国在这方面研究的空白,本文从思想、方法等方面,对函数性数据分析进行系统介绍,并通过编写计算机程序,率先利用该方法分析实际的经济函数性数据。本文共分六部分,以下内容的安排为:数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用,最后一部分是本文的结论。
  
  二、数据的函数性特征及经济函数性数据实例
  
  一般地说,多元数据分析(Multivariate Data A-nalysis,MDA)处理的对象,是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据,例如,数据自动收集系统等,称具有这种特征的数据为函数性数据。
  函数性数据的表现形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等),也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式,如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis,FDA)的基本原理是把观测到的数据函数看作一个整体,而不仅仅是一串数字。函数指的是数据的内在结构,而不是它们直观的外在表现形式。
  实际中,之所以要从函数的视角对数据进行分析,是因为:(1)实际中,获得数据的方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术,可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数版本下进行考虑,会使分析更加全面、深刻。(3)在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。
  在经济分析中,融合时间序列和横截面两者的数据很常见,例如,多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征,即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时,将观测到的数据(函数)看作一个整体,而不是个体观测值的顺序排列,这是函数性数据分析不同于传统统计分析之根本所在。例如,表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。
  利用基于MATLAB编写的程序,对数据进行平滑处理(smoothing),并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出,每个个体(银行)对应着一条曲线(其数学表达式为函数),这是将多家银行的历年ROA数据记录看作函数的根本理由,也是函数性数据分析的出发点。
  
  三、从数据的函数性视角研究数据的意义
  
  从函数的视角,对具有函数特征的经济数据进行研究,会挖掘出更多的信息。例如,对函数性数据的平滑曲线展示,不但能够诊断出拟合数据的可能数学模型,还能够通过对光滑曲线求一阶、或更高阶的导数,来进一步探索数据的个体(横截面)差异和动态变化规律。
  图2是四家银行资产收益率的速度(一阶导数)曲线,观察发现:在1995年至2004年期间,农业

银行、中国银行及建设银行的资产收益率的变化率,呈现出较强的周期性,其中尤以建设银行的表现最为突出。加速度曲线图显示,四家银行资产收益率的变化率的波动状况不相同,转折变化的时间差异也较大。这些情况一定程度表明,各家银行的内部管理与经营机制,对市场信息的反应快慢程度各不相同。
  
  四、函数性数据分析的目标和步骤
  
  函数性数据分析的目标与传统统计学分析的目标基本一样,具体情况如下:
  (一)以对进一步分析有利的方法来描述数据;
  (二)为突出不同特征而对数据进行展示;
  (三)研究数据类型的重要来源和数据之间的变化;
  (四)利用输入(自变量信息)来解释输出(因变量)的变化情况;
  (五)对两组或更多的某种类型的变量数据进行比较分析。
  典型的FDA主要包括以下步骤:
  第一步,原始数据的收集、整理和组织。假设我们考虑的自变量是一维的,记为t,一个的函数仅在离散抽样值 处被观测,而且这些ti可能等间隔分布,也可能不是。在函数性数据分析中,将这些离散的观测值看作一个整体。
  第二步,将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t),它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t),k=O,…,K,并用基函数的线性组合给出函数x(t)的估计
  
  第三步,多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。
  第四步,为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来,可能需要对函数进行排齐(regigtration),其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。
  第五步,对排齐后的函数数据进行探索性分析,如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。
  第六步,建立模型。建立的模型可能是函数性线性模型,也可能是微分方程。
  第七步,模型估计。
  
  五、函数性数据分析方法的经济应用
  
  为了说明函数性数据分析方法的具体应用,同时出于使所绘图形简单明了,本文再次利用四家国有银行的数据,对资产收益率进行更深入的分析。虽然此实例中个体数少,但并不妨碍对方法应用的系统描述与理解。
  在对实际问题的经济数据进行分析时,通常需要依照研究的目标编写计算机程序。就目前的研究现状来看,基于MATLAB或SPLUS等编写的程序,如绘图或综合计算函数等,完全可以满足分析的需要。本文首先基于MATLAB编写程序,然后对四家国有银行的资产收益率数据进行分析。
  关于四家银行资产收益率数据的函数(曲线)展示与初步分析,本文在前面已进行了描述,具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。
  为了进一步探讨典型函数所呈现的特征,本文利用函数性主成份分析,对四家银行的资产收益率数据进行分析。一般来说,在函数性数据分析中,与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function),记为 ,其中t在一个区间 中变化。第i个样品(个体) 的主成份得分值为 ,第一主成份就是在 的约束条件下,寻求使主成份得分 的方差达到最大的权函数 ,即它是下面数学模型的最优解: 类似地,可以求得第j个主成份,其权函数毛(t)是下面数学模型的解:
  为了得到光滑的主成份,一种方法是对由上述方法求出的主成份进行修匀,另一种方法是将修匀处理过程,融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中,形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中 称为修匀参数,用它可对粗糙惩罚项进行调整。
  利用上述方法和基于MATLAB编写的程序,对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85.5%,第二个主成份(Pc2)的解释能力为13.1%,前两个主成份的综合解释能力为98.6%。
  为了清晰地显示主成份,并进行有意义的解释,在同一图中绘出三条曲线,一条是整体均值曲线,另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线,具体结果见图5(本文所选的倍数是0.12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化,尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。
  
  六、结论
  
  在经济实践中,越来越多的领域所得到的样本观察资料是曲线或图像,即函数性数据。因此,对这种类型的经济数据进行统计分析和描述,具有重要的现实意义。因篇幅所限,还有一些函数性数据的分析方法未予以介绍,如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的,是通过对函数性数据分析方法和具体应用的介绍,传述对数据进行分析的新思想,而不只是方法技术本身。因此,缺少的方法并不影响对思想的阐述。
  另外,本文对四家银行资产收益率的分析,例证了函数性数据的分析方法,具有传统统计分析方法不可比拟的优越性,具体表现在:(1)通过对函数性数据的修匀,将一阶或多阶导数,如速度和加速度,引入到分析过程中。这一点在计量经济学和多元统计的分析方法中未予以考虑。(2)函数性数据分析,用最少的假设来研究曲线间和曲线内部的结构变化。关于这一点它优于计量经济学中处理“面板数据”的方法。事实上,面板数据只是函数性数据的一种类型,本文介绍的数据分析方法可用来处理许多领域的函数性数据,应用范围相对宽广,而且观测时点也可以不等间隔选取。(3)将数据曲线的振幅变化与相位变化分开处理,是函数性数据分析的一个中心理念,但在以前的分析中却被忽视了。
  关于函数性数据的研究,是一个正在发展且活跃的研究领域,但因对该方法的研究在国际上还处于起步阶段,因此,还有很多问题有待更深入地探讨和进一步完善。特别是对经济函数性数据的研究,因它与自然科学、考古学、医学等学科中的数据相比,具有不同的特征,所以,如何抓住经济函数性数据的本质特征,利用函数性数据分析的思想,探索适合其数据特点的分析方法,是一个值得研究的问题。
  责任编辑、校对:李斌泉
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。


转载注明来源:https://www.xzbu.com/2/view-483765.htm