您好, 访客   登录/注册

关于几种相关系数分析方法的比较及其应用范围的探讨

来源:用户上传      作者: 李红昌

  摘 要:变量间具有相关性是对变量作进一步分析的基础,相关系数的探讨和应用很有现实意义。在很多研究中因为没有准确把握不同相关分析方法的原理和应用范围往往存在误用现。文章对几种不同相关系数原理和应用范围做探讨,以期在做研究中能更好的把握这几类相关系数,从而做出科学的推测论断。
  关键词:相关系数;简单相关;秩相关;Copula函数
  中图分类号:O211 文献标识码:A 文章编号:1674-1723(2012)09-0123-04
  一 、引言
  相关系数是反映变量之间相关程度和方向的指标,随着数据分析技术的不断发展相关系数体系得到了很大的完善。针对不同数据产生不同相关系数的计算方法,最早由皮尔逊提出的用来描述两个变量间变化趋势状态简单相关系数,即皮尔逊积距相关系数(Pearson product-moment correlation coefficient)。但是不同数据类型相关系数的计算方法上往往是需要改动,而后发展的spearman秩相关系数有称等级相关系数,所针对的数据是定性数据范围内有序数据类型。在一个数据是二元属性的名义数据另一个数据也是二元属性的名义数据时对该类型数据相关系数的分析采用?相关分析方法。如果一个变量数据是二分属性的名义数据另一个变量数据是在该属性值范围内的计量数据或者是计数数据,目前较为合适的处理方法是采用点二列或二列相关系数来衡量两变量之间的相关程度和方向。多变量间相关关系的分析常用的衡量方法是偏相关系数和复相关系数,如果变量数量达到一定规模采用偏相关系数和复相关系数处理方法存在一定的计算难度,典型相关分析可以有效的改变这种状况。数据分布不是直线形式通常是用曲线相关系数来衡量变量间的相关程度。在处理时间序列数据类型一般考虑自相关问题,目前这一块衡量相关系数大小还没有可行的办法,但是在做模型时不消除数据自相关现象会对模型产生很大影响,计量经济学形成了比较成熟的消除自相关的方法。以上这些数据的处理都是建立在简单线性相关系数基础之上并且能够通过简单相关系数推导得到各个类型的相关系数。变量间是非线性状态,一些简单数据能够通过必要转化为线性来求得变量间的相关程度即采用曲线相关系数来计算得到。针对一些复杂分布特征的数据,前面提到衡量直线相关关系的计算方法是没办法很好反应出变量间的相关性。Copula函数即连接函数的提出在一定程度上解决了较为复杂数据相关关系的衡量
  问题。
  二、常用相关系数与Copula函数的应用探讨
  (一)简单相关系数
  对于两个要素x与y,如果它们的样本值分别为与yi(i=1,2,...,n),它们之间的相关系数:
  ,; (1)
  rxy>0,表示正相关,即同向相关;,表示负相关,即异向相关。绝对值越接近于1,两要素关系越密切;越接近于0,两要素关系越不密切。
  两变量的直线相关系数是计算其他相关关系的基础,它有如下的特点:
  1.线性相关系数满足线性关系。
  如那么。
  2.在(x,y)服从正态性的假设条件下,线性相关可以充分反应x,y之间的独立性,即若,那么x,y相互对立。在正态性分布假设条件下,线性相关系数同x,y的边缘分布完全决定了(x,y)的联合分布函数,即完全体现了x,y之间的相依关系。
  3.线性相关系数的计算比较简单。
  (二)偏相关系数
  计算复杂多变量的其中两变量的相关关系时往往会受到其他变量的影响而不能真实的衡量出着两者之间相关程度,偏相关系数能够控制其他的变量不变的情况下来估算出两者之间的相关程度,这种方法在一定程度提高了估算的精度。
  偏相关系数的计算
  保持变量z不变,变量x,y之间的偏相关系数的公式:
  (2)
  控制变量,变量x,y之间的偏相关系数的计算公式:
  (3)
  公式(2)中的是在控制z的条件下,x,y之间的偏相关系数。是变量x,y间的简单相关系数或零阶相关系数。依此类推、分别是变量x,z和变量y,z间的简单相关系数。
  本质上来讲偏相关系数是属于线性相关系数,是在多变量情况下线性相关系数的发展形式,以简单相关系数为基础的。线性相关系数研究是在数据正态分布结构下进行的,数据结构在呈现正态特征下分析效果达到最佳。大样本数据的分析时线性相关系数的效果很好,对有限样本的数据的分析在笼统的套用线性相关系数会有很大偏差的。
  (三)秩相关系数
  Spearman秩相关系数的公式可以表述如下:
  (4)
  式子中D是两变量每一对数据间的等级差距,N表示的样本的数据数量。
  秩相关系数要求两变量数据的结构是线性的变化趋势,且不要求数据是正态分布特征,作为线性结构分析的一部分虽然克服了正态分布的限制,且其公式结构可以有简单相关系数导出,秩相关系数和简单相关系数同出一源原理一致。可是要分析的数据特征有较大的限制只适用于二分变量数据的分析,存在很大的局限性不具有广泛的推广应用的特性。
  点二列相关系数的计算公式:
  (5)
  P是二分变量中的其中一项在样本中所占的比例,q是另外一个二分变量的属性所占的比例,p+q=1. 是变量x在二分变量两个属性值下所占的比例即成数。是x的标准差。
  点二列相关系数要求有正态分布的限制,对一些非正态分布数据的相关性的测试会失去其准确性,对特定数据的分析会有不错的效果和秩相关系数一样存在特定数据结构限制的问题,不足以大范围的推广应用。
  (四)相关系数
  ?相关分析的计算公式:
  (6)
  ?相关系数的计算公式仅仅限定于两个变量是二分属性的名义变量仅能适应这类数据的处理,但是该相关系数的处理方法也是建立在简单相关系数的基础上的,也是要求数据有线性的变化趋势的特征,违背了线性的特征的数据即便是二分属性的也不会去的较好的相关测量。
转载注明来源:https://www.xzbu.com/3/view-3654919.htm