您好, 访客   登录/注册

元分析在心理与教育学中的应用

来源:用户上传      作者:

  摘 要:元分析(Meta-analysis,简称MA)是指以综合已有的研究为目的,对单个研究结果进行合并的统计学分析方法。元分析的一般步骤包括以下几个方面:文献搜集与编码、合并效应量、异质性分析、稳定性分析等。效应量的合并是元分析的核心步骤,心理与教育学研究中的元分析常用的效应量是d和r。相对于传统文献综述方法,元分析更为精确、客观和深入。当然,元分析也有其缺陷,元分析中文献的搜集耗时耗力,其研究质量常常受限于原始研究的质量。尽管如此,元分析作为一种量化的文献综述方法,它比传统综述更为科学,因此值得心理与教育学领域的研究者大力推广与应用。
  关键词:元分析;效应量;异质性分析;发表偏倚
  一、元分析简介
  如果把心理与教育学的某个研究领域已有的研究当作一个总体,那么每个独立的研究结果可以看作是总体的一个样本。因为受到时间、地点、被试、方法、样本量等各个方面因素的影响,每个研究的结果在反映总体真实情况的时候总是或多或少存在一定的偏差,因此各个研究就有可能存在一定的差异,有时会出现不一致甚至相反的结果。出现结果不一致,特别是结论相反的情况,如果单独去看个别研究时便会产生疑惑,不知道那种结果更为可信,传统的质性文献综述无法解決该类问题,但元分析可以解决这类问题。所谓元分析是指以综合已有的研究为目的,对单个研究结果进行合并的统计学分析方法[1],即把以往的研究结果通过量化的方式合并,以此作为总体真实情况的估计。自美国教育学家Glass于1976年首次提出元分析这一概念以来,国外有关元分析方法的理论和实践研究不断增加,在心理与教育学领域出现了一大批有价值的研究。相比较而言,元分析在中国心理与教育学领域的研究却相对较晚。尽管早在1997年国内就已经有心理学领域的学者预测,在不远的将来,元分析方法也会在我国得到广泛的应用[2],但时至今日,元分析在教育学和心理学领域的理论和实践研究的数量仍显单薄,研究的质量仍有待提升。本文将就元分析在心理与教育学领域的应用做相应介绍,以丰富国内该领域的理论研究。
  二、元分析的步骤
  元分析的一般步骤包括以下几个方面:文献搜集与编码、合并效应量、异质性分析、稳定性分析等。
  (一)文献搜集与编码
  在确定研究的主题后,需要对涉及该主题的文献进行搜集,目前文献的搜集手段主要是通过各大数据库进行网上检索,很显然,搜索到的文献的完整度和质量会影响到元分析的质量。因此文献搜集需要注意以下几个问题。首先,为了保证不遗漏文献,应该尽可能地变换文献检索策略以及具体的方式和方法。其次,因为元分析是对原研究数据的二次分析,所以能够纳入元分析的文献首先应该有定量数据,没有量化数据的质性分析的文献应排除在外。再次,搜集的文献不仅要考虑已经发表的文献,还要尽可能搜集那些没发表的文献,这样做是为了降低发表偏倚。当然,从目前国内的元分析文献来看,极少有文献可以做到这一点。最后,要注意一些文章一稿多投的情况或者数据重复利用但文献标题不同的情况,还有一些文章常常既报告总体数据,又报告亚组数据,研究者也需要做好分辨。对一些低质量的杂志发表的文献还要尤其注意数据分析的准确性。
  文献搜集后,研究者需要将文献的统计数据进行汇总,这些数据主要包括平均值、标准差、相关系数和样本量等。除此之外,还需要对每个研究的研究信息进行编码。这些编码信息包括反映研究的外在特征,如研究的时间、地点及其他特殊环境等;反映研究设计质量的因素,如样本量、是否随机化、是否采用盲法等;反映研究内容的变量,如性别、年龄、职业、结果变量的均数、标准差等[3]。这些信息的编码是为了元分析的深入分析而准备的,当然这些信息不一定都需要编码,需要研究者根据研究的主题和需要等具体情况做取舍。
  (二)合并效应量
  元分析的核心是效应量(Effect Size)的合并,效应量的指标很多,合并的方法也各有不同。心理与教育测量中使用比较多的统计分析方法是差异检验(如性别差异研究)和相关分析(如班级氛围和创造力的关系),差异检验对应的效应量是标准化平均差异量d(Standardized Mean Differences),相关分析对应的效应量是加权相关系数r,现对这两个效应量的合并过程做简单介绍。
  异质性分析的目的是为了确认效应量的合并方式,如果各个研究的效应量同质,则采用固定效应模型合并效应量,在这种模型中假设总效应量为固定的值;如果异质则采用随机效应模型来合并效应量,在这种模型中假设总效应为随机值。在研究同质的情况下采用固定效应和随机效应模型所得结果应当是一致的,可以把固定效应模型理解成随机效应模型的特例,所以目前较为通用的方式是无论是同质还是异质都采用随机效应模型合并效应量。
  (四)稳定性分析
  1.置信区间
  为了了解合成效应量的稳定性,一般文献需要报告效应量的置信区间。如果总效应量的置信区间包括0说明合成的效果量不稳定,如果不包括0则说明稳定。效应量d的置信区间上下限计算分别见公式6和公式7,效应量r的置信区间上下限计算分别见公式13和公式14。
  2.敏感性分析
  敏感性分析也可以考察合成效应量的稳定性,与置信区间不同的是,置信区间从效应量本身出发说明效应量的稳定与否,而敏感性分析则是通过比较效应量来说明效应量的稳定与否。敏感性的基本做法是通过改变纳入标准(特别是尚有争议的研究),排除低质量的研究,重新做效应量的合并,同时观察合并的效应量的变化。如果排除某篇文章对效应量有明显的影响,例如明显的变大或者变小,即可以认为该文献对合并效应量敏感,说明结果不稳健,在解释结果和下结论的时候应非常慎重。如果排除后未发生大的变化,说明不敏感,结果比较稳健。如果文献之间来自同一总体,即不存在异质性,那么文献的敏感性就低,因此敏感性分析也可以认为是文献质量和异质性的重要指标。总之敏感性分析主要针对研究特征或类型,如方法学质量,通过排除某些低质量的研究探讨其对总效应的影响[7]。   3.亚组分析
  亚组是指按照研究或被试的不同特征分成不同的类别。亚组分析一方面可以认为是对效应量稳健性的分析,一方面也是对效应量异质性效果的进一步分析。亚组分析的基本方法是根据纳入研究的被试特点进行分层或者分类,然后进行效应量分析。如果发现亚组的效应量和总效应量没有大的变化,同时亚组之间的效应量也不大则说明研究的结果是稳健的;如果发现亚组的效应量和总效应量有大的变化,则说明结果不稳健,在解释效应量的时候不适合采用总效应量,比较合适的做法是分别给出亚组的效应量。因为亚组其实是按照研究或被试的特征分层或者分类的,例如不同的方法、不同的地域、不同的民族、不同的性别等,所以亚组的分类依据也可以认为是寻找影响效应量大小的因素,即寻找影响效应量大小的调节变量。
  4.发表偏倚
  众所周知,阳性结果比阴性结果更容易受到期刊的青睐,因此阳性结果比阴性结果的文献更容易发表。当然,除此之外还有各种原因会让一些文献不能发表,那些没有发表的文献被称为“抽屉文件”(File Drawer),由此而造成的误差可被称为发表偏倚(Publication Bias)。如果仅仅根据发表的文献做元分析很有可能歪曲了真实效应,因此在元分析中必须对发表偏倚进行讨论。发表偏倚的检验法有两种,一种是计算失安全系数(Failsafe Number)[8],一种是制作漏斗图。
  失安全系数可以回答需要增加多少文献便可让原本显著的效应降低到不显著。失安全系数可用如下公式进行估计[9]。
  式中,Zi为第i个研究统计量显著性平p对应的标准化Z值;Za是某一显著水平值的单侧临界值,如0.05的显著性水平的单侧临界值为1.64;k为纳入文献的个数。
  失安全系数的优点就是能够较为简洁的表达出发表偏倚。但是通过失安全系数计算出来的失安全系数有时候会很大,有时又可能出现负数情况,让人不能很好地理解。因此有些研究以漏斗图的方式表达发表偏倚。漏斗图(funnel plot)是以效应量为横轴,以样本量或者标准误为纵轴所作的散点图[10]。如果以样本量为纵坐标,其基本假设是每个纳入的研究效应值的精度应随样本含量的增加而增加。如果没有发表偏倚,散点图应该呈一个倒置的漏斗形,即漏斗图上的点围绕总效应量点估计的真实值对称散开,因为小样本的误差较大,这些研究对应的效应量大多散开在漏斗图的底部,随着样本容量的增加,研究精度增加,这些研究对应的效应量就大多集中于总效应量真实值附近,如下文的漏斗图所示。如果图形不对称,表示存在偏倚,结果不稳健,在解释结果的时候要慎重。漏斗图的最大优点就是形象直观,但是如果一篇综述需要同时研究多个效应量,有时甚至是几十个的话,显然在一篇文章中是不太可能同时把几十个漏斗图同时呈现,因此它的报告也会受到一定的限制。
  三、元分析的评价
  (一)元分析的优点
  第一,相对于显著性水平检验而言,元分析更为精确。在心理与教育学研究文献中,大部分研究结果以显著与否呈现。众所周知,统计的显著性和样本量大小有关,得到显著的结论,效果量不一定大,可能是大样本作用的结果;同样,得到不显著的结论,效果量不一定小,可能只是样本不足引起的,只要增加样本量,就会反映出自变量的真正效应[11]。而元分析中,效果量不依赖于样本大小,因此可以更为准确地反应自变量和因变量的真实关系。
  第二,相对于传统文献综述方法,元分析更加客观。传统文献综述在文献的选择上依靠自己的主观判断,在分析过程中也主要依靠自己的经验,这样做出来的综述具有较强的主观性,即使纳入的文献完全一致,不同研究者的综述也会产生不一致的情形,随着文献的增加,这种不一致将会越来越大,甚至变成对立。而元分析要求研究过程中的每一步都要详尽、严格,研究文献的挑选、研究质量的评定以及研究特征的编码都需要有明确而且较为客观的标准,所以元分析具有较强的可重复性;而且元分析可以在前人元分析的基础上不断地增加新文献以判断效应量的变化,这种可累积式的综述显得更为科学。
  第三,相对传统文献综述方法,元分析更为深入。单个研究结果之所以出现千差万别的情况,有时是因为调节因素的存在,这些调节因素可能来自样本特征、也可能来自研究设计、还可能与选用的心理与教育测量工具有关,然而传统的文献综述无法对这些影响因素做出系统的分析,因而无法对这些调节因素做出鉴别[12]。而元分析要求系统地考虑研究的对象、方法、测量指标等对分析结果的影响,所以它在对研究特征与研究结果的关系探查上更为灵活[13]。
  (二)元分析的缺点
  第一,文献的搜集耗时耗力。元分析需要花费较长的时间严格履行每一个步骤。元分析需要大量的相关研究文献,收集资料的时间跨度可能会很大,而且通常檢索到的文献并不都是符合纳入要求的文献,需要一一查阅并筛选;在搜集文献后还需要对文献的质量进行一一甄别;除此之外,文献的后期编码也不是一件轻松的事情。总之,仅仅文献的搜集与编码这步就需要较长时间。
  第二,文献质量难以保证。如前文论述,几乎所有作者及编辑都有更愿意报道统计检验显著结果的趋向,但已发表论文所用的研究设计和方法也未必好于未发表者。其次,在实践中,有许多已经收集的文献因为对研究结果的有选择报道、错误的分析、对原始数据描述不完整等原因而不能被利用,这样就会降低元分析的整体质量。再者,实践中不可避免的有非随机性选择独立研究,这样的研究数据的质量也不一定高。众所周知,原始文献的质量是决定元分析研究质量最根本的因素,如果不能克服上述问题,元分析的质量难以保证。
  第三,元分析有时趋于被动。如前文所述,决定元分析结果质量的最根本因素是原始研究文献的质量。无论元分析计划多么缜密、搜集的文献数量多么庞大、统计方法多么强大,假如原始文献有问题,那么这些都是徒劳的。换句话说,元分析纵然可以无限地完善自身方法学上的缺陷,但只有原始研究质量提高了,元分析的质量才可能从根本上得到提高。   当然,尽管元分析也有其自身的缺点,但是相比较传统的文献综述而言,其优点还是非常清晰的,值得心理与教育学领域的研究者大力推广与应用。
  参考文献:
  [1]GLASS,G.V.Primary,Sencondary,and Meta-Analysis of Research[J].Educational Researcher,1976(10):3-8.
  [2] 郭春彦,朱滢,李斌.傳统统计方法面临的挑战:元分析方法[J].心理学报,1997(2):130-136.
  [3] 夏凌翔.元分析及其在社会科学研究中的应用[J].西北师大学报(社会科学版),2005(5):61-64.
  [4] KeithMuller.Statistical Power Analysis for the Behavioral Sciences || [J].Technometrics,1988,10.4324/9780203771587(4):499-500.
  [5]Hedges L V,Olkin I .- Statistical Methods for Meta-Analysis[J].New Directions for Program Evaluation,1985.
  [6]Higgins J P T,Thompson S G .Quantifying heterogeneity in a meta-analysis[J].Statistics in Medicine,2002,21(11):1539-1558.
  [7] 王吉耀.循证医学与临床实践[M].北京:科学出版社,2002.
  [8]Rosenthal,Robert.The file drawer problem and tolerance for null results.[J].Psychological Bulletin,1979(3):638-641.
  [9] Card N A .Applied Meta-Analysis for Social Science Research[M].New York: Guilford press,2012.
  [10]Rothstein H R,Sutton A J,Borenstein M .Publication Bias in Meta-Analysis: Prevention,Assessment and Adjustments[M].Hoboken,NJ:Wiley,2005.
  [11][12]陈本友,黄希庭.从元分析看传统心理统计的局限性[J].心理学探新,2005(2):61-64.
  [13]王沛,冯丽娟.元分析方法评介[J].西北师大学报(社会科学版),2005(5):65-69.
  基金项目:本文为广西壮族自治区中青年教师基础能力提升项目“元分析在心理和教育学中的应用研究”(2017KY1289)阶段性研究成果。
  作者简介:李金德(1985—),男,副教授,研究方向:心理测量、心理统计。
转载注明来源:https://www.xzbu.com/1/view-14906684.htm