效度概化:预测效度元分析的30年成果述评
来源:用户上传
作者: 王拥军 俞国良
摘 要:效度概化是通过元分析技术对普遍化的预测效度的估计。元分析是研究效度概化问题的技术,是对具有“预测因子一效标”特征的相关数据进行定量综合的方法。效度概化促进了预测因子与效标之间关系的理论研究和应用研究,是应用心理学领域近30年(1977~2007)来最重要的进展之一。30年来的效度概化研究表明,认知能力测验、知识和技能测验、人格测验、结构化面试和评价中心技术等的预测效度具有鲁棒性、对应性和联合增值性。
关键词:效度概化;元分析;预测因子:预测效度
1 前言
预测因子和效标之间的关系是应用心理学的理论基础。预测因子就是预测工作绩效的个体特征和环境特征。效标是工作绩效的操作性评价标准。效度概化(validity generalization)是基于前人的研究数据对普遍化的预测效度的估计。效度概化关注的问题是个体或环境特征因素(预测因子)与工作绩效(效标)之间的普遍化的、稳定的关系强度。效度概化是元分析技术与心理测验相结合的产物。美国教育学家Glass在综述心理疗法的效度时正式将定量综合的方法命名为元分析(meta-analysis),并创造了效应值(effect size)概念,普遍化的预测效度就是效应值。在1977年Schmidt和Hunter在元分析的基础上首先提出了效度概化概念,用元分析技术寻找效应值的过程就是效度概化。在这30年间(1977~2007),Schmidt和Hunter始终是研究效度概化问题的技术和理论核心,他们的贡献在于创立、发展和繁荣了元分析和效度概化研究。这30年是元分析和效度概化研究的黄金时期,在应用心理学领域涌现了一大批研究效度概化的研究文献,仅由1977到2003年就有500多项效度概化研究。Rosenthal等在效度概化和元分析方面也有很大贡献。
元分析是对同一主题下多个独立研究结果进行数量综合,从而概括其总体效应值的研究方法。Hunter等认为,元分析不是仅对原始研究结果进行数据平均处理的统计方法,而是一种研究范式。元分析包含一般研究的共同特征,例如,问题选择、定义变量、确定虚无假设和备择假设、抽样、数据处理和结论。元分析的基本原理是把每个原始样本的研究数据看作元分析研究的一个样本事件,这些样本事件组成一个新的样本分布,依据概率原理和误差校正原理可以求出相应的集中趋势和离中趋势指标,其集中趋势指标就是效应值。常见的效应值有均数差、标准化均数差、相关系数等。针对平均数差异显著性检验的元分析研究的效应值是均数差或标准化均数差(d),而针对变量间相关的元分析研究的效应值是效度系数(p)。与其他测量数据的元分析相比,Hunter-Schmidt元分析范式所处理的数据是具有“预测因子,效标”特征的心理测验数据,更适宜研究心理测验的结构和效度。
在寻找预测因子与效标之间的稳定关系的30年里,效度概化对应用心理学的理论、方法和实践都有深厚影响。在理论上,效度概化研究促进了心理学家对工作绩效与其影响因素之间关系的研究,使得预测因子与效标之间的真实关系更清晰了。在方法上,Hunter-Schmidt元分析范式被认为是研究预测因子效度概化问题的最准确和最流行的方法,元分析有助于整合矛盾复杂的研究数据,可以校正效应值的抽样误差、测量误差和全距限制误差。在实践上,效度概化研究促进了人力资源管理、心理咨询、教学培训等领域的发展。效度概化研究澄清了一些人事决策的迷雾,提供了关于个体认知能力、人格维度、工作知识、专业技能、管理风格、面试和评价中心技术的预测效度的清晰数据。本文所列的文献都是近30年来基于Htmter-Schmidt元分析范式的效度概化研究成果,这些研究成果内容丰富,而且具有很高的实用价值和理论价值。
2 知识、能力与技能(KAS)测验的效度概化研究
知识(knowledge)、能力(abilty)和技能(skill)是个体职业智能因素的三项核心内容。知识包括个体所拥有专业、人文、科学和管理等方面的知识。技能包括岗位技能、组织管理技能等。能力主要包括一般认知能力(general cognitive ability)和特殊能力。关于知识、能力与技能测验的预测效度元分析研究很多,下面列举主要的效度概化的研究成果。
预测因子既可以是测验(如,结构化面试),也可以是心理特征的维度结构(如,一般认知能力)。应用心理学非常关注测验,常把测验成绩作为决策依据。效度概化的目的是确认预测因子和效标之间的关系强度,代表着普遍化的预测因子与效标之间的关系强度的数字指标是效应值(p)。一般说来,p在0.5以上表明预测因子和效标之间的关系强度很强,其预测效度很好;p在0.3-0.49之间表明预测因子与效标之间的关系强度较强,其预测效度较好;p在0.2-0.29之间表明预测因子与效标之间的关系强度一般,其预测效度基本可以接受;p在0.19以下表明预测因子与效标之间的关系强度较弱,其预测效度较差。效标和预测因子之间的关系特征可以概括为鲁棒性(robustness)、对应性(correspondence)和联合增值性(mcremem)。
鲁棒性是指测验的预测力具有跨情境的一致。总体上说,一般认知能力测验具有较强的鲁棒性。一般认知能力是接受、处理和发出概念信息的能力,主要包括推理判断、言语理解、数量关系、空间能力、知觉速度等。一般认知能力反映了人的基本认知操作过程中的智慧功能水平。基本认知操作是通过基本认知加工方式(识别、分析、综合、判断、推理等)操作概念的基本表现形式(语词、数字和图形)的过程。智慧功能水平是指个体在单位时间内所能加工的信息的质量和数量。因为基本认知操作贯穿于几乎所有的工作之中,它是一个人的学习能力、适应能力和工作潜力的基础,因此,正如表1所示,一般认知能力测验的预测效度是一致的,一般认知能力测验对几乎所有工作都有很高的预测力,被广泛接受的效应值为0.51。认知能力在心理学中的作用,就像碳在化学中的作用一样,就像水在生物学中的作用一样。
效标和预测因子之间关系的对应性是效标和预测因子之间的关系强度因其他因素的影响而产生的变化或分离现象。对应性在认知能力测验上的表现主要集中在两个方面。一个方面是,在效标和预测因子在难度上对应一致时,预测效度增加。Murphv认为认知能力测验在所有工作、所有绩效和所有环境下的预测效度不是完全一样的。如表1所示,认知能力测验对高难度工作的预测效度是0.58,而对低难度工作的预测效度只是0.26。另一个方面是,在效标和预测因子在类别上对应一致时,预测效度也增加。知识、技能和认知能力测验所测量的心理特点是不一样的。知道是什么(即陈述性知识)
和怎样做(即程序性知识),不一定会做(依赖于技能),会做不一定会做好(依赖于能力)。因此,工作样本测验与认知能力测验在不同情境下的预测效度是不一样的。首先,与此认知能力测验相比,工作样本测验不适用于没有经验者(如,新入职的大学生);其次,知识和技能测验值会随时间变化而变化,而认知能力测验是一个相对稳定的预测因子。
效标和预测因子之间关系的联合增值性是指两种或几种有效测验联合使用时的预测效度会比单独测验时的预测效度高。知识和技能是问题解决、创造性思维和复杂工作的基础。所以,工作知识测验和工作样本测验的效度都不低。工作知识测验、工作样本测验与认知能力测验联合使用而得到的联合效度分别是0.58~110.63,其增量效度很大,分别是0.07和1]0.12。Roth等的元分析结果显示,认知能力测验和工作样本测验的预测效度分别为0.39~和0.33,而两者的联合效度是0.45,效度增量为0.06。
3 管理测验的效度概化研究
管理测验主要测试管理者的知识、技能和能力等,具体形式包括评价中心技术、管理能力和倾向测验等。评价中心技术的核心包括无领导小组讨论(1eaderless group discussion)、角色扮演(role-playing game)、文件筐测验(in-basket test)、问题解决(problem solving exercises)等。许多大公司,如AT&T,通用电气公司、国际商用机器公司、福特汽车公司等都采用了这项技术,并建立了评价中心机构来评价管理人员。虽然有许多个案证明评价中心技术有效,但自从有了元分析技术,关于评价中心技术预测效度的“真值”才日渐清晰。
从效标和预测因子的鲁棒性关系来看,评价中心技术的预测效度具有稳定性。Gaugler等的元分析研究发现评价中心技术的整体预测效度为0.45。Arthur等对34篇文章进行元分析,确认了评价中心技术(Ac)的三个重要维度和它们的预测效度,即,问题解决能力(0.39)、影响他人(0.38)和组织计划(0.37)。Arthur为评价中心技术对工作绩效的预测力来自于认知能力和人际关系处理能力。情境判断测验(SJTs)是一种基于分析困难情境问题对策的测验形式,可以测量人的决策能力和管理能力。Clevenger等的运用元分析方法研究了102个项效度资料(10640个被试),结论是,情境判断测验对工作绩效的预测效度为0.34。在Schmidt等的元分析研究中,评价中心技术的整体预测效度为0.37,若与一般认知能力相结合的联合效度为0.53,比一般认知能力的预测效度增加了0.02(即增量效度)。基于多年的人才测评实践,我们认为,以无领导小组讨论为代表的评价中心技术能很好地展现个体在认知智力、情绪社会智力、人际协调、团队建设、指挥控制和个人影响力等方面的特征,能很好地预测个体的管理绩效。
评价中心技术的预测效度存在明显的对应性。效标的种类很多,但可以用两个维度来描述,即任务绩效维度(task performance)和周边绩效维度(contextual performance)。前者与产品、服务、质量、效益和效率等相关联,后者与协作、支持、遵从等亲社会行为相关联。Schmitt等的元分析显示,当效标为“成就(即,客观的业绩)”时,认知能力测验和评价中心测验的预测效度分别为0.437和0.312;当效标为“职位变化(主要是周边绩效的结果)”时,认知能力测验和评价中心测验的预测效度分别为0.282和0.412。也就是说,出现了预测效度分离的现象,这种现象是效标和预测因子在类别上是否对应的结果。若两者对应则预测效度高,否则就低。在Gaugler等的元分析研究中,发现评价中心技术的预测效度依赖于效标类别和评价目的。具体地说,当效标类别不同时,评价中心技术的预测效度不同,例如,效标为“工作绩效评价”时的预测效度为0.36,效标为“培训成绩”时的预测效度为0.35,而效标为“潜力评价”时的预测效度为0.53;另一方面,当评价目的不同时,评价中心技术的预测效度也不同,评价目的为“提升”时的预测效度为0.30,评价目的为“用于早期鉴定”时的预测效度为0.46,评价目的为“研究”时的预测效度为0.48。
与任务绩效和周边绩效相类似,Judge等提出了管理行为的两个潜在构念,一个是关注关系(providing consideration),另一个强化结构(initiating structure)。用于测量管理者行为倾向的测验包括领导行为描述问卷(the leadershipBehavior Description Questionnaire)等。多年来这些测验的预测效度资料比较混乱。Judge等运用元分析方法研究了163项有关“关注关系”的相关数据和159项有关“强化结构”的相关数据。结果发现,关注关系测验对领导力的预测效度为0.48,强化结构测验对领导力的预测效度仅为0.29,而且,关注关系的领导与属下满足感、动机和领导影响力相关,而强化结构的领导与领导工作绩效、团体绩效相关。变革式领导mational leadership)和交易式领导(transactional leadership)是近20年来兴起的关于领导类型的研究课题。变革式领导是通过预期未来和设想愿景,来激发追随者。交易式领导主要通过在奖酬上的交换来影响追随者。交易式领导的行为模式包括三类,即例外,积极模式、例外,消极模式和相机奖惩模式。例外,积极模式的领导倾向于在属下遇到困难之前积极指导,例外,消极模式的领导倾向于在属下遇到困难之后才采取行动。Judge等的元分析发现,变革式领导和相机奖惩交易式领导都是有效的领导方式,它们对属下绩效的综合预测效度为0.44和0.39。而例外,消极模式管理者和自由放任式管理者对属下绩效的综合预测效度呈负相关,分别是为-0.18和-0.37。IIies等的元分析发现,交易式领导对属下的组织公民行为的综合预测效度为0.38,也验证了相机奖惩是有效的领导方式的结论。
4 人格测验的效度概化研究
Casio等在回顾人格测验时认为,在组织管理领域,1960~1979年是人格测验“黑暗的日子”,这些日子里,缺乏令人信服的人格结构理论,人们对人格测验在人才选拔领域的价值充满怀疑。20世纪80年代的两项成就为这个领域带来了“春风”。一个是“大五”因素理论的确立――这是对以往人格要素的新概括;另一个是元分析――这是对以往研究方法的新突破。在人格研究领域,对“大五”理论的5个维度的认识逐步趋向一致。“大五”理论的五个维度分别是外向性(extraversion)、宜人性
(agreeableness)、责任感(conscientiousness)、情绪性(neurotieism)和开放性(openness toexperience)。由于其普遍性和应用价值,“大五”理论和元分析技术在心理学基础学科和应用学科中逐渐渗透,“开花”。
1990-2003年间就有16篇关于人格因素的效度概化研究,Barrick等评论说,这是应用心理学或人力资源管理领域少有的现象。Barriek等运用元分析技术概括了67项研究和12602名被试发现,责任感能有效地预测所有职业群体的职务绩效和所有效标(0.22),责任感和开放性对个体成就特征的行为(如,受训成绩)有高的预测力(0.22,0.25)、而责任感、外向性、宜人性等三个维度均与管理绩效的“合作行为”(如,管理和警察的行为)维度相关(0.25,0.21,0.10)。Judge等对73个样本和222个相关数据进行元分析发现,“大五”对领导行为的联合预测效度(multiple correlation)为0.48,“大五”作为人格维度对领导行为具有较好的预测效度,Judge等的研究支持领导的特质论观点。“大五”与领导行为的总相关分别为:情绪性为-0.24,外向性为0.31,开放性为0.24,宜人性为0.08,责任感为0.28。外向性、责任感、开放性为显著正相关,而神经质为最大负相关,宜人性的相关不明显。
Judge等对65个研究进行元分析发现,大五与工作动机的联合效度为0.49,“大五”对工作动机(包括目标设置、期望和自我效能感)具有较好的预测效度。责任感和情绪性与工作动机之间有强相关。外向性和开放性是目标设置、自我效能感的显著正相关,宜人性(-0.18)是目标设置的显著负相关。总体上说,责任感测试具有较强的鲁棒性,而其他因素的效度对应性较强。责任感的预测力来自于它的激活作用和自我约束机制,责任感是个体的事业成就的动力源泉和调节动力取向的杠杆。在责任感维度上得分高的个体,在工作中更有责任心、更坚忍不拔,更容易取得成就,因而责任感对一般工作和领导工作都有显著的预测力。外向性、开放性和情绪性对领导力有很好的预测力,但对一般任务绩效的预测较低。宜人性是影响人际交往成败的经常性因素,也是影响目标设置的经常性因素,但宜人性对领导力和一般任务绩效的预测较低。正是由于“大五”因素的这些特点,在人事选拔中个性测验是可以接受的预测因子。关于大五因素预测效度的增值性,McDaniel等的元分析结果显示,认知能力测验、情境判断测验和大五因素测验的预测效度分别为0.25、0.20和0.16,认知能力测验和情境判断测验的联合效度为0.28,情境判断测验和大五因素测验的联合效度为0.23,认知能力测验和大五因素测验的联合效度为0.29,认知能力测验、情境判断测验和大五因素测验的三者的联合效度为0.31。需要说明的是,McDaniel等的研究没有依照Hunter-Schmidt元分析范式进行全距限制误差校正,所以,与同类研究相比,其效应值偏低。
根据作者12年的人才选拔测评实践来看,人格测验的预测效度比一般认知能力测验的预测效度低;在竞争性人才选拔测评中,人格测验的预测效度低;在非竞争性、自愿性的职业规划性测评中,人格测验的预测效度还可以接受。究其原因,我们认为主要有两点值得关注,一是人格测验多是自陈量表,应试者答题时容易受社会赞许性的影响,其结果自然不能反映真实情况;二是对人格概念的传统理解值得商榷。我们认为,作为一种自动化的认知能力和情感社会智力的人格概念,比作为特质的人格概念更有助于提高人格的预测效度。认知能力和情感社会智力是个体在接受、处理和发出概念信息、自我信息和人际信息时的能力,是可以通过能力性测验而非自陈量表来测量的。这些观点需要将来的独立样本研究和元分析研究的检验。
5 结构化面试的效度概化研究
面试是人才选拔和配置的重要方式。面试一般分为非结构化面试和结构化面试两种。非结构化面试是指评委在面试中没有固定的问题、可以随时提问和追问的面试法。结构化面试是指对同一职位的应试者按同一顺序问同样的问题,多位评委按同一标准评分的标准化和规范化的面试。关于面试预测效度的效度概化研究概括如表4。
表4显示,关于结构化面试的预测效度元分析结果大体一致,其预测效度的鲁棒性较强。Wiersner等、McDaniel等、Marchese等、Schmidt等、Huffcutt等、Campion等七项元分析研究的结构化面试的效应值的均值为0.42,而且七项研究之间标准差很小;但非结构化面试的效应值不高。结构是事物内部各组成要素之间的相互关联和相互作用的结合方式。“结构”和“功能”常常相伴随。标准化和系统化结构的功能相对稳定、有序,而杂乱无章的结构的功能常常是复杂多变。“结构化”了的面试是一种标准化和系统化的面试形式,其功能自然相对稳定、有序和有效,其测验信度和预测效度更好。结构化面试是一项系统工程,影响其效度的因素包括工作分析的准确性、测评要素的适当性、测评题目的有效性、评分方法的科学性和实施过程的规范性等。Conway等针对160项预测效度的元分析结果显示,面试的信度系数的分布区间为0.26~0.56,因而,结构化面试的预测效度最大值为0.67,而非结构化面试的预测效度最大值为0.34,非结构化面试的预测效度低的主要原因是其重测信度和复本信度较低。
结构效度分析显示,结构化面试比认知能力测验所测量的内容更广泛,结构化面试所测量的内容包括认知能力、岗位知识、经营管理理念、工作技能、行为风格、个性成熟度、组织适应性等因素。所以结构化面试的增值效度很明显。如,Schmidt等测得一般认知能力测验(0.51)和结构化面试(0.51)并用时的预测效度能达到0.63,其增值效度为0.12。关于结构化面试的整体效度研究已无悬念,研究者开始对不同类别的结构化面试的预测效度进行元分析研究。Taylor等关于情景性(主要问“假设性的”问题)结构化面试(其对总体绩效的预测效度为0.45)和行为性(主要问“过去曾经发生的”问题)结构化面试(其预测效度为0.56)的元分析就是一个预测因子对应性研究的典范。概括地说,以严格的工作分析为基础、以情景经验性问题为重点、以规范性评分方法为准绳的结构化面试的预测效度更高。
6 人才背景资料的效度概化研究
在人才选拔过程还会参考到人才的一些背景资料,如受教育年限、年龄等。关于这些信息的预测效度也有人实施了元分析研究。过去的成功常常伴随着自身能力、美誉度、业绩资料和个性成熟度的变化,这些因素有助于预测个人的未来成就。如表5
所示,普遍的结论是同事评价、背景调查和传记资料对个体的工作绩效有高的预测力,而笔迹、年龄等因素对工作绩效没有预测力。由此看来,“不唯学历、不唯资历和不唯年龄,重视能力和业绩”的人才观是正确的。
7 效标为工作场所中的社会行为的效度概化研究
上述效度概化研究中的效标主要是个体任务绩效,从操作定义层面说,常用的效标是上级对下级的个体综合绩效水平的评价。在组织管理环境中,任务绩效很重要,同时作为周边绩效的主要指标的社会行为(如侵犯行为、组织公民行为等)也很重要。近年来,关于社会行为的预测因子效度概化研究有了新突破。我们列举两个例子,一个是关于工作场所中的骚扰行为(workplace harassment),一个是关于工作场所中的侵犯行为(workplaceaggression)。工作场所中的骚扰行为被定义为在工作场所中有目的地伤害其他同事的行为,具体表现为威胁、冲突、欺负等。骚扰行为与侵犯行为没有本质区别。
在这两组元分析研究中,负性情绪和特质愤怒是个体特征,其余为环境或岗位特征,但这些因素都能预测工作中的侵犯或骚扰行为。这些元分析结果支持个体、环境和行为是相互影响、彼此联系的观点。社会行为取决于当时环境和个体特征的性质和相互作用。这两组元分析结果显示,那种认为只要有超人的智力和经验的个体就能成功的观念是错误的,在人才选拔过程中只重视智力、经验和性格等个体因素,而不重视环境和管理的观点是片面的。
8 评价与展望
关于效度概化和元分析研究的意义,Murphv认为效度概化是应用心理学领域近30年来最重要的研究进展之一。效度概化使我们清晰地认识到预测因子的重要性和权变性。在元分析产生之前,基于小样本研究的预测效度常常不是一个准确的结果,而当小样本研究的设计不适当时,其预测效度会出现更大的偏差。面对相互矛盾的效度数据,研究者的解决方法有两种,一种方法是重复实验一一这可能产生新的矛盾数据;另一种是主观挑选自己“满意”的数据――这可能低估或高估真实的预测效度。在元分析产生之后,研究者就可以有信心地采用由元分析得到的较准确的总结性信息了。与单个原始样本研究相比,元分析依据的信息量和信息条件更多,其结论的准确性和可靠性更高。元分析可以避免模棱两可的结论,可以避免没有必要的重复实验,也可以充分利用“爆炸式增长”的效度信息。
对元分析技术的再认识有助于提高效度概化的质量。学者们对于元分析技术的理论和计算方法的理解是有分歧的。对效度概化的批评主要集中在元分析技术上。元分析技术产生主观性偏差和客观性误差的原因是多方面的。一方面,研究者对元分析方法的理解和认识是一个过程,因而计算效应值的方法也会有变化;另一方面,研究者在收集和处理研究材料也会有偏差。“文件抽屉问题(Filedrawer problem)”就是一个问题。有些元分析方法只关注已经发表过的文章,不接受未发表的文章的信息资料,致使元分析结果出现出版物偏差(publication bias)。如关于工作样本测验的预测效度有两个差别较大的效应值,一个是0.54,另一个是0.378。两者的差异在于Hunter用了许多未发表的数据,而Schmitt所用的数据全部来自于Journal of Applied Psychology和PersonnelPsychology杂志。“苹果和橘子问题(apple andoranges problem)”是第二个问题。有些研究者在收集元分析的原始信息时忽略了原始信息之间的区别,对不同质的测量对象或数据进行元分析研究会影响最终的分析结果,这就好像将苹果和橘子放在一起来归纳苹果的一般特点的做法一样。解决“苹果和橘子问题”的办法就是在分门别类地处理已有数据上下功夫。第三个问题是我们命名的“藤蔓和树问题”。藤蔓种类与藤蔓高度的相关依赖于藤蔓所攀附的树。如果不考虑树的特点,则藤蔓种类与高度的相关就不会准确。此时,树就是中介变量。在研究预测因子和效标的关系时,若不考虑它们之间的中介变量则效应值会有偏差。第四个问题是我们命名的“树和树林问题”。究竟有多少棵树才算树林呢?虽然这个数目不能太小,但确切的限制数目是模糊的。与此相类似,在进行元分析时至少需要多少个原始数据呢?这个问题也没有确切的答案,从经验上看,元分析一般至少需要20个原始样本数据。以结构化面试的元分析为例,Wiersner等元分析了150项个案],McDaniel等元分析了245项个梨、Marchese等元分析了31项个案、Schmidt等元分析了40项个案、Huffcutt等元分析了114项个案。
关于效度概化研究的未来发展,我们认为有四种趋势是值得关注的。一是细化或深化预测因子的效度概化研究会更流行。例如,针对不同类别或不同环境下的结构化面试和评价中心技术的元分析研究可能是新方向,关于人才选拔诸多方法及其相互关系的效度概化研究依然是研究重点。二是针对新的预测因子的探索式元分析研究会有新发展。在Schmitt等的元分析中就没有详细的人格测验元分析研究,而当“大五”因素理论出现之后,关于“大五”因素的元分析研究如雨后春笋。举一反三,我们可以预见,胜任特征、情绪智力、周边绩效和变革型领导等新概念将成为元分析研究的新阵地。三是关于效标和预测因子间关系的理论研究可能要取得新进展。例如,环境和个体特征交互作用,认知和情绪智力对与不同绩效的分离性预测等领域可能有突破性进展。四是普通样本研究和元分析相结合的研究倾向会更普遍。元分析对原始数据的加工深度和可控性是有限的。所以,我们的设想是,用元分析研究促进普通样本研究的创新,增进原创研究的开展;用普通样本研究拓展和补充元分析的定量综合,激励元分析研究的理论探索。
转载注明来源:https://www.xzbu.com/1/view-161153.htm