论语言测试的信度与效度
来源:用户上传
作者: 李卫真 王志华
摘要: 语言测试在一定程度上影响着教学的方向。本文试从语言测试的信度与效度角度出发,结合语言测试对语言教学的反拨作用,探讨语言测试的最佳方案。
关键词: 语言测试信度效度
一、前言
语言测试主要有三个方面的用途:第一,用于语言教学;第二,用于语言研究和教学研究;第三,用来选拔人才(刘润清,1991)。信度和效度是大学英语学业成绩测试应具备的两个质量特征,“信度涉及测试结果的稳定性和可靠性,即测试是否对学生的语言水平提供可靠的度量”;“效度则涉及测试的有效性,即一套训练题所考的是否就是设计人想要考的内容”(李筱菊,1997)。信度是效度的必要条件,但不是充分条件。一个测量工具要有效度必须有信度,没有信度就没有效度;但是有了信度不一定就有效度。信度低,效度就不可能高。因为如果测量的数据不准确,就不能有效地说明所研究的对象。信度高,效度未必高。例如,如果我们准确地测量出某人的英语分数,也未必能够说明他的应用能力强。效度高,信度也必然高。作为衡量学生英语水平的一种尺度,考试本身必须可靠有效。
二、语言测试中信度与效度的发展
信度与效度原是计量学中的两个重要概念,上世纪30年代被引入语言测试领域。“半个世纪以前,传统的语言学家把语言作为一种孤立的现象加以研究”(刘润清,1991),在这一基础上产生了语法翻译法,它以语法分析、翻译和短文写作为主体,“测试内容严重偏重文法,忽视口语”(李筱菊,1997),此时的测试毫无信度可言,虽有一定效度,但因其“测试形式和评判标准的极大主观随意性而大大减弱”。随后语言测试进入了心理结构测试阶段,“结构主义语言学家们把语言看成一个形式体系,是语音语法和词汇的总和”(刘润清,1991)。此时的测试取消了作文和翻译,而以多项选择和人机对话的方式取而代之。此时的测试内容由于考查的语言点覆盖面广,且以多项选择为代表的客观试题能够确保评分的一致性和客观性,受人为因素影响较小,因而信度较高。从20世纪60年代起,在乔姆斯基的转换生成语法的理论基础上产生了综合测试法,即把语言化零为整,对学生的综合语言能力进行测验,如阅读理解、完形填空、阅读改错、会话等。但后来的社会语言学家海姆斯发表了《论交际功能》,强调了语言的社会功能,在这一理论影响下产生了交际教学法和交际测试法,因此,语言交际功能的培养是语言教学的首要目标,“同时衡量语言交际能力也成为语言测试的首要任务”(刘润清,1991)。此时的语言测试由第二阶段的一味追求测试的信度转向信度与效度的综合考虑,并趋向更高的信度和效度(罗明姝,2006)。可以说语言测试理论和实践上的发展都是以信度与效度为主线进行的,信度与效度是语言测试的永恒主题。
三、英语测试题型信度与效度的分析
1.客观性试题的信度与效度
结构主义测试学家称多项选择题、判断正误题和只有一个标准答案的题为客观性试题,因为这些题的评分不受阅卷人主观因素的影响,“英语多项选择题通过测试学生所掌握的语音、词汇、语法等知识,推断学生生成句子和理解句子乃至语篇的能力”(张颖1988)。由于多项选择题考点层次较低,因此,在有限的测试时间内,多项选择题通常题量较大,语言点覆盖面较广泛,这使阅卷人能够更精确地推断出考生语言知识的掌握程度,因此,“多项选择题的信度较高”。此外,多项选择题衡量标准明确,评分信度(scoring reliability)高,评分标准较客观,为学生的语言水平提供了科学准确的度量,从而进一步提高了测试的信度(罗明姝2006)。
然而,多项选择题虽然信度较高,但与主观题型相比,其效度并不高,“影响多项选择题效度的主要原因有两种:一是多选题孤立地对构成语言的元素进行测试,忽视了这些元素在实际语境中的相互作用功能”(张颖1988),而语言的本质不仅仅是各元素处于孤立状态时呈现出的特性,更重要的是其在语言整体体系中相互作用时体现出的功能(罗明姝2006),“因此,多选题考查的只是学生对语言形式的识别能力,而对其语言知识的运用和产出能力无从判断,对其语言知识与语境特征相结合时的创新能力无从判断”(张颖1988)。例如:客观题只能覆盖十分有限的能力范围和较低的学习层次。不少客观题考查的语言知识,只是识别或回忆学过的内容。要全面地考查语言能力,要深入地考查交际能力及其他能力,用客观题就十分勉强。有的多项选择题,命题者旨在考查理解甚至应用、分析、综合、评价,但是所有的供选择的答法都是命题者拟好了的。学生的反应是以命题者的语言和思想为基础的,并不一定是自己的语言和思想。此外,从答题的情况看不到被试者思维的过程。客观题答题常常只需要打钩、画圈、划线、涂黑字母,学生在整个测试过程中没有直接使用英语表达思想的机会(汪先锋、倪建乐,2000)。
2.主观性试题的信度与效度
主观题更能引导学生把注意力放在语言的实际应用方面,有实用价值,更有利于学生在英语方面素质的提高。如近年来考试中出现的听写、简答、翻译、作文、口试等题型,“一篇试卷中主观性试题越多,其效度就越高”。例如,一篇英语作文取决于考生英语词汇、语法、句法、写作语篇等综合知识的运用。“翻译与作文是综合运用语言的能力测试项”,“翻译、写作能力的测试在当今英语测试中仍显示着其不可替代的作用”;简答题重在考查学生对于所给材料的理解能力,对于提出问题的分析能力和回答问题时的语言组织能力;“听写测试涉及多种综合技能的练习,包括听力理解、听力记忆、幅度拼写、识别音段和熟悉语言的语法和词汇模式,等等”(余建中,1997)。主观题的优点在于:能够覆盖所有的学习层次,被试有比较宽阔的空间表达自己的思想、在句子水平或语篇水平方面表现出应用英语表达思想的能力;考查的深度深,主观题命题可以根据总任务用主观题进行综合性考查。还可以设置情景,了解交际能力和其他能力,了解应用英语的正确程度、流畅程度和得体的程度,并且可以在一定程度上了解被试的思维过程,有利于发现问题,查找产生问题的根源。
3.信度与效度的价值取向
笔者认为,在信度与效度难以兼得的情况下,语言测试应首先考虑效度要求,并在此基础上尽可能地追求信度。最重要的是,语言测试以效度为主导有助于改善其对外语教学的影响。语言测试给外语教学带来的影响即人们常说的反拨效应,是衡量语言测试的重要标准之一,因此,也被许多测试学家称为反拨效度(汪先锋、倪建乐,2000)。语言测试以效度为主导无疑将给外语教学带来积极的影响,推动外语教学向培养学生实用语言能力的方向发展。大规模的语言测试中测试内容和形式的微小变化都会给外语教学带来显著影响(邹红英,1997)。在大学英语考试(CET)阅读理解部分加入翻译题给大学英语教学带来的有利影响是显而易见的(刘建达,1998)。要提高语言测试的效度必须设计出能有效反映受试者语言能力的题型和努力使主观题的评分尽量客观化。
现代语言测试重信度轻效度的倾向的主要表现是测试内容和形式脱离语言运用实际,重知识识记、轻能力应用。这种偏向在测试题型上的表现是测试以客观题为主,从而导致多项选择题的泛滥使用。现代语言测试的这种偏向在应试教学的作用下给外语教学带来了严重的负面影响,阻碍了外语教学培养交际能力这一目标的实现。外语学习者往往经过多年的学习,尽管可能以较好的成绩通过考试,但其语言实用能力却很低下。
没有信度意味着测试结果不是受试者语言行为的真实反映,我们就难以藉此测量任何东西。而没有效度只有信度的测试也毫无意义,因为它准确地测量了与语言能力不太相关或毫不相关的东西。我们同样无法从考试结果中推测受试者真正的语言能力。
四、结语
从信度与效度等测试标准出发来评价或取舍一种测试模式或测试题型是必要的,但却远远不够,重要的是要考虑它们对教学的深远影响,看它是否有利于教学目标的实现;对学生是否有一种有利的引导作用和督促作用。一套试题中兼有客观题与主观题,且主客观题的比例适中,才能保证考试的可靠性与准确性,增强测试的目的性,起到良好的反拨作用。这是由社会对应用型人才的要求所决定的。
参考文献:
[1]刘润清.语言测试和它的方法.外语教学与研究出版社,1991.
[2]李筱菊.语言测试的科学与艺术.湖南教育出版社,1997.
[3]罗明姝.英语测试信度与效度的多维分析.郑州航空工业管理学院学报,2006,(12).
[4]张颖.多项选择题的理论依据和实际效果.外语教学与研究,1988,(2).
[5]汪先锋,倪建乐.从信度与效度的相互关系看语言测试的取向.山东外语教学,2000,(3).
[6]刘润清.论大学英语教学.外语教学与研究出版社,1999.
[7]余建中.CET听写填空题的阅卷问题研究.外语界,1997,(1).
[8]邹红英.大学英语测试新思路.山东外语教学,1997,(1).
[9]刘建达.测试方法对阅读测试的影响.外语教学与研究,1998,(2).
转载注明来源:https://www.xzbu.com/9/view-984393.htm