您好, 访客   登录/注册

语料库在语言测试中的应用

来源:用户上传      作者:

  摘要:自20世纪60年代第一个大型计算机语料库BROWN建成以来,语料库主要在以下四个方面为语言测试领域作出了重要贡献:①试题的选材、编写和校对;②考试大纲中词汇表的制订;③以实证为基础的评分量表的制定;④自动评分系统的研制。本文梳理了语料库在语言测试中应用的历史与现状,展望其发展趋势和前景,并指出其应用的局限性。
  关键词:语料库;语言测试;评分量表;自动评分系统
  中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2007)08-0047-0005
  
  “语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言文本或话语片段而建成的具有一定容量的大型电子文库”(杨慧中,2002;33)。自20世纪60年代第一个大型的计算机语料库布朗语料库(Brown Corpus)建成之后,许多语言学家就在孜孜不倦地探求语料库在语言研究、教学大纲制定、教材编写、词典编纂、自然语言处理、机器翻译等方面的应用。但一直到90年代,语料库在语言测试中的应用才受到关注。Mlderson(1996)首先大胆构想了语料库在语言测试开发、选材、编写、评分等各阶段中的潜能。在随后的十年里,英国UCLES(Universityof Cambridge Local Examinations Syndicate)和美国TOEFL(Test 0f English as a Foreign Language)等语言能力评估机构都在积极尝试语料库在语言测试中的应用。在我国,曾用强(见杨惠中等,2005)已设计出基于语料库的中国学生英语词汇能力诊断测试系统。可见,语料库在语言测试中的潜力巨大。国外在这方面的研究方兴未艾,我国的研究也已起步。本文从以下四个方面探讨了语料库在语言测试中的贡献:①试题的选材、编写和校对;②考试大纲中词汇表的制订;③评分量表的制定;④自动评分系统的研制。论文梳理了语料库在语言测试中应用的历史与现状,展望了其发展趋势和前景,并指出其应用的局限性。
  
  1 语料库在语言测试中的应用
  
  
  1.1 测试开发
  语料库在测试开发的各阶段都发挥着较大作用,尤其在试题的选材、编写和校对方面可以为命题人员提供重要信息。
  1.1.1 试题选材
  试题的代表性和真实性是试题效度的重要保障。在出题过程中,命题人员一方面可通过检索按选材来源、体裁、社会语言变体、时间或难度等参数标注过的本族语语料库快速、便捷地查找出试题所需要的真实素材;另一方面,还可通过与本族语语料库的比较,验证新编制试题材料的代表性和真实性。
  例如,Biber等人(1998,2002,2004)通过调查美国四所大学中师生之间、学生之间、教职工之间、学生与校内服务人员之间的对话以及课本内容、课程简介和大学制定的各种宣传材料等书面材料,建立了TOEFL2000学术口语和书面语语料库(TOEFL 2000 Spokenand Written Academic language Corpus),为TOEFL听力、阅读和写作考试的设计者和命题人员在选材方面提供了实证基础。而在此之前,语言测试专家都是凭借他们的直觉和经验来进行试题的选材工作。虽然专家的直觉和经验常常是对的,但却并不总是可靠。如Biber等人发现许多教师和命题人员认为动词的进行时在口语中出现的频率很高,因而此语法形式成了教学和测试中的重点。但通过对语料库的分析却发现一般现在时的使用频率比其要高20倍之多。英语学习者对进行时的过度使用与教学和测试对此语法项目的过度强调有很大关系。另外,为了验证新编制试题材料的代表性和真实性,Biber等人还研发了一系列诊断性工具(diagnostic tool)如:LXMDCompare、VocabProfile等。利用这些工具,通过把从其他渠道选来的试题材料的语言特征与语料库中的真实材料的语言特征进行比较,命题人员可较为客观地判断出新编制试题的代表性和真实性。
  由此可见,随着语料库的建设和计算机技术的进步,试题的质量也会稳步提高。
  1.1.2 试题的编写和校对
  学习者语料库尤其是赋码过的语料库能帮助命题人员了解学习者在外语学习过程中的难点、历年考点的分布等信息,这为编写有效的试题提供了重要信息。例如,剑桥大学ESOL(English for speakers of OtherLanguages)考试部利用CLC(Cambridge Learner Cor-pus)和本族语语料库在试题编写过程中进行以下活动(Barker,2004;2006):
  (1)利用CLC调查历年考点的分布、考生错误的分布和频率等信息,命题人员确定哪些词或语言结构应该作为考试的重点;
  (2)利用本族语语料库如BNC等为题项的内容和语言建立真实的语境;生成反映自然、真实用法的语言;找出题项的最常用形式(如,一个名词是最常用单数还是复数);命题人员在测试语言的某一方面时,核查他们关于该项目的直觉是否正确。
  在试题的编辑和校对过程中,命题人员可以利用语料库完成以下工作:
  (1)核查某一搭配、习语等的使用频率、真实性;
  (2)核查特定语境的得体性;
  (3)根据某一题项的使用频率和真实性确定该项目被测的可能性和必要性;
  (4)核查词典上无法提供的一些词义上的细微区别以确保命题人员的语感正确;
  (5)核查干扰项(distractors)在语言变体中成为正确答案的可能性。
  在我国,白雅(2005)利用CLEC(Chinese LearnerEnglish Corpus)语料库和BNC语料库对高考英语短文改错试题的真实性进行了验证。她按照CLEC的错误分类方法把短文改错中的错误类型分类,并将其在试题中出现的频率与CLEC中错误类型的频率分布相比较,调查试题中让考生改错的考点是否的确是考生在写作中常犯的错误。同时,她还利用BNC语料库对正确答案的真实性进行了核查。虽然她对试题真实性的调查只限于对频率的分析,但她的研究方法为试题任务的真实性分析提供了一个崭新的视角,弥补了定性分析的不足。同时,对命题人员也有较大的启示作用。
  总之,从语料库在整个测试开发过程中所起的作用可以看出,语料库已成为试题开发和编写人员的得力助手和不可缺少的参考工具,为整个试题的校正工作提供坚实的实证基础。
  1.2 考试大纲中词汇表的制订
  考试大纲中的词汇表指导试题编写人员在出题过程中了解哪些词汇在可用范围内,哪些词汇超出考试大纲。在语料库应用于语言测试领域之前,专家们一般根据自己的知识和经验来制订词汇表,这就使其带有较大的主观性和随意性。语料库的出现则解决了此问题。根据本族语语料库和学习者语料库,测试专家 可制定出客观、可靠的词汇表。例如,Ball(2002)根据BNC(British National Corpus)、CLC、BTC(BusinessTexts Corpus)和TWC(Trial Web Corpus)四个语料库为UCLES的BET(Business English Certificates)考试研制了词汇表,该表对该商业英语考试中的核心词汇的确定、核心词汇在学习者三个不同语言水平上的分布和测试任务类型对BEC产出性词汇(productive vocabula-ry)的影响等多方面的研究提供了独特的实证性信息,为试题的效度提供了保障。 在我国,《大学英语教学大纲》的设计者根据《上海交大科技英语语料库》(JDEST,Jiao Tong UniversityCorpus for English in Science and Technology)生成的词表中词汇的词频、覆盖面和分布情况等指标制定了大纲中的词汇表初稿,使之成为我国语言教学、教材编写、语言测试的重要依据。
  1.3 评分量表的制定
  评分量表是对语言使用者运用语言能力的一系列描述。通常,每个量表由低到高分成几个不同等级,分别描述语言能力发展的不同阶段。在口语或写作等主观性较强的考试中,评分量表是评分员为考生语言行为表现评分的主要参考依据。好的评分量表既要反映出不同语言水平考生的典型语言特征又要具有良好的区分度和可操作性,它是提高评分员之间信度的重要保证。国际上现使用的大多数评分量表如FSI(For-eign Service Institute)、ACTFL(American Council on theTeaching of Foreign Languages)、ALTE(Association ofLanguage Testers in Europe)等都是语言测试专家凭主观经验制订的,但也有少数几个评分量表如剑桥ESOL考试中心开发的写作部分的通用量表(Common Scalefor Writing,CSW)则是利用语料库提供的信息,采用定性和定量相结合的方法制订出来的(Hawkey,2001;Hawkey和Barker,2004)。在研究了大量的评分量表之后,ESOL考试中心的专家利用语料库中的样本把学习者分成高、中、低三个等级,然后研究三个不同等级中学习者的典型语言特点(包括错误分析)和评分员打分时的评语,将其作为写作能力量表中不同等级描述(descriptors)的基础。然后用WordSmith和其它计算机辅助设备对三个不同水平考生的样本进行了词汇量、词长、句长、段落长度、语言错误等多方面的调查,作为对CSW量表的补充和效度验证的方法之一。
  同样,Hasselgren(2002)也利用定性和定量相结合的方法,通过对两个自建的小型学习者语料库(两个语料库的库容量共为35,544单词)和与之平行的英语本族语语料库(库容量为17,629单词)的比较,发现口语的流利性与交际信号词/词组(small words)在口语中的使用频率、丰富程度、得体性和在话轮中的分布有较高的相关性。所谓交际信号词是指那些在口语中出现频率很高,充当衔接和组织话语作用,保持交际流畅,但本身信息量较少的词或词组如“well,sort of,auright,I think,I mean,or something,not really”等。通过对英语本族语语料库的分析,Hasselgren(2002)确定了19个最常用的交际信号词/词组。然后她考察了这些词/词组在高分组语料库和低分组语料库中的使用和分布情况,结果发现口语流利性好的学生比流利性差的学生更频繁、更得体地使用不同的交际信号词/词组。因此她建议对考生交际信号词/词组的使用情况的描述应成为口语流利性评分量表中的一个重要组成部分。虽然Hasselgren使用的语料库还较小,但她的实证研究使主观性较强的口语评分量表也向客观化、科学化的目标迈出了突破性的一步。
  从上述实例可见,无论是在写作或口语评分量表的制定中,语料库都发挥了巨大作用,弥补了传统量表的不足,使评分量表具有更强的真实性、客观性、可靠性和概括性。
  1.4 自动评分系统的研制
  现阶段,自动评分系统主要应用在写作部分。尽管作文自动评分系统受到一些专家和学者的质疑,但已在大规模风险考试(如:GMAT、TOEFL等国际性外语考试)和学生自我评估中得到了广泛应用。自动评分系统的优点是不言自明的,它不但节省人力、物力、时间等,而且比人工评分更客观,一致性信度也更高。
  自动评分技术的研究起始于20世纪60年代。美国杜克大学(Duke University)教授Page率领研究团队于1966年开发出第一套作文自动评分系统PEG(Pro―ject Essay Grader)。后来,该项技术又得到了进一步发展。到目前为止,常用的自动评分技术还有文本范畴技术(Text Categorization Technique)、潜在语义分析技术(Latent Semantic Analysis)和多层面语言特点识别技术(Hybrid Feature Identification Technique)。虽然以上四种技术各有其特点,但它们的共同之处,是在对已进行过人工评分的大量样本的分析基础之上,找出可参照的语言特点(如词汇复杂度、句子结构、篇章结构、写作内容等参数),然后对其它作文评分。例如,由美国ETS(Educational Testing Service)的Attali和Burstein博士及其研究小组利用自然语言处理技术(Natural Lan-guage Processing)与信息撷取技术(Lnformation Retriev-al)开发的E-rater(Electronic Essay Rater)作文测评系统,通过扫描考生的作文并将其与存储数据库中的成千上百的已计分的作文模板相比,决定考生的最后得分。虽然自动评分不可能完全代替人工评分,但E-rater2.0版本与人工评分之间的相关系数已达到0.93,并且E-rater的复测信度(test-retest reliability,0.6)还要高于人工评分的复测信度(0.5)(Attali & Burstein,2005)。
  可喜的是我国自动评分技术也取得了一定进步。由梁茂成博士开发的英语作文自动评分系统已于2005年申请国家专利。该项发明可实现对中国学生英语作文的大规模机器评分,具有极大的实用价值(梁茂成,2006)。
  由此可见,基于语料库资源开发的自动评分技术虽然在目前阶段都还不够完善,但其在语言测试中的巨大潜力却不容质疑。
  另外,语料库中储存了历年考生的试题和答案,因 而语言测试研究者常常利用其进行试卷间的任务类型、难度、考生答题表现等诸方面的比较分析。在评分员培训、评分过程标准化以及在较长时间跨度内维持评分标准的一致性和调查语言测试中的偏差性等方面,语料库也都提供了重要信息,为确保考试的公平性和推动语言测试研究向纵深和横向两个方面的拓展做出了重大贡献。
  
  2 语料库在语言测试中的应用趋势和前景
  
  语料库在语言测试中的应用尚有许多可挖掘之处。Barker和Taylor(Barker,2006)探讨了语料库在语言测试中的应用趋势和前景。结合她们的讨论,笔者认为在未来的几年里语料库在以下几个领域的运用还可能进一步发展:
  (1)研发和完善自动评分系统
  上文已提到作文自动评分技术虽已有了长足进步,但仍主要停留在对语言表层特点的分析,而口语自动评分系统还在研制之中。除了依靠计算机技术外,自动评分技术更需要建立在对语料库中大量样本的分析、比较之上,只有找出代表写作和口语能力的典型特点以及不同水平组考生的区别性特征,自动评分系统才能更准确、更客观、更公正地反映考生的真实水平。
  (2)研发剽窃识别系统
  测试中的作弊、抄袭或剽窃现象早已引起人们的普遍关注。2003年1月GRE(Graduate Record Exami-nations)考试中心的官员宣布参加2002年11月23日考试的考生中有64名考生的分数被取消,原因是他们作文中的一些句子和段落结构与语料库中的文本雷同。由此可见剽窃识别软件已在国际考试中心得到应用。而剽窃识别软件的工作原理就是把考生的文本与语料库中储存的文本进行词频、关键词、句子和篇章结构等方面的匹配,找出相似程度。如果相似度超过一个指定的数值,则考生的作文有抄袭之嫌疑,然后再由专家进行鉴定分析,最后得出定论。但目前使用的剽窃识别软件也和自动评分软件的弱点相似,只能分析语言表面特征。如果考生剽窃了他人的思想而不是文字,剽窃识别软件则很难判别出来。因此,剽窃识别软件也需利用语料库提供的信息做进一步改进。
  (3)进一步开发语料库在考试设计中的功能
  考试设计和开发涵盖多个环节,其中包括试题选材和编写。如前所述,语料库在试题选材和编写方面已开始显现其潜在价值。在此基础上,语料库在语言测试中的价值还可以进一步挖掘。比如,我们可以探讨如何利用语料库资源来编写或修订考试规范,使考试规范更具有客观性和指导意义。我们还可以探索如何利用语料库资源(本族语或学习者语料库),对某一测试项目内容的代表性和覆盖面进行验证。语料库资源不仅有助于大规模考试的研发,同时对校内考试也应起到积极的辅助作用。校内考试在大多数情况下属于学业考试,即标准参照考试。该类考试具有较强的针对性,而语料库内资源在某种程度上具有广泛性的特点。如何在标准参照考试的设计和开发中使用语料库资源,做到点面有机结合,也可以成为我们今后研究的关注点之一。
  (4)其它方面
  在研究考生写作和口语能力发展,了解考生答题策略,生成新的题型,调查语言变体如美国英语、英国英语、香港英语等对考生的影响并确定语言变体在测试中的可接受程度等诸方面,语料库也都能为研究者提供重要信息,帮助决策者做出正确判断(Taylor和Barker,2006)。总之,语料库在语言测试领域有着广阔的应用前景。
  
  3 语料库在语言测试应用中的局限性
  
  虽然语料库为语言测试研究者提供了重要信息,带来了诸多帮助,但语料库仅仅是一种数据库,不可能提供测试者所需的所有信息。而且,对语料库所提供的信息的应用也存在一定的局限性(Alderson,1996;Barker,2006)。首先,不同的语料库提供的参照点不一样。每个语料库都是按不同的参数和目的而设计的,因此在使用语料库时,要考虑语料库中样本的代表性和相关性,不能顺手拈来,随意使用;否则,做出的判断和决策可能是误导性的。其次,语料库提供的证据不是定论性的。研究人员应利用其他方面的信息来验证和补充语料库所提供的信息。解释语料库数据如同解释统计数据一样,需要专业理论知识。这是因为许多语料库,尤其是学习者语料库,受到测试任务、测试类型和其他方面要求的限制,因而在解释语料库提供的数据时,研究者需要考虑诸多因素对数据的影响。
  
  4 结语
  
  从以上分析可以看出,语言测试开发者和研究者已把语料库作为试题开发和科研调查的重要工具。语料库提供的信息可使试题的内容更加真实,准确和更具代表性,使评分量表更加客观、可靠和更具概括性。当然,受益于语料库的不仅有测试开发者和研究者,还有教师和学生。通过语料库生成试题不仅能节约教师的时间,提高工作效率,还能让学习者根据自己的时间进行自评,及时了解弱项,提高学习效率。
  我国已建立了几个英语学习者口笔语语料库(桂诗春、杨惠中,2003;文秋芳、王立非、梁茂成,2005;杨惠中、卫乃兴,2005)。但这些语料库在外语测试中的应用还很少有人探讨。本文所述的语料库在国外测试领域的具体应用和广阔前景,为我国外语测试界带来诸多启发。我国的语言测试研究者应认识到语料库在外语测试中的潜力,并积极运用这一强大的工具改进和完善我国的外语测试。
转载注明来源:https://www.xzbu.com/9/view-11651037.htm