自动作文评阅系统在写作教学中的应用途径
来源:用户上传
作者:李焱伟 封伟
摘 要:自动作文评阅与人工评阅相比在文本识别速度、文本特征统计能力、评分标准执行力度方面都有明显的优势,但是在文本特征识别范围方面有明显的劣势。这些基于自然语言处理技术的评阅系统还不能完全取代人工评阅。因此,我们在写作教学中应该有选择地、灵活地把人工评阅机制和机器自动评阅系统有机的结合起来,让两种评阅机制发挥各自的优势。
关键词:自动作文评阅;人工评阅;写作教学
1 研究背景
近年来,随着人工智能在社会各个领域的发展,自然语言识别技术也逐渐应用在了外语教学领域。其中一个发展迅猛的细分领域就是机器自动评阅系统在外语测试中的研究和应用。这个领域的技术在近20年里已经逐渐成熟,国内外机构研发出了多个作文自动评阅系统,并且这些系统已经在一些大规模外语测试中成为一个辅助的测评工具,甚至在一些测试中已经完全取代人工评阅。
针对这些作文自动评阅系统,国内外学者展开了一系列研究。其中国外学者主要关注自动评阅系统的设计原理、效度等问题,而多数国内学者比较关注这些系统和人工评阅的效度对比研究。国内学者普遍认为,作文自动评阅系统在评分效度上接近人工评分,但是并没有在自动评分系统的应用途径做深入的分析。本文认为应该全面评价一下作文自动评阅系统的优劣,并以此为基础探索这些系统在写作教学中的应用途径。
2 自动作文评阅系统的优势
Williamson(1999)认为机器评阅有五个优点:第一,准确性:自动评阅系统可以精准统计文本的细节特征。第二,客观性:自动评阅系统不会受到情感或者观念的干扰。第三,一致性:自动评阅系统可以保证采用同样的评分标准评阅所有的作文。第四,复现性:自动评阅系统可以在一段时间之后仍然保证采用同样的评分标准。第五,溯源性:由自动评阅系统给出的分数可以得到合理的解释。
本文认为这五个优势并非都对外语测试有指导意义,所以我们对这些Willianson的看法做了一些修正。我们认为自动评阅系统的优势主要体现在以下三个方面:第一,从对文本特征的统计能力上看,机器更有优势。目前的自动评阅系统可以精确统计一篇作文里的单词个数、句子长度、重复率、以及各种语言错误的数目,甚至有的系统还可以统计句子之间的衔接手段的使用情况。而人工只能从整体上大概估计以下一篇作文在语言各个层面上的大概情况,然后根据自己的直觉给出评价。第二,从对评分标准的执行力度上看。机器不受其他因素干扰,能做到始终如一。这能确保系统对每篇作文采用的评分标准都是一致的。与之相反,人工评阅作文时,评分人员会受到情感影响,不同的评分人员对于评分标准的理解也有差异,或者在执行这些评分标准时过于偏重于某些标准。第三,从对文本的识别速度上看,机器识别速度更快。这能确保学生及时得到反馈信息。目前的评阅系统不仅可以对一篇文章进行评分,还以从文章结构、衔接连贯、词汇搭配和语法等各个层面上对一篇文章提供评价,甚至标注出一些词汇和语法错误并提出修改意见。这些任务的确也可以被教师完成,但是自动评分系统可以在几秒之内把这些反馈提供给学生,而指导学生数量较多的教师可能需要几天时间才能完成这些批改任务。
3 自动作文评阅系统的劣势
自动评阅系统一个最大的弊端是系统不能直接理解作文,只能通过一篇作文的表层的相关特征来间接的判断一篇作文的质量。因此,自动评阅系统在识别文本的范围上就有很大的局限性。通常来说,一篇作文里的一些基础特征,比如拼写,标点符号、语法错误、某些词汇搭配都可以被识别。但是,文章的内容扣题程度、连贯和衔接、论点的扩展、修辞手段都不能被系统直接识别。尽管每个系统都通过各种手段来分析作文的篇章或者观点方面的特征,也能针对这些问题为学生提供反馈信息。但是,这些手段都是间接的,并且也不够成熟。比如,Powers(2001)就做了一次实验来挑战e-rater系统的有效性。他们发现,考生如果故意使用一些比较复杂的词汇或者较长的句子就可以取得比较高的分数。我们也做了一些相似的实验测试国内的批改网系统。如果在一篇文章中多加入几个衔接词,系统就会给这篇文章的衔接方面给以较好的评价。
此外,即便是在语法和词汇这些基础的文本体征识别方面,自动评阅系统也不能做出完全正确的判断。我们测试了批改网、Iwrite 和Realskill这三个国内自动评阅系统,发现这些系统能较好地识别主谓一致、动词形式等方面的语法错误,但是在比较复杂的语法错误查准率就偏低。在识别词汇使用错误方面表现就更差一些,多数系统只能识别一些比较简单的介词搭配错误,而对于其他词性的搭配错误或者语义错误的识别度很低。虽然说各个系统都声称基于一些大型英语语料库,但是由于一些词汇都是有多个含义,而系统无法识别语境,因此系统还是很难判断大多数词汇使用是否准确。这些劣势都让作文自动评阅系统的效度受到质疑,并且给学生提供的反馈也不是完全可靠。
4 利用自动作文评阅系统的方式
既然自动作文评阅系统在评阅作文的效率更高、更加客观、反馈更加及时,我们就有必要在写作教学中利用起这个教学工具。但是,我们也要意识到这些系统尽管在不断升级还是不能准确识别一些文本特征。这就意味着我们要充分利用自动作文评阅系统的优势,在一定范围内容使用这些系统代替人工评阅。在一些情况下,作文自动评阅系统只能成为人工评阅的辅助工具。
4.1 机器评阅为主
在我国大学英语教学中,一个教师通常需要指导上百名甚至数百名学生,在一個学期的写作课程中又需要多次布置写作练习。在这种情况下,教师就很难抽出足够的时间评阅数千篇学生作文。因此,自动评阅系统的优势在这个情况下就可以得到充分的发挥。况且,平时练习的分数至多也就是平时成绩的一部分,所以评分即便有所差错也不会对学生的期末总评产生太大的影响。其次,系统还可以对学生每一次练习的作文提供及时的反馈,这些反馈虽然有一定局限性,但是对学生的语法、词汇和连贯衔接等层面的学习也有一定的指导作用。 在这个模式中,教师的只需要抽查有异常的评分结果。毕竟,教师对自己的学生的写作水平还是有大概的了解,当发现机器评分和自己预期结果有明显差异时,教师可以通过人工评阅的方式进行检验核实。国内一些作文自动评阅系统也会对一些有抄袭或者机译嫌疑的作文做出标注,教师只需要对这些作文进行人工评阅。教师在这个过程中是一个监督者和质量控制者的角色。这个模式可以极大减轻教师的工作量,又能确保学生得到及时的反馈。
4.2 机器评阅占一定比例
在这个模式中,机器评分和人工评分可以各占一定的比重,比如,自动评阅系统和评卷人对一篇作文评分后,分别得出一个分数。这两个分数的平均值就是考生的本次写作考试的最终成绩。这种模式是为了发挥自动评阅系统的客观性和一致性的优势,避免人工由于受到情感因素出现的偏差。而加上人工评阅又能确保评分的效度。这个模式适合应用到一些重要的写作测试中,比如,目前的托福考试的写作部分评分就引入了e-rater的评分。在这个评分模式中,人工评分和系统评分一定会有一定的差異。通常来说,都是预先设定一个差值的范围。当人工评出的分数和机器评出的分数差异超出预设的范围时,可以再找另外一个评卷人进行人工评阅。哪两个分数最接近,就取哪两个分数的平均值。目前,国内各种考试都是纸质考试,如果引入机器评分,必须有足够的基于网络考试的考位。因此,考位的匮乏决定了这个模式在目前还不能大规模开展。
4.3 机器评阅为辅
在第三种模式中,系统和评卷人都需要给每篇作文评分,但是系统评出的分数并不会出现在成绩单里,只是用来确保验证人工评分具有一致性。当系统评出的分数和人工评分的差异超过了预设的范围时,就会找另外一名评阅人来做出裁决。这个模式注重人工评阅的结果,是因为有些写作测试更加看重的是作文的观点是否新颖或者有批判性思维。而这些文本特征是很难被机器识别的。比如,目前在GRE考试中,就采取了这个评分的模式。这个模式不太适用于国内英语写作考试,毕竟国内英语考试主要考查多数英语学习者对英语基本知识的掌握情况,而并不关注观点的新颖或者有独到的见解。
5 总结
总之,基于自然语言处理技术的自动评阅系统虽然在不断智能化,但是目前还不能完全取代人工评阅的方式。因此,在写作测试和写作教学中,这个自动评阅系统还是应该和人工评阅结合起来。既要发挥系统的优势,又要避免他们的劣势,确保评分结果的客观性、一致性和准确性,也让学习者得到更及时的反馈。
参考文献:
[1]Williamson,D.M.,Bejar,I.I.,& Hone,A.S.(1999).Mental model comparison of automated and human scoring.Journal of Educational Measurement,36,158-184.
[2]Powers,D.,Burstein,J.,Chodorow,M.,Fowles,M.,& Kulich,K.(2001).Stumping e-rater:Challenging the validity of automated essay scoring(RR-01-03).Princeton,NJ:Educational Testing Service.
[3]陈冰情,张荔.基于自动作文评阅系统反馈的修改过程研究——以批改网为例[J].当代外语研究,2017,(4):37-48.
资助项目:本文系石家庄学院校级教学改革研究与实践项目“自动作文评阅系统在英语写作教学中的反馈效果研究”的阶段性成果(项目编号:JGXM-201507A)
作者简介:李焱伟(1980-),男,硕士,讲师,主要从事于外语教学研究。
转载注明来源:https://www.xzbu.com/1/view-15048996.htm