您好, 访客   登录/注册

考试抄袭识别的心理测量学研究回顾

来源:用户上传      作者: 韩 丹 郭庆科 王 昭 陈雪霞

  摘要考试抄袭是最难识别的作弊方式。抄袭统计量(ACS)和人员拟合统计量(PFS)是识别抄袭的两类主要统计方法。ACS是根据被怀疑抄袭者与被抄袭者实际得分模式相似的概率来识别抄袭者。PFS 则把一个观察的项目得分模式与一定的测量模型相对比,来检验被试得分模式是否与测量模型预测的模式相吻合。其中,PFS由于在识别异常得分模式时存在一些干扰因素,所以对结果的解释存在多样性,应用较少。ACS是专门用于识别抄袭的统计方法,研究表明其识别率更高。目前ACS指标在美国的SAT和一些资格认证考试中已经得到广泛应用。
  关键词考试抄袭,抄袭统计量,人员拟合统计量,神经网络技术。
  分类号B841
  
  测验中有许多干扰因素会影响测验分数,使测验结果偏离真实。其中一个因素就是作弊(cheating)。作弊的方法多种多样,Cizek概括了三大类共59种作弊的方法,其中包括携带禁止使用的材料,通过现代通讯工具传送信息,代考等[1]。抄袭答案(answer copying)是众多作弊方法中的一种,也是在文献中经常提到的一种作弊方式,它指的是一个被试(copier)从另一个被试(source)那里得到全部或部分答案[2]。抄袭答案是最难识别的一种作弊方式[3],被试没有携带任何禁止使用的材料,即使监考者看见被试偷看旁边被试的答案,因为仅有视觉证据缺乏实物证据,所以不易举证被试抄袭答案。
  用统计方法来识别考试抄袭可以追溯到20世纪20年代,近30年来,大量的抄袭统计量(answer- copying statistics, ACS)被提出来并得到广泛的研究和应用[2~5]。从20世纪20年代开始美国高等教育考试机构就开始使用统计方法识别抄袭。ETS曾资助过许多抄袭统计量的研究,目前ETS已在SAT测验中引入K指数作为抄袭识别统计量[1]。此后Wollack将ω统计量用于MBE(Multistate Bar Exam)和MPRE(Multistate Professional Responsibility Examination)考试中抄袭行为的识别[6]。
  在我国考试作弊同样严重,而控制和检测作弊和抄袭的方法却非常单一,本文的目的是介绍主要的抄袭统计量的原理和性能,促进国内学者对这些统计量的研究和应用,从而提高考试的有效性和公平性。
  
  1 抄袭统计量的基本原理
  
  抄袭统计量(ACS)的统计原理是:在没有抄袭的假设条件下建立被试反应概率的模型,在此基础上得到被试之间存在相似回答模式的概率,进而发现异常的相似回答模式,存在这一模式的被试就被认为是可能的作弊者[7]。
  任何两个独立的被试都存在一些相同的反应。选择相同的正确答案是非常普遍的,尤其是高能力被试,即使对低能力被试,他们也非常有可能正确回答一些比较简单的项目。相似地,任何两个被试都可能做出一致的错误反应,每个项目一般都会有一些错误选项来吸引能力比较低的被试。尤其是那些比较难的项目,错误选项要比正确选项更容易被选择。因此两个被试选择共同的错误选项也是正常的。虽然在一些项目上做出匹配回答是可以接受的,但某种类型的匹配回答却是异常的。两个能力比较高的被试是不可能选择相同的低频错误选项,相似地,低能力被试也不可能正确回答非常难的项目,也就是说,如果低能力被试在较简单的项目上答错,那么他在难项目上就不容易答对。这种匹配回答较少时并没有统计意义,但如果有许多这样的匹配发生,就有了统计学意义[6]。
  ACS就是在以上假定的基础上提出的。所有的ACS在计算时依据的都是被怀疑抄袭者与被抄袭者实际得分模式相似的概率。ACS一般被分为两类[1]。一类是把观察到的被怀疑抄袭者和被抄者匹配的反应模式与一个已知的理论分布(如标准正态分布)进行对比[8~10]。第二类则是首先要建立参加相同测验的被试(examinees)与被抄袭者(source)作出匹配反应模式的分布(经验分布或者经验分布的近似估计),然后把观察到的被怀疑抄袭者和被抄袭者作出相同反应模式的概率与之进行对比(转引自[2]),将理论上出现概率小的匹配模式确定为可能的作弊模式。
  
  2 主要的抄袭统计量及其性能
  
  所有的抄袭统计量[2,8,9,11]都是以被怀疑抄袭者和被抄袭者匹配的反应数目为基础。但这些统计量也存在一些差异。ESA、K、 、 和S1等统计量是以匹配错误回答数来定义并建立抽样分布的[2,12,13]。而Bm,g2,ω和S2等统计量则即考虑匹配的错误回答数,也要考虑匹配的正确回答数[9,10,13]。
  2.1 以匹配错误回答数目为基础的抄袭统计量
  研究者认为如果两个被试一致正确回答的数目很大,可以有两种解释:一是这对被试的能力都很高,二是一个低能力的被试从一个高能力的被试那里抄袭答案[14]。因为不可能推测出那种解释是正确的,所以一些抄袭统计量主要集中在对匹配错误回答的识别。
  早期的研究者如Bird(转引自文献[15])所提出的抄袭统计量多数基于经验方法,统计量的概率分布难以确定,参数估计不准确,识别率不高,因此都没有得到广泛应用。针对早期统计量的不足,Holland提出了K指数(转引自文献[2]),Sotaridina和Meijer对其不足进行改进提出了 、 和S1、S2指数[2,13]。这些统计量都表示由于偶然因素导致的匹配回答的概率。其中除S2之外都是以匹配错误反应为基础来识别抄袭答案的统计量。这些统计量的区别主要在于变量M(各被试与被抄者的匹配的错误回答的数目)的虚无分布和参数估计方法的不同。
  2.1.1 K系列指数
  在识别抄袭者时,我们把其中一个被试叫做抄袭者copier(c),指的是被怀疑抄袭答案的被试。另一个被试叫做被抄者source(s)。c被怀疑从s那抄袭答案。则K指数可表示为
  
  2.5神经网络技术
  神经网络(NN)是近年来发展起来的一种以计算机为平台的技术,它是一些数学模型的集合,这些模型模仿生物神经系统的一些特性,使其具有适应性生物学习的功能[18]。该方法运用神经网络把问题分类,把各种输入模式分配到不同的类别中。这个分类任务包括两步。第一步是用一系列要研究的反应模式的典型样本作为训练(training)样本来训练神经网络,去识别感兴趣的反应模式。第二步是应用,就是用训练过的神经网络去识别相似的反应情况,包括观察到的和没观察到的。在这个任务中,对于一个成功的神经网络,它能把从少数典型样本得到的信息推广到在训练期间没有用到的相似的反应模式中去。当一个作弊者的项目得分模式与被用来训练这个网络的得分模式有相似的特性时,它就被识别为抄袭者[18]。
  2.6 人员拟合统计量
  人员拟合统计量(person-fit statistics, PFS)是识别抄袭答案的另一类统计方法,此类统计量的原理是:把一个观察的项目得分模式与一个测验模型条件下的得分模式进行对比[16],来检验被试得分是否与测量模型相拟合。如果不拟合就表示存在抄袭。
  Levine和Robin,Hulin等指出PFS能用于识别抄袭答案,而且应该非常灵敏(转引自文献[15,16])。因为如果一个低能力的被试从一个高能力被试那里抄袭几个比较难的项目,PFS的值就会变大甚至超出正常情况。Madsen比较合理的使用了这些统计量,他用Rash的人员拟合统计量来识别假被试的潜在的异常反应模式,这些假被试尽力“装坏”,以至于不能产生非常高的分数(转引自文献[16])。虽然他的研究结果非常不具有说服力,但他提出了这种应用的潜在可能性。Sotaridona、MeijerVan和van der Linden和Sotaridona研究了用PFS识别由于抄袭答案(或者作弊)造成的不拟合得分[2][13][18]。

  相对于ACS,关于PFS统计量的研究和应用较少,Cizek认为其统计检验力比较低[7]。造成这一现象的原因是:PFS主要用于识别各种异常行为[19],如:作弊,猜测、预先知道答案、默认反应风格,社会期望性反应等,识别出来的异常行为不仅仅局限于抄袭答案。也就是说如果被试的得分模式与项目反应理论的模式不拟合,我们也不能断定被试间存在抄袭的行为,因为其它的异常行为也能导致不拟合。而ACS主要是针对抄袭答案这种作弊的方式提出的一种统计识别方法,因此更有针对性。
  
  3 关于各抄袭统计量性能的实验研究
  
  在ACS的发展过程中,新的统计量不断提出,新统计量的提出者一般要对其识别率和错误率进行检验,并与其他统计量进行对比。国外的相关研究可分两类,一类是模拟研究,一类是真实数据研究。模拟研究一般是用Monte Carlo等程序生成被试数据,再从中选择一定比例的被试(如5%),将其对部分题目的回答修改为与其他被试(即被抄袭者s)相同,这些被试就是抄袭者(c)。真实数据则是选择某个真实测验中的数据,将一部分被试的部分题目改为与其他被试相同,分别作为抄袭者(c)和被抄袭者(s)。这两类研究都是人为地生成抄袭者,目前还没有见到对真实抄袭者的研究。
  以下我们重点介绍关于近期提出的ACS统计量的有影响的几个模拟研究和真实数据研究。
  3.1模拟研究
  
  4 总结与展望
  
  4.1 各抄袭统计量性能的综合比较
  自抄袭研究的统计方法产生以来,被提出的抄袭统计量有20多种,每一个统计量的提出都以改进识别率为目的,并把I型错误率控制在理论值之下。研究者对这些统计量的性能进行了反复对比。
  ω是研究最多的统计量,它能很好地控制I型错误率。在大样本和小样本条件下识别率都高于其它统计量。Sotaridona和Meijer指出如果称名反应模型的项目参数能被可靠的估计,ω可能是识别抄袭答案的最好选择,因为它对所有能力水平的抄袭者和小样本条件的下的抄袭者都灵敏[2]。但估计IRT模型的项目参数时需要大量的样本,这与小样本条件下ω统计量可以很好的识别抄袭者相矛盾。因此,Wollack和Cohen研究了小样本(100)对ω统计量的影响,研究表明即使不能精确的估计称名反应模型的项目参数,也不会显著降低ω统计量的性能[20]。但在项目反应理论的假设条件被违背时ω统计量是否具有稳健性目前还缺乏研究。
   指数与其它的K指数相比由于改进了对参数P的估计,识别率得到改进,但仍不如ω有效,但研究表明随着被试的增加 的识别率不断增加,所以当样本量足够大(大于2000)时可以考虑使用 指数。
  S2指数除了包含匹配的错误分数之外还包含匹配的正确分数的信息,在识别率上明显好于S1,而且由于使用泊松分布来近似估计M的分布,在一定程度上又改进了K系列指数的识别率。但S1和S2不能用在小样本情形。另外,与其它指数相比S1和S2的计算相对简单,所以在应用中也是较好的选择。
  转化二项式基础上的统计检验和Kappa抄袭统计量,虽然反应过程建立模型的方式不同,但都只用到从c和s反应模式得到的信息,且不受被试总体的影响,识别率很高。因此它们也属于有发展前途的统计量,值得推荐。另外神经网络技术也是一种非常有潜力的方法。
  4.2 现有抄袭统计量的不足之处
  有关抄袭统计量的研究取得了很大进步,在一些重要考试中还得到了大规模应用。但该领域的研究目前还存在很多局限。主要体现为:
  4.2.1 任何一个抄袭统计量不是在所有的条件下都有效
  没有一个统计量在所有的实验条件下都能准确的识别抄袭者。在题量少,样本量小,α错误低,抄袭量小时,即使性能好的统计量如ω等的识别率也很低。还有一些统计量如g2等只在极端的实验条件下才有效。
  4.2.2 研究结论不系统,不能概括所有研究条件
  转换二项式为基础的统计检验、Kappa抄袭统计量和神经网络技术是新近提出的性能较好的统计量,在一定程度上克服了原有统计量的缺点,但对这些统计量还缺乏全面系统的研究,已有研究设计的条件单一,且缺少与其它统计量的对比研究。
  4.2.3 依赖于对被试的现场观察
  大部分抄袭统计量需要预先通过观察确定被怀疑抄袭者和被怀疑被抄袭者,当不知道这些信息时就无法进行识别。PFS和神经网络技术克服了上述缺点。PFS把被试的得分模式与一定的测验模型进行对比,当与测验模型不拟合时就识别为作弊者,神经网络技术把被试的反应与训练阶段输入的作弊模式进行对比,当输入的模式中存在与被试的作弊行为相符合的模式就可认为发生了作弊。但PFS和神经网络技术也存在问题,PFS识别出的异常行为不一定是作弊,也可能包含其它的异常行为,神经网络技术也受到输入模式的限制,当被试的作弊行为和输入模式不符合时识别率就会下降。且大长测验中输入所有的得分向量几乎不可能,使该方法受到很大限制。
  另外,虽然抄袭统计量是非常有价值的抄袭识别工具,但它和其它的统计方法一样都是以概率论为基础,都会导致统计推论错误。被试间的异常匹配可能是由于偶然因素造成的,也可能是由于抄袭导致的。因此要最终确定是否作弊,还要依靠行为观察资料。
  4.2.4 缺少真实数据的研究
  现有研究中多以模拟研究为主,模拟研究所设定的条件都较为理想,与实际情况有相当大的差别。即使有的研究者考虑了半真实数据研究,但研究中的作弊者也是人为生成的,其结论也难以推广到真实情景。由于真实情景中情况更为复杂,因此现有的统计量是否有效还有待验证。
  4.2.5 模型假设存在不完备之处
  以上讨论的抄袭统计量都或多或少地存在模型假设不完善的问题。如模型的虚无假设为c没有抄袭s的答案,备择假设为c抄袭s的答案。但以匹配错误回答为基础的统计量没有考虑到因猜测因素而导致被试答案匹配的概率。以匹配正确和错误回答为基础的统计量则没有考虑因被试知道题目答案而导致答案匹配的概率。另外,多数抄袭统计量在计算时并没有利用全部匹配信息。
  4.3 将来的研究趋势
  4.3.1开发出能对抄袭这种异常得分模式进行识别的专用PFS
  PFS在识别抄袭时,由于存在除抄袭之外其它的一些异常得分模式,导致其识别率比较低。而最近提出的PFS如单维性假设为基础的统计量(Lzm和UB),或者是以曲线图形法(Kemel平滑曲线)和以回归分析法为基础的个人拟合函数(PRF)都被用来识别具体的偏差行为。若较难项目组的拟合统计值(即Lzm值)低于容易项目组,或项目得分的Kemel平滑曲线呈倒U型,就可以认为这种异常行为模式是抄袭。但是这些统计量只能识别极特殊的抄袭行为,对抄袭行为普遍有效的PFS统计量还有待探索。
  4.3.2 多级记分测验的抄袭行为有待研究
  现有的抄袭统计量都是在题目为0,1记分的基础上提出的,因此都是只适用于识别2级记分测验中的抄袭行为。对多级记分测验则缺乏研究。随着考试题型的多样化,对多级记分测验中抄袭统计量的研究就显得越来越重要。
  4.3.3 充分利用答题信息,改进假设模型
  一个好的抄袭统计量应该充分利用被试的抄袭信息,包含相同正确答案和相同错误答案,及相同遗漏答案信息。这就需要对统计量的假设模型进行完善。另外就是要寻找更合适的近似分布,使数据和模型拟合,并对参数进行准确的估计。
  4.3.4加强现场研究
  各统计量的有效性最终要通过现场研究来验证,而现有的研究似乎都停留在实验室研究阶段。因此有必要与考试管理机构合作,运用真实测验数据得到更有说服力的证据,同时推动其在实践中的应用。

  4.3.5神经网络技术研究
  神经网络技术的最大问题是在训练阶段要输入所有可能的作弊模式,否则有些作弊行为就不能识别,由于要输入的模式量巨大,在长测验中几乎无法实施。对这一局限的改进方法是使输入模式的更有概括性,同时提高模式识别的智能化水平。神经网络技术带有人工智能的性质,可以说代表了本领域一种新的发展趋向。
  
  参考文献
  1 Cizek G J. Cheating on tests: how to do it, detect it, and prevent it. Mahwah, NJ: Lawrence Erlbaum Associates, Inc, 1999
  2 Sotaridona L S, Meijer R R. Statistical properties of K-index for detecting answer copying. Journal of Educational Measurement, 2002, 39: 115~132
  3 Thompson K N. A procedure for identifying the possibility of student answer copying on multiple-choice examinations. Marketing Education Review, 1994, 4: 6~13
  4 Sotaridona L S. Cheating detecting using the S2 copying index. The Philippine Statistician, 2003, 52: 59~67
  5 Wollack J A. Comparison of answer copying indices with real data. Measurement in Education, 2003, 40: 189~205
  6 Wollack J A. Detecting answer copying on high-stakes tests. The Bar Examiner, 2004, 73, 35~45
  7 Cizek G J. An overview of issues concerning cheating on large-scale tests. A annual meeting of the national council on measurement in education, 2001
  8 Wollack J A. A Nominal Response Model approach for detecting answer copying. Applied Psychological measurement, 1997, 21: 307~320
  9 Frary R B. Detection of answer copying on multiple-choice tests and interpretation of g2 statistics. Educational Statistics, 1977, 2: 235~256
  10 Bay L G. Detection of cheating on multiple-choice examinations. Annual meeting of the American Educational Research Association, 1995
  11 Sotaridona L S, van der Linden W J. A statistical test for detecting answer copying on multiple-choice tests. Journal of Educational Measurement, 2004, 41: 361~377
  12 Bellezza F S, Bellezza S F, Detection of cheating on multiple-choice tests by using error-similarity analysis. Teaching of Psychology, 1989, 16: 151~155
  13 Sotaridona L S, Meijer R R. Two new statistics to detect answer copying. Journal of Educational Measurement, 2003, 40: 53~69
  14 Jacob B A, Levitt S D. An investigation of the Prevalence and predictors of teacher cheating, 2001
  15 Frary R B. Statistical detection of multiple-choice answer copying: review and commentary. Applied Measurement In Education, 1993, 6(2): 153~165
  16 Meijer R R, Sijtsma K. Methodology review: evaluating person fit. Applied Psychology Measurement, 2001, 25: 107~135
  17 Sotaridona L S, van der Linden W J, Meijer R R. Detecting answer copying using the Kappa Statistic. Applied Psychological Measurement, 2003, 30: 412~43
  18 Sotaridona L S. Screening of cheating on high-stakes tests using neural network. 2003
  19 Meijer R R. Diagnosing item score patterns on a test using item response theory-based person-fit statistics. Psychological Methods, 2003, (8): 72~87
  20 Sotaridona L S, van der Linden W J. Detecting answer copying when the regular response process follows a known response model. Journal of Educational and Behavioral Statistics, 2006, 31: 283~304
  21 Nelson L R. Using selected indices to monitor cheating on multiple-choice exams. Journal of Educational Research and Measurement, 2006, 4
  
  “本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”


转载注明来源:https://www.xzbu.com/1/view-161271.htm