您好, 访客   登录/注册

学生成绩预测模型的对比分析

来源:用户上传      作者:王欣欣 汤军

  摘要:目的:旨在对比学生成绩预测模型。方法:共获取605条数据,共32个解释变量,通过特征选择剩余23个自变量,建立训练集和测试集,以G3为目标变量,分别构建SVM模型、神经网络模型和逐步回归模型,比较这三个模型的预测结果。结果:采用逐步回归模型预测学生成绩在最小误差、最大误差、平均误差、平均绝对误差和标准差方面均低于神经网络模型和SVM模型,在预测值和实际值的线性相关系数方面均高于神经网络模型和SVM模型。结论:在预测学生成绩上,逐步回归模型优于神经网络模型和SVM模型。
  关键词:学生成绩预测模型;神经网络模型;逐步回归模型;SVM模型;线性相关系数
  中图分类号:TP181 文献标识码:A
  文章编号:1009-3044(2020)01-0199-04
  1概述
  教育兴则国家兴,教育强则国家强。如何实现从我国是人口大国的现状走向人口强国的转变,实现中华民族伟大复兴,教育有着不可忽视的地位和作用。近年来,随着时代的进步和国家的发展,教育方式也在不断变化。现如今,通过对影响学生成绩各种因素的分析,实现对学生成绩的预测,从而有针对性的提高学生学习成绩是我国教育的主要目标之一。
  本文通过获取有关学生葡萄牙语成绩和与成绩相关的各方面数据,运用SPSS Statistics 20.0和SPSS Modeler 18.0软件,分别采用神经网络模型、SVM模型、逐步回归模型构建数据挖掘模型进行分析对比,构建合适的预测模型。通过对获取数据的分析,实现了对学生成绩预测的模型构建,对现代教育的发展起到了一定的积极作用。
  2数据准备与模型假设
  2.1数据准备
  本文所使用的两个数据集是来自葡萄牙Minho大学的Pau-loCortez通过对Gabriel Pereira中学和Mousinho da Silveira中学的学生发放问卷调查来收集关于学生葡萄牙语成绩数据,现数据公布于kaggle网站(https://www.kaggle.com/uciml/student-alco-hd-consumptionl。数据中包含schod、sex、Medu、Fedu、Mjob、Fjob等与学生葡萄牙语期末成绩相关的32个影响因素,数据集中包含649个样本数据。
  2.2模型假设
  通常,在建立模型前,需要先对模型提出假设:
  (1)假设学生的学习水平可以在一定程度上可以通过历史学习水平来反映,通过学生的以往成绩可以一定程度的预测未来成绩。
  (2)假设影响学生成绩的各个因素都是稳定的,不会因为突发情况使学生成绩大起大落。
  3数据预处理
  3.1数据描述
  原始数据中共包含33个变量,其中G3为目标变量,其余32个变量为解释变量,得到的模型宽度如表1所示。
  3.2变量赋值
  由表1可以看出,与目标变量G3相关的32个预测变量中,有些变量类型是字符串类型,比如school、Mjob、fjob、Pstatus等变量。所以需要对这些变量进行类型转换和赋值。本文运用SPSS Statistics 20.0软件对字符串类型变量进行变量转换和赋值,具体赋值结果如表2所示。
  3.3无用特征剔除
  由表1可知,本文中的输入变量共32个,但并不是每个变量都对预测目标变量G3有用,例如age变量系数低于阈值、paid单个类别过大,所以需要将这些变量进行剔除。本文运用SPSS Modeler 18.0软件,采用“特征选择”节点中的Pearson相关系数为判定准则,剔除输入变量相对于目标变量的重要性小于0.95的特征。经过特征选择后,由原始数据的32个输入变量剩余23个。最终的特征选择结果如表3所示。
  4模型比较
  本文对数据进行预处理之后,采用SPSS Modeler 18.0进行建模,将数据按70:30的比例分为训练集和测试集,先分别将神经网络模型、SVM模型、逐步回归模型在训练集上进行建模,再将建立好的模型在测试集上进行测试,最后对比测试结果。
  4.1神经网络模型的构建
  4.1.1神经网络
  神经网络是通过对人脑神经系统的一系列思考活动过程的模拟,建立一种能接收、处理和判断信息的类似于人脑结构和功能的系统,表现为通过各处理单元的相互连接而组成类似于人脑结构的一种网状结构系统,以此来达到处理相关非线性问题和逻辑操作的目的。图1为一个简单的三层神经网络,它包括输入层、隐藏层和输出层,各个层之间的连线代表权重。其中,输入层的节点对应的是待输入的预测神经元;输出层的节点对应的是目标神经元,目标神经元的个数可多可少,但是至少为1个;隐含层处于输入层和输出层的中间位置,隐含层的层数和节点数决定了神经网络的复杂程度。
  4.1.2神经网络模型结果分析
  从神经网络模型的具体预测结果的相关指标表4来分析,最小误差为-11.452,最大误差为6.004,平均误差为-0.163,平均绝对误差为1.77,标准差为2.589,预测值和实际值的线性相关系数为0.637,为中度相关,预测效果不好。
  4.2 SVM模型的构建
  4.2.1 SVM
  SVM(Support Vector Machinel支持向量機,是一种二分类模型,目的是求解一个超平面,根据间隔最大化的原则对样本数据进行分割,最终转化为解决一个凸二次规划问题。
  如图2所示,在低纬度(左边)上,正负类样本只能靠一个非线性平面(椭圆)来区分,但是映射到高纬度(右边)上,可以找到这样一个分离超平面,从而对样本数据进行分割。
  4.2.2 SVM模型结果分析   从SVM模型的具体预测结果的相关指标表5来分析,最小误差为-11.151,最大误差为5.457,平均误差为-0.183,平均绝对误差为1.458,标准差为2.322,预测值和实际值的线性相关系数为0.745,为中度相关,预测效果普通。
  对比神经网络模型的预测指标,在最小误差、最大误差、平均绝对误差、标准差方面,SVM模型均低于神经网络模型,只在平均误差方面略高于神经网络模型;神经网络模型的线性相关系数为0.637,拟合效果不好,而SVM模型的线性相关系数为0.745,拟合效果普通。综上所述,SVM模型略优于神经网络模型。
  4.3逐步回归模型的构建
  4.3.1逐步回归
  逐步回归用于多重共线性的检验,建立最优或合适的模型,是多元线性回归分析中的一种方法,数学模型是:
  Y=βO+β1*X1+β2*X2+…+βn*Xn
  其基本思想是,对每个逐步引入的新变量进行F检验,并对已经引入的自变量进行t检验,當原来引入的自变量由于新的自变量的引入变得不再显著时,则将新引入的解释变量进行删除旧。基本步骤是:先将每个自变量逐个与因变量进行一元线性回归分析,对自变量根据对因变量的影响程度进行排序,然后按照影响程度从大到小的顺序依次引入自变量,每引入一个新的自变量就要对自变量和回归方程进行检验,若显著则引入,不显著则剔除,直到无新的自变量可以引入。
  4.3.2逐步回归模型结果分析
  运用SPSS Modeler 18.0软件对数据构建逐步回归模型,得到的统计结果如表6所示。由表6可知,在逐步回归过程中,除G1、G2、failures、studytime、reason这些变量外,其余变量存在多重共线性,不满足进入逐步回归的条件而被剔除。且模型的R2判定系数为0.859,说明在因变量的变异中,有85.9%可由自变量来解释,模型预测效果比较好。根据t检验的显著性和F检验的显著性可知,G1、G2、failures、studytime、reason对目标变量G3有着显著影响。可得到线性回归方程为:
  Y=0.120*G1+0.911*G2-0.263*failures+0.147*studytime-0.097*reason
  根据逐步回归方程对目标变量G3进行预测,得到逐步回归的具体预测指标如表7所示。从逐步回归的具体预测结果的相关指标表7来分析,最小误差为-9.247,最大误差为2.576,平均误差为-0.08,平均绝对误差为0.861,标准差为1.375,预测值和实际值的线性相关系数为0.913,为高度相关,预测效果非常好。
  4.4模型比较
  本文运用神经网络、SVM、逐步回归模型分别对学生葡萄牙语成绩G3进行预测,分别得到三个预测结果指标,具体结果比较如表8所示。
  由表7可知,从最小误差、最大误差、平均误差、平均绝对误差、标准差这五个指标来看,逐步回归模型均低于神经网络模型和SVM模型;从实际值与预测值的线性相关系数这一指标来看,逐步回归模型达到了0.913,均高于神经网络模型和SVM模型。综上所述,在预测学生成绩方面,逐步回归模型均优于神经网络模型和SVM模型。
  5结论
  本文在获得学生成绩相关数据后,先通过运用SPSS Statis-tics 20.0对数据进行预处理,再运用SPSS Modeler 18.0对指标进行特征选择,使得剩余变量对目标变量更具有预测性。分别运用神经网络模型、SVM模型、逐步回归模型建立学生成绩预测模型,通过对三种模型预测结果的对比分析,得出逐步回归模型比神经网络模型和SVM模型更适合学生成绩预测的结论。因此,本文的研究在现实生活中具有一定的应用价值。
转载注明来源:https://www.xzbu.com/8/view-15143746.htm