您好, 访客   登录/注册

基于机器学习的在线学习数据分析与研究

来源:用户上传      作者:

  摘要:本文主要以机器学习方法为基础对学生在线学习行为数据进行分析和研究。首先采用多元线性回归的方法对从网络教学平台获得的14个量化特征按照对考试成绩的影响权重进行排序,随后采用广义回归神经网络分别对选出的权重较高的9个特征以及全部特征进行建模。结果表明,通过特征选择后的模型平均绝对误差为5.7,无论是在预测能力还是拟合优度方面都要高于采用全部特征的模型,因此该模型可以有效预测考试成绩,使教师能够识别出容易不及格的学生,及时提供干预与支持。
  关键词:机器学习;多元线性回归;广义回归神经网络;在线学习
  中图分类号:TP181 文献标识码:A 文章编号:1007-9416(2020)02-0069-02
  0 引言
  目前大学当中的高等教育,虽然教育体制相对完善,但普遍存在的问题是老师只能根据教学大纲中规定的任务授课,很少考虑到学生的接受程度,以至于学生在课堂上获得的知识个体差异明显,一部分学生能够完全领会老师所讲的知识,而另一部分学生或多或少存在知识点的遗漏。因此,工作在第一线的高校教师始终都在尝试实现个性化教育的方法,可惜的是至今还没有找到行之有效的解决方案。随着信息技术的迅速发展,教育信息化的深入应用,网络教学平台、自适应学习系统等应用的不断崛起,在线学习已经成为诸多高校普遍使用的一种教学方式。国外学术界研究在线学习分析技术的时间较早,并通过实证研究获得了丰富的研究成果。国内学者针对机器学习在教育领域的研究很少,少数学者仅从理论层面提出了在线学习数据分析在提高教师教学质量、学业成绩预警等方面的研究[1]。
  本文以大学计算机基础课程为例,采用的数据库含有从网络教学平台提取出的14个在线学习量化特征,包括:进入课程次数、向老师提问次数、课程讨论区发表话题次数等,这些特征与考试成绩密切相关。数据库含有355条学生数据,经过有效的数据集划分后,使用广义回归神经网路对全部特征以及通过多元线性回归进行特征选择之后得到的部分特征进行建模[2]。通过对结果的分析,可以得到模型的预测误差以及一系列评价指标,教师可以在考试前针对预测结果进行真正意义上的因材施教。此外,根据特征选择的结果,发掘出对于考试成绩影响较大的特征,在教学过程中可以进行更多的关注。
  1 广义回归神经网络预测模型
  广义回归神经网络(GRNN,Generalized Regression Neural Network)是由美国学者Donald F.Specht提出的一种径向基神经网络[3]。GRNN具有较好的非线性调节能力和柔性网络结构,以及高度的容错性和鲁棒性,适用于解决非线性问题。无论在学习速度上還是逼近能力方面,GRNN相较于其它神经网络具有更强的优势。
  GRNN的理论基础为非线性回归分析方法,独立变量x与非独立变量Y的回归分析事实上是求得具有最大概率值的y。已知两个随机变量x和y的联合概率密度函数为f(x,y),设x的样本观测值为X,则y相对于X的条件均值为:
  =E(y/X)=                          (1)
  即为当输入值为X时,Y的预测输出。
  应用Parzen非参数估计,通过样本数据集可估算密度函数。
  =exp exp                                        (2)
  式中,Xi,Yi为随机变量x和y的观测值;p为随机变量x的维数;n为样本容量,σ为高斯函数的宽度系数,本文称为光滑因子。当光滑因子σ较大时,近似于所有样本观测值的均值。相反,当光滑因子σ趋向于0时,和训练样本比较接近。
  2 实验结果
  2.1 数据集准备
  对数据集进行合理的划分将直接影响到回归模型的稳定性。本文采用SPXY(Sample set Partitioning based on joint x-y distances)算法[4]将355条从网络教学平台获取到的学生学习行为数据按照4:1的比例分成由284条数据组成的训练集,和71条数据组成的测试集。根据上文提到的采用多元线性回归方法进行特征选择,得到的每个特征对于响应变量影响的权重如表1所示:
  根据上表1可知,对于学生期末考试成绩影响较大的特征有3号:课程讨论区发表话题次数、5号:课程讨论区被回文次数以及4号:课程讨论区回文次数。而1号:登录次数、6号:阅读课程教学材料次数以及2号:进入课程次数则对学生期末考试成绩影响较小。
  2.2 实验结果分析
  本文分别选取全部特征以及采用MLR方法计算出的对于因变量影响较大的前9个特征作为模型的输入,将学生期末考试成绩作为模型的输出,采用GRNN进行建模,通过计算平均绝对误差(Mean Absolute Error,MAE):
  MAE=                           (3)
  其中yi是第i个样本的观测值,是第i个样本的预测值,得到的结果为别为8.1040和5.7303。通过上表不难看出,经过MLR特征选择后所建立的模型虽然在预测能力和拟合度方面没有达到理想的效果,可能存在过拟合现象,但平均绝对误差为5.7,能够在一定程度上反映出学生对于课程的掌握程度,教师可以在考试前针对可能不及格的学生进行监督和指导。   為了更加直观的去衡量模型的预测能力和拟合度,我们用散点图分别表示出样本测试集和训练集的实验结果,样本测试集预测结果图1所示,样本训练集预测结果图2所示:
  通过上图1、图2可以得出,无论是测试集还是训练集,对于大多数样本都比较趋近于直线y=x,其中测试集误差范围在5的样本为67.6%,训练集误差范围在5的样本为65.8%,证明模型的泛化能力较强,无过拟合现象。此外,观察散点分布可知,对于分数在70-90分之间的样本,模型的预测结果较准,而对于90分以上及60分以下的样本,存在高分预测偏低,低分预测偏高的现象,这是由于数据集中90分以上及60分以下的样本较少,尤其是40分以下的样本只有一个。我们注意到观测值为26.6的样本,模型给出的预测值为45.2,虽然误差较大,但是预测结果相对很低,对于考试成绩不及格具备较高的参考价值。
  3 结语
  针对国内在线学习分析技术的研究大多数还在引介述评上,实证研究方面有待提高,本文采用广义回归神经网络对从网络教学平台获得的量化特征以考试成绩为因变量进行回归建模。结果表明,对考试成绩的预测可以有效识别出可能存在考试危机的学生,从而可以使教师针对个体差异进行有效的教学决策、教学干预,达到提高教学质量的目标。机器学习方法已经被证实可以应用在教育领域,同样在本文建立的考试成绩预测模型方法上有着潜在的提升空间。未来需增加样本数据集的涵盖面,尤其是对于低分和高分数据的扩充,在收集大量学生学习行为数据后,可以尝试与目前主流的一些预测模型以及特征选取方法的性能进行对比,例如LSTM等。
  参考文献
  [1] 赵慧琼,姜强,赵蔚,等.基于大数据学习分析的在线学习绩效预警因素及干预对策的实证研究[J].电化教育研究,2017(01):62-69.
  [2] 刘严.多元线性回归的数学模型[J].沈阳工程学院学报(自然科学版),2005(Z1):128-129.
  [3] Specht D F.A general regression neural networks[J].Ieee Transactions On Neural Networks,1991,2(6):568-576.
  [4] Roberto Kawakami Harrop Galvo,Mário César Ugulino Araujo,Gledson Emídio José,etc.A method for calibration and validation subset partitioning[J]. Talanta,2005,67(4):736-40.
  Analysis and Research of  Online Learning Data Based on Machine Learning
  HUANG Jia-qi, SUI Yong-bo, HUANG Li-li, LIU Chang
  (School of  medical information, Changchun University of  Chinese Medicine, Changchun  Jilin  130117)
  Abstract:This paper mainly analyzes and studies students' online learning behavior data based on machine learning methods. Firstly, the multiple linear regression method is used to rank the 14 quantitative features obtained from the online teaching platform according to the weights of the test scores, Then, nine features with higher weight and all features are modeled by using the generalized regression neural network. The results show that the average absolute error of the model after feature selection is 5.7, which is higher than the model with all features in both predictive ability and goodness of fit. Therefore, the model can effectively predict test scores and enable teachers to identify Students who are prone to fail, provide timely intervention and support.
  Key words:machine learning; multiple linear regression; generalized regression neural network; online learning
转载注明来源:https://www.xzbu.com/8/view-15193089.htm