基于回归方法的学生学习成绩影响因素分析
来源:用户上传
作者:周旭东 马朝珉 刘淇文
摘 要:该文首先从UCL数据库收集UCL-Math和UCL-Portuguese数据集以及从某大学收集NEAU-stu数据集,然后利用Python对3类数据集分别进行岭回归和套索回归。通过得到的回归系数表,对3类数据集中的学生进行成绩影响因素分析,最后,通过得出的学生成绩影响因素结论,对不同数据集下学生的学习生活给出相应的指导建议。
关键词:岭回归;套索回归;成绩;影响因素;数据
中图分类号:G632 文献标志码:A 文章编号:2095-2945(2022)23-0103-04
Abstract: In this paper, we first collected the UCL-Math and UCL-Portuguese datasets from the UCL database and the NEAU-stu dataset from a university, and then conducted ridge regression and lasso regression on the three types of datasets separately using Python. The obtained regression coefficient tables were used to analyze the factors influencing students' achievement in the three types of datasets. Finally, the conclusions drawn on the factors influencing students' achievement are used to give corresponding guidance suggestions for students' academic life under different datasets.
Keywords: ridge regression; lasso regression; results; influence factor; data
学生学习成绩受众多因素影响,近年来研究者从不同角度分析影响学生学习成绩的因素,并尝试进行有效干预。康博迪等[1]通过对西安文理学院学生信息的采集,分析学习成绩的影响因子并建立回归模型,从而预测出各因子和大学生学习成绩相关性;马永梅等[2]利用灰色关联分析法分析内在因素对学生学习成绩的影响;李雪梅等[3]采用主成分分析的方法,研究分析影响学生数学成绩的主要因素;王晓娇等[4]研究发现大学生学习成绩受个人、学校、家庭以及社会4个层面各种因素的影响,其中性别、户籍、家庭受教育程度、学习动机、学习兴趣、自习次数、逃课次数、作业情况、宿舍氛围、兼职、参与社团和学生会等11个变量显著影响大学生学习成绩;李思思等[5]研究发现影响学生学习成绩的主要因素包括:学生的学习目标明确度、学习勤奋度、对待教师授课的满意度、学生的听课感觉、考前准备时间、知识来源途径、抚养人严格程度及是否跟得上学习进度等诸多方面;闫波等[6]研究发现对学生学习影响较大的因素,主要有学生家庭社会和文化地位指数、学习动机、课堂纪律氛围、教学方式和师生消极行为等。
本文主要研究的是学生学习成绩影响因素,不考虑教师教学因素,即在教师教学因素固定的情况下进行分析,也不考虑难以观测的主观意愿,如对课程的喜好程度、学习意愿和兴趣热情动机等,仅选取分析学校可观测、可量化的影响因素,进而改善教学管理,提高教学质量。
1 数据集与数据预处理
1.1 数据集
UCL-Math及UCL-Portuguese数据集来源于UCL数据库,其中的因变量分别是学生的数学成绩以及葡萄牙语成绩,包含的成绩影响因素主要分为3大类,分别是个人因素、家庭因素、学校因素。NEAU-stu数据集来自于我国一所211农业院校2020届部分学生的相关信息。其因变量是某学期学生的智育成绩,包含的成绩影响因素主要是个人因素和家庭因素。
1.2 数据预处理
本文的数据预处理主要为以下3项:
(1)对于“是”和“否”的属性分别赋值1、0。
(2)对于可以取多个值的属性赋值0、1、2等,而后将其归一化到[0,1]区间内。
(3)对于连续变量直接将其归一化到[0,1]区间内。
2 实验结果
本文实验环境为:Win10 64 bit 操作系统,Jupyter Notebook(Python 3.8),利用Python中的Sklearn工具包实现回归算法。
本文拟采用套索回归和岭回归对学生的学习成绩进行影响因素分析[7]。具体的策略为:通过建立回归模型,观察回归方程中对应各个属性的变量前的回归系数来确定每个因素对学生学习成绩的影响程度,若回归系数大于0,则此因素为正向影,反之则为负向影响。回归系数的绝对值越大则说明对学习成绩的影响越深。且通过实验发现,该回归模型的MSE、MAE、R2这3种评价指标值也均在合理的区间内。
岭回归和套索回归的主要差别在于损失函数中的正则项不同。岭回归采用的为L2正则项,而套索回归采用的为L1正则项[8]。因而在影响因素分析中套索回归可以剔除一些对因变量影响较小的变量,更有利于进一步分析。
表1为UCL-Math及UCL-Portuguese数据集回归系数,从个人因素、家庭因素、学校因素3大类别进行分析,其中个人因素分为背景信息、前期成绩、学习投入及其他4个分项。分析数据见表1。
nlc202209061434
转载注明来源:https://www.xzbu.com/1/view-15439174.htm