基于数据挖掘技术的学生管理数据分析
来源:用户上传
作者:
摘 要:随着教育信息化的普及,如何有效地利用学生管理过程中产生的数据,提高学生管理水平和效率,成为了新时代学生管理过程中亟需解决的问题。文章通过决策树分析,研究了温州职业技术学院2013年9月-2018年12月学生晚归与当时天气情况的联系。研究发现在晴天、高温(29℃以上)、风力强(3级以上)的情况下,更容易发生晚归。而在晴天、高温(29℃以上)、风力弱(0-3级)和晴天、低温(20℃以下)的情况下,发生晚归的情况明显低于平均值。文章的研究结论可以帮助学生公寓管理人员,通过天气预报提前识别可能发生的晚归风险,有针对性地进行学生回寝的统计和检查。从而降低因晚归带来的管理风险,提高学生管理工作的有效性和针对性。
关键词:晚归;数据挖掘;决策树;教育大数据
中图分类号:TP393 文献标志码:A 文章编号:2095-2945(2020)15-0189-02
Abstract: With the popularization of educational informatization, how to effectively use the data generated in the process of student management to improve the level and efficiency of student management has become an urgent problem to be solved in the process of student management in the new era. Through the Decision Tree analysis, this paper studies the relationship between the late return of students in Wenzhou Vocational and Technical College from September 2013 to December 2018 and the weather conditions at that time. It is found that late return is more likely to occur in sunny days, high temperature (above 29 ℃) and strong wind (above Level 3). However, under the conditions of sunny day, high temperature (above 29 ℃), weak wind (Level 0-3), sunny day and low temperature (below 20 ℃), the occurrence of late return is obviously lower than the average. The conclusions of this paper can help the managers of student apartments to identify the possible risks of late return in advance through the weather forecast, and make targeted statistics and inspection of students' return to bed, so as to reduce the management risk caused by returning late and improve the effectiveness and pertinence of student management.
Keywords: late return; data mining; Decision Tree; education big data
1 概述
随着现代计算机和存储技术的发展,每天产生并被记录的数据越来越多。在教育领域这些庞杂的数据涵盖了学生学习、生活和管理的方方面面,是学校一笔隐性的资源。但是,由于数据本身量大,信息渠道错综复杂,导致大量数据不被重视,从而被认为是“垃圾”而被忽略[1]。与此同时,高校规模的不断扩张和信息技术的发展,对学生管理、课堂教学以及就业工作都提出了新的挑战。充分地利用教育领域的大数据,及时地预测和判断学生行为,能为高校在心理健康分析、教学质量评估和学生就业等方面提供决策帮助[2]。
随着高校内全面地推行一卡通,统一了学生管理信息获取的渠道,为研究学生行为数据提供了物质基础。2014年12月起,成都电子科技大学教育大数据研究所在教育部的支持下,开始研发“学生画像”系统。该系统通过学生日常生活数据,如学生进入图书馆次数、打水次数、就餐次数等,分析学生学习、生活状态以及进行过宅预警、抑郁预警等一系列预警,帮助教师和辅导员及时了解学生动态[2]。
本文收集了温州职业技术学院2013年9月-2018年12月时间内的学生晚归数据(晚归定义:学生在规定的门禁时间之后回到公寓一种違纪情况),运用决策树分析法,研究晚归的发生与当天的天气情况以及自然环境之间的关系。以此了解学生晚归特点,为学校公寓管理提供决策分析和帮助。
2 数据与方法
本文收集了温州职业技术学院2013年9月-2018年12月时间内的学生晚归数据,总共整理汇总1319期学生晚归公告。针对数据有效性进行了筛选,最后得到832期晚归公告,每一期公告代表一天,若该日晚上有学生晚归,则记为该日发生晚归,若该日无学生晚归,则记为该日无晚归。经计算可知,总计832天平均发生晚归的概率为63%。此外,根据晚归数据,查阅历史天气资料,整理汇总出对应时间的最高气温、晴雨情况、风力强度等天气情况作为研究晚归事件发生的标签[3]。 数据挖掘(DataMing)本质上是从海量的数据中提取潜在的有用信息[4]。决策树算法是数据挖掘领域的一种重要的数据分类方法,其分类规则是计算划分后样本的信息增益,通过比较信息增益能够快捷地将实际问题转化成各种易操作的分类规则[5]。本文使用Python 3.7实现决策树ID3算法,研究晚归发生与天气情况之间的关系。
3 数据分析与讨论
为了研究学生晚归情况与当天天气情况的关系,首先要将天气情况数据离散化处理。如表1所示,根据日常经验可以将风力分为强弱两类,将晴雨情况也可以分为晴天和雨天两类。对于温度标签,本文将它分为高中低三类,因此必须找到高温与中温、中温和低温的两个临界点(a,b)。笔者翻阅了相关资料发现,对于气温高低的划分并没有统一的标准。为了更好地得到更好的分类结果,本文设计一个6×6温度矩阵G, 其中Gij=[ai,bj]代表一种最高温度分类的可能,a=[15℃,16℃,17℃,18℃,19℃,20℃] b=[25℃,26℃,27℃,28℃,29℃,30℃]。
根据温度矩阵G,本文分别计算了上述36种可能的最高温度分类情况下的决策树。通过分别计算每一颗决策树模型的准确率,可知Gij=[20℃,29℃]时模型准确率达到最高,从而实现对最高温度的离散化处理,如下表1所示。
如图1a所示,本文通过Python 3实现ID3算法,得到晚归决策树。分析决策树可发现,影响某一天晚上是否会发生晚归的最主要因素是当天是晴天还是雨天,其次是最高温度,最后是风力强度。该决策树每一条树枝的准确率可通过计算得到:
P1{X=晚归│天气晴∩气温高∩风力强}=75%、P2{X=无│天气晴∩气温高∩风力弱}=46.9%、P3{X=晚归│天气晴∩气温中}=64.7%、P4{X=无│天气晴∩气温低}=43.4%、P5{X=晚归│天气雨}=65.9%
由上文可知,平均晚归率为63%(即非晚归率为37%),P1、P2和P4的準确率分别都高出平均值12.5%、9.9%和6.4%,说明以上三种分类方式能够有效地识别晚归。P3和P5只比平均值高出1-2%,说明这两种分类方式的效果不明显。在决策树模型中,针对分类效果不明显的树枝可以进行适当的“剪枝”。因此,本文根准确率剪去了如下两条树枝:{X=晚归│天气晴∩气温中}和{X=晚归│天气雨}。最终得到“剪枝”后的决策树,如图1b所示。
4 结论
本文运用数据挖掘的思想方法,对温州职业技术学院2013年9月-2018年12月的学生晚归数据进行分析。通过Python实现决策树ID3算法,分别研究了晚归现象与最高温度、晴雨情况以及风力强度的关系。分析结果显示,在晴天、高温(29℃以上)、风力强(3级及以上)的夜晚,发生晚归的概率明显高于平均值;在晴天、高温(29℃以上)、风力弱(0-3级)和晴天、低温(20℃以下)的夜晚,学生晚归的概率明显低于平均值。该项研究结论可以帮助学生公寓管理人员,通过天气预报提前识别可能发生晚归的风险日期,有针对性地进行学生回寝的统计和检查,提前联系个别尚未回校的学生。从而降低因晚归带来的管理风险,提高学生管理工作的有效性和针对性。
参考文献:
[1]丁波,孙力.教育数据挖掘研究现状及趋势[J].数字教育,2015(006):13-16.
[2]刘譞.基于学生行为的成绩预测模型的研究与应用[D].电子科技大学,2017.
[3]鲁玮.数据挖掘技术在高职学生心理健康数据中的应用研究[D].安徽大学,2019.
[4]JIAWEIHAN,MICHELINEKAMBER, JIANPEI, et al.数据挖掘:概念与技术[M].2012.
[5]周志华,等.机器学习及其应用2011[M].清华大学出版社,2011.
转载注明来源:https://www.xzbu.com/1/view-15209468.htm