学习分析及其数据处理技术研究
来源:用户上传
作者:
摘 要“学习分析技术”是大数据在教育领域的主要应用。本研究通过运用文獻分析法,剖析学习分析过程中最核心的数据分析环节,归纳出学习数据的分类及来源,并着重梳理了各种学习数据处理方法的特点与应用。最后,讨论了未来学习分析中数据处理面临的问题及挑战。
关键词学习分析;教育技术;数据分析
0 前言
学习分析概念于2010年正式形成,G.Siemens将其定义表述为:“学习分析是利用数据挖掘成果,学习者产生的数据和分析模型探究信息和社会联系,并且对学习作出预测和建议”[1]。学习分析技术可以使学习者科学地认识自己的学习状态、有效地避免潜在的学习风险、提高自主学习能力。学习分析的过程运用了多种技术,全方位、深层次地解读学习过程中产生的数据,主要包括三个阶段:数据的采集、数据分析、评价与反馈。
1 数据采集阶段
数据是学习分析的基础,学习数据的来源主要包含三个方面:学习者基本信息、学习者素质信息(生理因素、心理因素)、学习者学习行为数据。
(1)基本信息:通过管理平台采集、访谈、问卷调查等形式,获得学习分析对象的基本情况、自我认知等信息。
(2)生理素质数据:通过传感技术[2]等手段采集学习者的皮肤电导、心率、眨眼、体温、脑电波、血压等特定学习过程中的生理指标,分析其真实的生理变化过程,解读其认知能力与学习规律。
(3)心理素质数据:利用基于Web 的日志挖掘等技术抓取万维网数据,获取学习者发布的微博、朋友圈、评论等信息,分析其心理健康情况以及道德观、人生观、价值观。
(4)学习行为数据:依据校园一卡通信息,整理出学习者日常生活规律数据,如日常消费信息、图书馆使用频度、日常作息规律等;依据多媒体网络教室软件数据,分析学习者学习进度、课堂氛围、学习环境、学习效果;通过统计在线学习管理系统、网络教育平台、MOOC等各种在线学习平台的行为数据,了解学习者学习活动的参与程度、学习坚持程度等行为信息。
2 数据分析阶段
数据分析是学习分析的关键阶段,采集后的数据经清理、集成、变换、规约后得出样本集,并通过构建学习数据分析模型完成预测和评估。学习分析采用的数据处理技术主要有:分类与回归、聚类分析、关联规则挖掘等。
2.1 分类与回归
在学习分析过程中,分类与回归常应用于课程选修情况、教师教学效果、学生学习成绩等方面的预测,以及对学生类型、课程内容等方面的分类识别。分类与回归是统计学中实现预测的建模技术,通过训练样本找到实值函数,两者的不同之处仅在于输出的变量是有限个离散变量(分类)还是连续变量(回归)。根据训练集判断所属类别是分类问题,而根据训练集推断输出值是回归问题。常见分类与回归有决策树、支持向量机、人工神经网络、线性回归等。
(1)决策树(Decision Tree)。决策树的结构中一个叶节点代表着某一类,一个内部节点代表着一个划分。算法步骤为:首先构造决策树,比较内部节点属性值,并判断其向下分支,直到结果节点(叶节点);再根据新样本点各属性值,从上到下遍历决策树,对应分类规律得出结果。决策树的生成模式简单,分类精度高。
(2)支持向量机(Support Vector Machine, SVM)。V.Vapnik等学者于1964年从广义肖像算法中延伸出支持向量机理论,该方法的基本思想为:将样本点依靠核函数经过非线性映射至高维空间,应用凸优化方法寻找最优超平面,并运用线性学习机方法实现回归与分类(高维空间中SVM的线性解即是原来样本空间中问题的非线性解。)。支持向量机是一种最优化方法的机器学习算法,擅长于分类、回归、模式识别等领域,尤其在小样本、高维以及非线性场合下表现突出。
(3)人工神经网络(Artificial Neural Network,ANN)。人工神经网络是基于神经科学基础上提出的,通过建立运算模型(该模型由大量的神经元及其相应的联结构成),模拟人的大脑信息处理的方式,达到使计算机智能地处理实际问题的目的。1943年,世界首个描述大脑工作原理的数学模型——神经网络和数学模型(简称MP模型)由心理学家McCulloch和数理逻辑学家Pitts提出[3],模型基本原理是加权求和神经元所收到的信号,并将结果与阈值进行比较,以确定该神经元的输出。
(5)线性回归(Linear Regression)。线性回归模型研究的是自变量、因变量的定量关系。线性回归的发展经历了从只有一个自变量影响因变量的一元线性回归,到两个及以上的自变量共同估计、预测一种现象的多元线性回归,再到具有各种形态各异的曲线回归规律(即因变量为自变量一次以上函数)的非线性回归,以及响应变量的期望与线性自变量之间通过各种联系函数关联的各种广义线性回归模型。线性回归经过了严格研究,已在现实中得到了广泛的应用。
2.2 聚类分析
在学习分析案例中,聚类分析主要集中应用在整合教学资源、划分学生群体、优化课程设置等方面。聚类分析是一种非监督学习,是将对象依据相似度进行划分,形成有价值的簇集。常见的聚类分析算法如下:
(1)K-Means算法。K-Means算法是最著名的划分聚类算法,其机制为:以随机的K个对象为初始中心,将每个对象分配给与之距离最近的子聚类中心,并更新聚类中心,循环执行至终止条件。该算法能够准确、高效地处理大规模数据,但由于聚类中心是随机产生,有可能导致局部最优化,从而影响聚类结果的有效性。针对此问题,可以通过优化初始划分,提高聚类效果。如Likas[4]的全局K-means聚类等。
(2)BIRCH算法。BIRCH算法是分层聚类算法的代表,算法通过扫描数据库,动态建立聚类特征树(CF Tree),再进一步聚类 CF Tree的叶节点。该算法可以在线实时运行,通过一遍扫描就能有效聚类,时间空间效率高。但该算法效率受数据对象加入顺序的影响较大,也不能很好的处理高维数据,对象数量受到簇直径的限制。为此,学者们提出了各种BIRCH改进算法,如邵峰晶[5]的动态及多阈值方法等。 (3)DBSCAN算法。DBSCAN原理描述为:对任一未被访问样本数据点,根据扫描半径 (eps)和最小包含点数(minPts),对其Eps领域搜索成簇。若被访问点Eps(扫描半径)领域点数量大于或等于MinPts(最小包含点数)时,则被访问点与其Eps领域附近点形成簇,否则暂时为噪声,如此递归直至遍历所有样本数据。DBSCAN算法可以识别高密度、噪声空间数据库中任何形状簇类,对数据对象顺序无要求。
2.3 关联规则挖掘
在学习分析研究中,关联挖掘对于学习时长、成绩、知识点等对象之间的相关性分析表现出很好的优越性。关联规则的挖掘主要是探索事物之间的关联信息,挖掘出有价值的规律。该方法源起于购物篮分析,如发生在美国沃尔玛超市的“尿布与啤酒”现象:从各门店的消费数据中挖掘,得出消费者的购买习惯(尿布与啤酒大都组合购买),从而揭示了一种生活模式(即年轻父亲下班回家途中给孩子买尿布,会顺便买走自己喜爱的啤酒)。
(1)Apriori算法。1994年,由Agrawal等人提出的Apriori[6]算法是比较著名的挖掘布尔关联规则频集算法。该算法使用迭代的方法,扫描数据库,寻找所有频繁项集,并从中生成规则。算法过程简单,便于运用,目前已广泛应用于商业、网络安全、高校管理等领域。然而该算法过程需多次扫描数据库,且针对高维度数据也不适用。
(2)散列(hash)。散列是一种实用的查找技术,计算记录搜索码值上的一个函数,直接获得包含该记录的物理地址。散列技术需要一个分布均匀且随机的散列函数,来尽量避免不同关键码其散列函数值却相同的冲突情况。1995年,Park提出运用散列技术产生频繁项集的算法,该算法将待扫描项目集存放至不同的特定hash桶中,进而测试各个桶中项目集,很大程度上减少了候选项目集产生数量。
(3)FP-Growth算法。2000年,韩嘉炜等人[7]提出了頻繁模式增长算法(FP-Growth),采用分治策略,压缩频繁项集数据库成一颗频繁模式树且保留项集关联信息。算法过程主要为:构造FP-Tree,进而在FP-Tree上递归的挖掘频繁模式。该算法逐步增长短频繁模式到长频繁模式,只需两遍扫描数据库,具有很高的效率。相比较Apriori算法,它在寻找频繁项集过程中,无须产生候选项集,改进了Apriori算法所需的巨大计算开销。
2.4 其他数据分析方法
近年来,研究者们依据不同的情景、不同的目标,选用不同的学习数据处理技术,例如:擅长分析、预警学生情感的文本挖掘技术;用于理解学习行为、分析学习者知识体系的社会网络分析法;识别高危学生的随机森林算法;检测学习者知识体系、情感状态、行为特征的学习者建模;评估在线课程设计、优化教学资源的可视化技术;用于发现学生活动规律的时间序列分析;发现影响力节点(如校园社交网络影响力人物)的图构建与挖掘;分析学生团体特点、学生社交的链接分析;发现教学、学习过程中异常情况的异常检测;分析学习者知识建构过程、理解学习行为的话语分析;等等。
3 评价与反馈
评价与反馈的目标是验证学习分析模型的效果,如利用ARI(Adjusted Rand Index)、DVI(Dunn Validity Index)等指标分析聚类算法优劣,运用AUC(area under curve)等指标判断分类器或预测模型优劣等;并对模型进行解释,让学习利益相关者依据数据挖掘结果,避开学习风险,做出正确的教、学对策。
4 总结与展望
自2010年以来,学习分析技术得到不断的研发与应用。如今,学习分析的过程离不开统计学、计算机科学、数学、生物科学等学科为其提供技术支撑,也离不开伦理学、教育学、心理学、法学等学科为其提供道德规范与行为规则。多学科的交叉与融合是学习分析技术未来发展与研究的方向。多因素数据的参与,也将让学习数据分析迎来更多的挑战,如伦理学、心理学等概念如何数字化引入?如何处理学习数据的多维度、多情景、多语义特征?然而,学习分析技术也将在这些困难中不断成熟。
参考文献
[1]G.Siemens, What is learning analytics[EB/OL]. http://www.elearnspace.org/blog/2010/08/25/what-are-learning-analytics/,2011-11-20.
[2]李卿,任 缘,黄田田等.基于传感数据的学习分析应用研究[J]. 电化教育研究,2019,5:64-71.
[3]李文钰.用于神经网络的带L1/2正则项的共轭梯度学习方法[D].大连:大连理工大学,2018.
[4]Likas A, Vlassis N, Verbeek J J. The global k-means clustering algorithm[J]. Pattern Recognition,2003,36(2)451-461.
[5]邵峰晶,张斌,于忠清.多阈值BIRCH聚类算法及其应用[J].计算机工程与应用,2004,41(12):174-176.
[6]Agrawal R, Srikant R. Fast algorithms for mining association rules[C].proc of International Conference on Very Large Databases.1994:487-499.
[7]HAN J, PEI J, YIN Y. Mining frequent patterns without candidate generation[C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data.New York:ACM,2000:1-12.
转载注明来源:https://www.xzbu.com/8/view-15231531.htm