基于模型驱动的终端在线教育数据挖掘技术研究
来源:用户上传
作者:
摘 要: 传统终端在线教育数据挖掘技术的挖掘速度慢,为了解决这一问题,提出基于模型驱动的终端在线教育数据挖掘技术研究。运用关联分析数据转换法转换数据,再利用模型驱动的人群行为建模方法,设计终端在线教育数据挖掘任务流程。完成上述工作后,通过筛选、选择数据子集、编码、设定阈值、进化步骤,优化模型驱动数据挖掘关键技术,实现终端在线教育高效数据挖掘。实验结果表明,所提技术使用数据集规模小的挖掘速度相近,在使用数据集规模大时,挖掘速度逐渐增加;而传统技术使用数据集规模小的挖掘速度与使用数据集规模大的挖掘速度基本相近。证明所提技术挖掘速度更快。
关键词: 在线教育; 数据挖掘; 模型驱动; 数据转换; 挖掘流程设计; 技术优化
Abstract: The terminal on?line education data mining technology based on model driving is proposed to overcome the defect that the mining speed of the traditional terminal online education data mining technology is slow. The correlation analysis method of data conversion is utilized to convert the data, and then the model?driven crowd behavior modeling method is used to design the flow of the terminal online education data mining. After above work is completed, the model?driven data mining key technology is optimized by the steps of screening, selecting data subset, encoding, setting threshold and evolving, so as to realize the high?efficiency data mining of the online education on the terminal. The experimental results show that the mining speeds of the proposed technology are similar as the traditional technology when using small?scale datasets, and the mining speeds of the proposed technology are gradually increased when using large?scale datasets; however, the mining speed of the traditional technology when using small?scale dataset and using large?scale dataset are almost same. It proves the mining speed of the proposed technology is faster.
Keywords: online education; data mining; model driven; data conversion; mining flow design; technology optimization
0 引 言
终端在线教育可视化需要完成数据挖掘这项任务,相关学者曾提出对LDA主题概率模型改进的研究,通过单一时间跨度的论坛主题挖掘数据,但这无法满足数据喷薄而出的趋势。还有学者引入时间要素的传统方式,将终端在线教育数据按照时间划分成独立的主题集,但区间内部是无序的,无法留存多个独立主题。为解决上述问题,国外学者提出使用模型驱动对结构内部之间的关系建模。模型驱动是专门用于解决模型建立和模型扩展等方面的问题[1]。模型驱动可以描述其他未来可能出现的XML的建模语言。这种方式可以描述两种数据模型之间的映射规则,使通用的数据模型自由变换[2]。为了解决传统终端在线教育数据挖掘技术存在的漏洞,提出基于模型驱动的终端在线教育数据挖掘技术研究。
终端在线教育数据庞大,其具有数据结构复杂、规模大、数据量大的特点。为优化数据挖掘关键技术,使用模型驱动更改线程结构,可挖掘出用户的潜在信息。基于模型驱动的终端在线教育数据挖掘技术通过处理在线教育数据,梳理系统开发的任务目标,完成终端在线教育数据挖掘任务流程的设计,通过优化终端在线教育数据挖掘关键技术,提高挖掘目标精确度。实验结果表明,本文所提技术具有一定的可行性。
1 终端在线教育数据转换
使用关联分析数据转换法,将区间内的数据映射为相应的离散值[3],再根据相关算法对数据的要求,将数据转换成易于存储的形式,转换好的选定数据可存入相应的数据表,如表1所示。
当数据转换成功后,即可从表1中的字段查看出学生在不同阶段的学习情况。
2 终端在线教育数据挖掘任务流程设计
当数据转换成功后,利用模型驱动的人群行为建模方法,设计在线教育数据挖掘任务流程[4]。
先构建模型驱动人群行为模块,包括数据驱动模块和模型驱动模块,模型驱动建模方法整体思路如图1所示。
数据驱动模块包含视频采集和人群行为特征信息。模型驱动模块由属性模块、行为模块和路径算法模块组成[5]。为了过滤无效数据,运用爬虫技术获取文本流,再进行数据处理[6]。将转换后的文本作为计算机处理对象。处理过程步骤为:分词文本、取出停用词、统计词频、文本向量化。完成文本处理后,从数据中提取用户行为数据,即提取主题相关数据。不同的应用场景主体挖掘算法不同,要结合主题挖掘算法获取相似主题特征的数据集合[7]。若仍无法自动生成主题,模型驱动会保存底层关系,采用简洁的主题描述文档语料库。 3 模型驱动数据挖掘关键技术优化
在主题挖掘的过程中,为完成不同主题集合的任务,采用聚类算法处理[8]。先求出特征空间内的特征加权向量,表达式为;
式中:[P]表示特征向量;[Tn]表示关键词属性;[Wn]表示主题向量;[n]表示聚类目标。设[Tn]与[Wn]有[x]个相同关键词属性,则[Tn]与[Wn]的相似度为:
式中:[J]表示相似度;[V]表示增量聚类个数。应用式(2)求出[Tn]与[Wn]的相似度。将[Tn]与[Wn]结果代入式(3)得到最终的聚类结果为:
式中:[k]表示聚类个数;[C]表示增量聚类时发生的变化;[r]表示特征向量属性。得到最终的聚类结果,即为任务目标。
在此基础上,优化模型驱动数据挖掘关键技术,得到最优特征子集,实现终端在线教育高效数据挖掘。优化数据挖掘关键技术的目的是从原始特征空间中剔除无效数据,提高挖掘目标精确度。优化过程为:
1) 筛选。经过筛选后得到最优特征子集,筛选流程如图2所示。
2) 选择数据子集。完成筛选任务后,要选择较好的数据子集,选择方式包括过滤式,先考察特征间的关系,再去除预测结果的一部分特征,采用优胜劣汰的机制删除无效的数据。每次递归都要按照主题特征的参数求解大小排序,排序靠前的为无噪声数据,排序靠后的为无效数据;也可以将数据看作一个最优搜索问题,通过搜索和遗传算法选择带有主题特征的数据集合。
3) 编码。为有效地从数据挖掘空间中选择最优子集,选用种群个体编码的方式,模拟原始数据的种群个体,种群空间为数据挖掘的搜索空间[9]。为简化计算过程,在初始化种群时,将种群初始化大小设为20~100之间,其中种群个体代表每一种可能的数据集合,采用二进制编码,选择带有主题特征的数据集合。
4) 设定阈值。引入方差阈值,将每个主题特征方差值与阈值相对比,若方差值大于设定阈值,需要过滤原始的数据挖掘空间;若小于设定阈值,可以直接提出变化幅度小的主题特征。经过筛选后,可以有效消减数据挖掘的范围,提高算法的迭代速度[10]。
5) 进化。算子代表数据子集,在算子进化的过程中,根据种群内的个体适应值进行判断。适应值高的可以进入下一轮进化,适应值低的个体可以保留。
由此,完成基于模型驱动的终端在线教育数据挖掘技术研究。
4 实验分析
为验证基于模型驱动的终端在线教育数据挖掘技术的有效性,进行实验研究。本次实验选用的数据集是通过使用ERP系统获取,主要包含用户行为信息。将原始数据集随机抽样,扩充后的实验数据集为D0,D1,D2,D3,D4。每个数据集中都包含68个主题特征,目标变量会随着时间变化。本次实验利用以上数据集,在模型驱动的框架下,分别测试传统在线教育数据挖掘技术与所提技术的挖掘速度。表2为主题特征明细。
实验数据的目标值域是无法确定的,实验中要使用对数均方根误差表示实验结果的错误率。
实验结果利用模型驱动的线性回归进行预测,实验迭代次数为10次,为方便统计,将本次提出的基于模型驱动的终端在线教育数据挖掘技术标记为L,传统的终端在线教育数据挖掘技术标记为R。两种技术的挖掘速度对比结果如图3和图4所示。
从图3可以看出,所提技术使用数据集规模小的时候,挖掘速度相近,在使用数据集规模大的时候,挖掘速度逐渐增加,在速度上相比传统技术的更快。从图4可以看出,传统的技术使用数据集规模小的时候,挖掘速度相近,但耗时较长,在使用数据集规模大的时候,上涨幅度并不是很大,未超越所提技术的挖掘速度。由此可知,本次提出的基于模型驱动的终端在线教育数据挖掘技术更好。
5 结 语
针对传统终端在线教育数据挖掘技术存在的问题,提出基于模型驱动的终端在线教育数据挖掘技术研究。将数据转换部分字段转换成易于存储的形式,再利用模型驱动的人群行为建模方法设计终端在线教育数据挖掘流程,利用聚类算法求出特征空间内的特征加权向量,优化模型驱动数据挖掘关键技术。实验结果表明,本文所提技术的挖掘速度大于传统技术的挖掘速度,证明本文所提技术的效率更高。
参考文献
[1] 陆鑫赟,王兴芬.基于领域关联冗余的教务数据关联规则挖掘[J].计算机科学,2019,46(z1):427?430.
[2] 钱玲,徐辉富,郭伟.美国在线教育:实践、影响与趋势:CHLOE3报告的要点与思考[J].开放教育研究,2019,25(3):10?21.
[3] 陈敬德,盛戈皞,吴继健,等.大数据技术在智能电网中的应用现状及展望[J].高压电器,2018,54(1):35?43.
[4] 王坤,唐纯志,田小婷,等.基于数据挖掘技术探讨针灸治疗荨麻疹的选穴规律及理论依据[J].针刺研究,2018,43(6):388?393.
[5] 甘璐.基于数据挖掘技术的档案馆信息快速分析算法研究[J].现代电子技术,2019,42(7):32?34.
[6] 张利利,马艳琴.基于数据挖掘技术的航空客户流失与细分研究及R语言程序实现[J].数学的实践与认识,2019,49(6):134?142.
[7] 张康,黄亦翔,赵帅,等.基于t?SNE数据驱动模型的盾构装备刀盘健康评估[J].机械工程学报,2019,55(7):19?26.
[8] 王学男.不同教师群体对教育大数据的认知及影响因素:基于全國5434名教师的调查[J].开放教育研究,2019,25(3):81?91.
[9] 李爽,李荣芹,喻忱.基于LMS数据的远程学习者学习投入评测模型[J].开放教育研究,2018,24(1):91?102.
[10] 张爱平,马敏.基于质量监测的初中学生数据分析发展状况的调查研究[J].数学教育学报,2017,26(1):28?31.
转载注明来源:https://www.xzbu.com/8/view-15290255.htm