数据挖掘技术在网络教学中应用探析
来源:用户上传
作者: 陆云龙
摘要:通过对数据挖掘技术的概念、挖掘过程和方法等知识的简单介绍,就如何在成绩分析系统和图书馆中应用数据挖掘,从中得到促进教学的所需信息等内容进行了探讨,并提出了数据挖掘技术在各部分的具体作法。
关键词:数据挖掘;数据库;图书馆
中图分类号:G4
文献标识码:A
文章编号:1672-3198(2010)16-0272-01
0 引言
数据挖掘(DM,Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。经过十几年的研究和发展,数据挖掘技术进入了一个更高级的阶段,尤其是,随着对网络信息挖掘算法的研究和智能化搜索引擎的出现,使数据挖掘技术进入了一个全新的阶段。
1 数据挖掘技术概述
数据挖掘,又称为数据采掘、数据开采,相近的术语有KDD(数据库知识发现)、数据分析、数据融合、决策支持等。目前,国外在数据挖掘方面的发展趋势及研究主要有:对知识发现方法的研究进一步发展。国内从事数据挖掘研究的人员主要在大学、研究所或公司。但是,国内关于数据挖掘的产品还很少。
2 数据挖掘技术的目的与发展趋势
2.1 数据挖掘技术的目的
数据挖掘并不专用于特定领域,它需要凝结各种技术和创造力去探索可能隐藏在数据中的知识。在很多情况下,应用数据挖掘技术是为了实现以下三种目的。
(1)发现知识。知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式和关联。
(2)使数据可视化。分析人员需搞清楚数据库中存储的大量信息的含意。(3)纠正数据。在结合大规模的数据库时,数据库的数据常常是不完整的,而且通常包含错误和自相矛盾的信息。
2.2 数据挖掘技术的发展趋势
当前,数据挖掘技术的研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法;使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,但是,无论怎样,需求牵引,市场驱动是永恒的,数据挖掘将首先满足信息时代用户的急需,大量基于数据挖掘的决策支持软件工具产品将会问世。
3 数据挖掘的过程、分类及其典型方法
数据挖掘大致分为四个步骤:
(1)资源发现;(2)信息选择和预处理;(3)概括化;(4)分析,根据数据挖掘的应用类型不同,大致可分为以下几类。
①分类模型;②关联模型;③顺序模型;④聚簇模型。
针对上述应用类型,数据挖掘领域提出了多种实现方式与算法。这里仅讨论几种常见的典型的实现方法。
①神经网络:②决策树:③联机分析处理(OLAP):④遗传算法:⑤近邻算法;⑥规则推导;⑦数据可视化。
目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。
4 数据挖掘技术在教学中的应用
4.1 数据挖掘在成绩分析系统中的应用
4.1.1 现有成绩分析的弊端
教师简单的以考试分数来评价学生学习效果,教师在成绩分析这方面所花的时间较多。在一定程度上牵扯了教师的精力使教师没有更多的精力关注教学的设计和过程的组织。
4.1.2 数据挖掘的应用
(1)对试题的分析与评价。
通过分析考试成绩及参与考试的样本.警告出现异常反应的试题,以及对专家估计的试题属性值进行自动校正等等。其中难度用通过率体现。通过率为组成试卷提供选题依据,影响着分数的分布形态,离散程度,从而制约着测验的信度和效度。一般而言,整个试卷的难度平均为0.5为佳.各个试题难度均匀分布在0.2加.8之间为好。区分度反应了一个题目的鉴别能力。由其可以得到三个方面的信息,题目能否有效的测量或预测所要了解的某些特性或正态;题目能否与其他题目一致的分辨被试以及被试在该试题的得分和测验总分数问一致性如何。区分度取值介于(+l,-1)。
(2)对试卷的分析与评价。
对试卷的分析可以利用关联规则对试卷数据库进行分析来得到某次考试的有效性、可信度、得分分布等信息。评价从信度、效度、标准分数几方面来进行。
其中信度包括由客观题构成的试卷的信度和由主观题构成的试卷的信度、由主观题和客观题并存的试卷的信度.对信度系数的大小度量,应结合测验的用途、条件、内容来看效度用以了解测验的质量和功能,为进一步改进测验或是在几个同类测验中合理选择提供依据。利用效标关系、效度进行预测。
(3)对学生的分析与评价。
学生在测验后总是关心自己的成绩,关心自己成绩的排名,关心自己哪些知识点掌握的好.哪些知识点掌握得不好,想知道进一步努力的方向。可以利用分析学生的历次考试成绩及试卷中各题的得分,分析学生的进步情况、学习障碍、知识点和知识单元的掌握情况等等 其中包括利用Z分数对应曲线图对学生同时进行的各科目测试成绩进行的横向比较、利用Z分数对应曲线图及二列相关系数的分析对学生分数在历次测验中进行的纵向比较、利用成绩分布曲线得出学生成绩频数分布图等。
4.2 数据挖掘在图书馆管理系统中的应用
管理水平低下是影响我国图书馆事业发展的重要因素之一,管理水平的提高很大程度上取决于决策的科学与否。
(1)数据挖掘能将涉及图书馆这一信息系统的各种内部数据和外部信息汇集起来,经过处理和转换。
(2)利用数据挖掘系统提供的OLAP工具可以对集成数据进行多维分析比较。对决策假设进行审查和验证。提高决策的可靠度和可行性,达到合理利用有限资金、优化图书馆资源配置的目的。
(3)数据挖掘工具可以从历史数据中找出潜在的模式,并在模式的基础上自动作出预测,帮助采购人员确定采购重点,保障图书馆信息资源体系的科学性和合理性。
转载注明来源:https://www.xzbu.com/2/view-615521.htm