您好, 访客   登录/注册

基于web的数据挖掘系统设计研究

来源:用户上传      作者: 喻瑶瑶

  摘 要 在数据挖掘系统中引用web服务,使复杂的算法库开发简单化,为动态管理算法库带来了便利。基于web的数据挖掘系统使任何语言都能够将数据挖掘算法封装到web中,与程序设计的语言分离,最大化的实现了算法设计的自由性。因此,基于web的数据挖掘系统具有非常重要的作用。
  关键词 web 数据挖掘 系统 设计
  中图分类号:TP311.13 文献标识码:A
  Web数据挖掘由于其优良的特性,被广泛的应用于电子商务和企业的决策中。目前,企业管理客户的主要方式就是通过web管理,企业针对客户的访问情况和访问历史,为不同的客户提供不同的个性化服务。Web还可以用作企业与客户间的交流工具,企业通过web实时与客户进行互动,以及时了解客户的喜好。Web由于具有较低的成本,在企业的推广中应用也很广泛。企业面临的最大问题是如何从web大量的信息库中提取有利于企业发展的信息。
  1数据挖掘系统的概述
  Web数据挖掘是指用数据挖掘的方法对用户访问信息、web页面内容、电子商务交易信息、用户注册信息、站点拓扑结构等方面的数据进行挖掘和分析,并找出有用的信息的过程。人们可以利用web挖掘发现有用的信息、为客户提供个性化的服务、改善站点的设计等等,web挖掘的方法可以分为结构挖掘、内容挖掘、使用挖掘三种方式。其中,web结构挖掘指的是从web的链接关系和组织结构中对知识进行推导的过程。Web中包含的有用的信息不仅仅是页面上的内容,其结构中也包含着大量有用的信息,需要对其结构进行推导才能发现。Web内容挖掘指的是对web页面的内容进行挖掘以找到有用的信息。Web使用挖掘指的是对客户在web服务器上进行访问的记录通过web日志等方法进行挖掘。
  2web数据挖掘系统的设计
  Web数据挖掘表现出显著的优势,因此,基于web的数据挖掘系统设计也必然能够更好满足企业推广一个用需求,而在设计数据挖掘系统的过程中也应当充分考虑每一个步骤,以确保设计的合理性。
  3数据收集
  Web数据挖掘需要挖掘的数据主要分两方面,即用户的活动使用信息以及web页面上包含的页面拓扑结构和文档。用户的活动使用信息主要表现为用户在企业网站的数据库的在线注册、交易信息、电子邮件查询、响应数据和活动信息,通常是记录的形式。Web页面上包含的页面拓扑结构和文档主要表现为web服务器的Cookies、日志文件和Error Logs。通常web服务器的日志文件中包括用户浏览网页的顺序和链接的点击顺序,例如用户使用的时间和日期、请求的类型和状态、主机的地址以及发送的字节数等。数据的收集过程就是从web服务器日志文件中提取有用的信息并对客户的活动信息进行分析的过程,产生的数据最终用来构建数据仓库。
  4数据处理
  点击流是数据挖掘的重要信息,但由于其数据繁多,对数据挖掘工作者也是一种挑战。使点击流的数据进入数据库主要通过几个方面的数据统计,即客户端、应用服务器、数据仓库、web服务器四个方面。客户端是指用户通过智能工具或浏览器等各种方式浏览企业的页面所产生的点击数据,构建数据库的过程就是对web服务器的数据进行预处理并转移到数据仓库和程序服务器中的数据分析过程。由于数据的量较大,要在大量的数据中提取有用的信息十分困难,因此,对数据进行预处理非常重要。对数据预处理的方法有字符大小写的转换和类型转换等,通过这些工具完成数据的转换,实现数据的预处理。数据处理的过程需要注意的问题有:首先,数据仓库必须采用大规模的并行处理机,以满足大量用户的需求。其次,数据转移的速率要高,可通过提高集成度或使用一些数据移动软件的方法提高数据的转移速率。
  5挖掘模式
  企业开发数据挖掘系统的主要目的就是应用数据挖掘的算法对数据仓库的数据集进行分析和挖掘,提取出有用的信息和模式为企业的决策提供依据。因此,选择一种有效的挖掘模式具有重要的意义,下面有几种可供选择的模式,第一,对用户的访问记录利用路径分析的方法进行分析。路径分析利用的是web的日志文件中用户的访问记录,并把用户的访问路径按时间的先后进行排序。第二,对频繁的页面集利用关联规则分析的方法进行分析,如对于两本不同的书A和B中的页面1和2,利用关联规则分析的方法得出(1,2)是频繁页面集,当用户浏览书A的页面1时,将书B的页面2加以缓存,从而提高web的缓存性能。第三,对相似的客户和页面利用聚类分析的方法进行分析。聚类分析包括客户聚类和页面聚类,主要分析具有相似性的客户,对其相似的爱好提供个性化的服务。第四,对可能存在的潜在客户利用分类和预测的方法进行挖掘。分类和预测方法是指通过对客户的购买商品和访问特征对客户加以分类,从而为潜在的客户开展促销活动并对销售情况进行预测。
  6结束语
  Web数据挖掘系统是目前较热门的研究课题,具有广阔的应用和发展空间,市场潜力巨大。基于web的数据挖掘系统与传统的数据挖掘系统相比具有能够使数据、接口和算法分离的优点,简化了算法库的开发。web数据挖掘系统主要研究的内容包括数据的预处理、收集和技术的开发。目前我国的数据挖掘技术与发达国家相比还有一定差距,仍需不断的发展和完善。
  参考文献
  [1] 李新金.Web使用挖掘在网络学习平台中的应用研究[J].浙江师范大学.2012,05(6):18.
  [2] 刘天垒.基于Web的农业数据挖掘系统的研究与实现[J].中国农业科学院.2012,10(4):11.
转载注明来源:https://www.xzbu.com/8/view-6076536.htm