基于云计算的数据挖掘技术应用与发展

来源:用户上传      作者:

  摘   要:云计算作为当前大数据背景下的核心技术之一,在各个方面都得到了充分的应用。在数据挖掘技术中,可以充分利用云计算的各项技术,例如分布式存储技术,有效解决数据处理对服务器的高要求。同时Map Reduce计算机模型能够让数据挖掘系统实现同时满足多个用户的多种需求。文章主要阐述了基于云计算的数据挖掘技术的应用及发展。
  关键词:云计算;数据挖掘;Map Reduce;分布式
  1    基于云计算的数据挖掘技术的特征与内涵
  所谓数据挖掘技术是指采用一定的算法,对数据中信息进行采集、提取、分析,进而进一步进行整理和汇总。数据挖掘技术是对数据的一次有效整理,对数据应用、共享、存储或具体应用提供的一种技术,可以在看似没有任何关联的数据中找出数据的分类,并对分类的数据进行分析,从而得出一定的结论。
  云计算是指基于互联网的一种服务模式,最为显著的特点就是资源虚拟化,使用数据的用户并不知道数据的存储地,而且数据多以分布方式存储。云计算要求服务器规模大,并能提供安全、可靠的服务,云计算的服务模式为存储和使用大量的数据提供了可靠的保障,并提供了数据的扩展性。
  基于云计算的数据挖掘系统相对于一般的数据挖掘系统来说具有较为明显的优势。一个原因是数据挖掘技术本身就是对大量数据的处理,数据量越大其复杂程度越高,所以,借助云计算可以和数据挖掘技术深度融合,有效提高数据挖掘和数据处理的能力[1]。另一个原因是利用云计算技术所支持的分布式存储技术,数据挖掘可以降低对服务器性能高标准的要求。所以云计算环境给数据挖掘技术提供了大量的数据源,同时,也给数据挖掘在分布式处理方式上提供了方便,使得数据挖掘技术在同等条件下可以更方便地处理多种数据。
  2    云计算视域下数据挖掘技术应用探究
  2.1  算法
  云计算环境下,数据类型繁多,数据形式多样,数据规模也不断地扩大。要想将这些数据进行整理分析,深度挖掘数据之间的关联,并将结果给用户合理使用,算法成了关键技术和重要工具。在云计算环境下,数据量的大小很难精确估计,依赖于小规模分布式计算机的集群来实现大批量的数据处理是远远不够的,最为关键的是运算部署难度系数大,成本投放扩大。在这种情况下,把云计算技术运用到数据挖掘中,能够发挥一定效率。构建一个基于Hadoop的开源并行数据挖掘平台,利用Map Reduce框架,来实现数据处理。
  数据挖掘技术从产生以来,涉及多种多样的算法,不同的算法具有不同的使用环境和范围,也会产生不同的效果。用户可以根据数据的情况和自己的需求来选择算法,也可以对算法进行转化,充分利用云计算技术对算法的帮助来提高数据挖掘的能力和水平,将数据挖掘算法和功能展示出来,为达到用户最终的数据挖掘目标而工作。
  基于云计算的数据挖掘算法,往往会和其他领域的算法结合起来,比如人工神经网络系统可以应用于基于云计算的数据挖掘技术中来,实现对超多数据的处理分析。深度学习算法可以对大批量的数据进行处理,同时,可以通过样本集的训练,让算法进行自动的数据处理和挖掘。遗传算法在数据挖掘技术中的应用也非常广泛,通过可视化技术作为辅助手段,依靠动画、影像技术实现形象化的可视化展现,给用户更好的体验。丰富了信息技术的展示模式,有助于更好地推广应用。
  2.2  用户数据处理
  对于要处理的数据源,用户要根据自己的需要合理地安排数据的来源。有些是需要购买新的需求数据,当用户取得所需数据后,可以借助云计算的DaaS服务模式对数据进行管理。用户通过数据挖掘系统,可以快速而准确地找到自己需要处理的数据,然后开始对数据进行处理。用户也可以把自己的数据在系统中进行共享,用来给其他的用户进行处理,两个不同用户对数据处理的结果互不影响,只会得出自己处理数据的结论[2]。也可以通过数据挖掘系统中的分类聚类功能,对用户的数据进行科学地划分,从而实现对用户数据的动态管理。对数据的处理有一个原则,就是只利用算法对数据进行处理,不改变原数据的相关属性。因此,数据可以多次重复利用。
  2.3  Map Reduce模型
  常用的基于云计算的数据挖掘的并行计算模型主要是Map Reduce,所谓Map Reduce,是一种基于大数据的Hadoop下的并行核算框架,该框架不仅有较强的容错特性,还能够对数据进行传递,让大批量的数据都能够得到高效的运算[3]。一般来说,Map Reduce的并行计算可以分为两种任务,一种是Map任务,一种是Reduce任务,在这两个任务执行的过程中,数据挖掘系统会自动将获得的数据划分为多个独立的小模块。然后将这些小模块分布到Datanode的各个节点中,并进行统一的核算处理。这种方法可以让数据得到分布式的核算,加快数据处理的速度,减小服务器集中处理数据的负载,提高效率。在进行海量数据处理的时候,可以借助Map Reduce的任务分配功能框架去设定Datanode各节点,并把处理阶段和核算节点进行统一分布式管理,这样能够便于处理Hadoop数据处理过程的各种问题。
  3    云计算数据挖掘模型
  基于云计算的數据挖掘模型可以分为3层:用户层、服务层和处理层。用户层主要用来接收并执行用户的各种指令;服务层主要用来进行数据的处理和保存,处理层主要包含多种数据处理算法及数据预处理[4]。
  3.1  用户层
  用户层处于基于云计算的数据挖掘的最顶层,它主要的作用是能够完成用户发出的各种指令,并将这些指令传递到处理层,以便于向用户展现对大批量数据处理的结果。用户能够利用各种界面的形式对指令执行的结果进行审查或追踪。在该层中,用户可以借助系统中的用户输入模板,将要处理的数据挖掘指令传递到系统中,系统会依据用户所提交的申请,对数据进行处理。在数据处理的过程中,系统会利用相关的数据挖掘算法进行数据处理,同时,也会对即将要处理的数据进行各种调配,将数据传入到Map Reduce平台,通过这个平台,将模块化的数据分布到各个节点,最后再将处理后结果传递给用户[5]。   3.2  服务层
  服务层处于基于云计算的数据挖掘系统中的最低层,它的主要作用是对Map Reduce平台上分布到各节点的数据进行处理,同时,对各项数据进行保存。此层可以保存数据的分类聚类效果,也可以按照用户的要求进行保存,所以此层在处理数据的时候不但要考虑数据处理时的性能问题,还要考虑数据保存时的安全性、平稳性、便捷性等。在云計算模式下,通过分布式云计算技术,能够对大批量的数据进行统一保存。在保存数据的时候能够按照用户的要求,对要保存的数据进行备份保存,有效增加数据的安全性[6]。目前云计算海量数据保存技术通常涉及了开源的HDFS及非开源的GFS两种,非开源的GFS是由Google公司开发的,而开源的HDFS则是由Hadoop团队研制开发的。在云计算的平台下,可以通过并行的应用工作方式来响应多用户同时发送的请求,并为其提供针对性服务。
  3.3  处理层
  处理层处于用户层和服务层的中间,它包含了大批量数据处理算法及对数据预处理功能。对大数据的预处理功能中,可以对不规则的海量数据进行处理,如果处理的结果达不到用户的要求,在云计算技术的支持下,Map Reduce可以得到由处理层处理过的、统一结构的、规则的数据应用。因此,在数据挖掘系统对数据真正处理之前,都要用处理层对数据进行预处理,得到统一结构的数据类型。这种数据处理方式主要包括数据结构的转换、数据的特征抽取、数据集的清洗及集成等。通过预处理,不但能够有效地提升数据挖掘的质量及效果,而且也大大提高了数据挖掘的效率。这种在处理层的并行处理(数据处理和数据预处理)方式,在云计算模式下主要应用平台还是Map Reduce计算模型,采用并行分类算法、并行关联规则算法、并行聚类算法等方式,能够根据应用的模型类型实现大批量数据的处理,以促进大数据挖掘时效性的提升。
  4    结语
  数据挖掘技术作为对海量数据处理的有效方法,越来越得到重用。云计算在数据挖掘上有比较大的优势其分布式存储和云计算的Map Reduce计算模型都给数据挖掘提供了便捷的数据处理途径,可以有效提高数据挖掘的效率和数据处理质量。
  [参考文献]
  [1]杨继武.云计算视域下数据挖掘技术[J].电子技术与软件工程,2019(5):151.
  [2]雷晨.基于云计算技术的数据挖掘平台建设研究[J].信息记录材料,2019(3):4-5.
  [3]王晓雨.基于云计算的非连续层次数据挖掘方法探讨[J].中国新通信,2019(4):56-57.
  [4]李候梅.基于云计算的海量数据挖掘研究[J].信息技术与信息化,2019(1):122-124.
  [5]王晓妮,段群,韩建刚.基于云计算的数据挖掘系统设计与实现[J].计算机技术与发展,2019(3):1-5.
  [6]孙亮.基于云计算的云数据挖掘引擎研究[J].山东农业工程学院学报,2018(12):27-28.
转载注明来源:https://www.xzbu.com/8/view-14949258.htm

服务推荐