您好, 访客   登录/注册

基于云计算的数据挖掘技术研究

来源:用户上传      作者:

  摘   要:随着计算机的迅猛发展,基于云计算的数据挖掘技术应运而生,使得以往数据挖掘方式不能够解决海量数据等问题得到了充分且有效的解决。文章主要围绕基于云计算的数据挖掘技术展开了研究,首先阐述了相关概念和基于云计算的数据挖掘技术具有的优势,接着提出了基于云计算的数据挖掘技术的具体应用,最后介绍了基于云计算的数据挖掘技术面临的问题与挑战。
  关键词:云计算;数据挖掘;互联网
  伴随着互联网和物联网的迅猛发展,社会已步入大数据时代。然而,数据呈海量态势增加,给数据挖掘工作带来了较大的难度与挑战。云计算的出现是解决上述问题的有效措施,它不仅可以将分散在不同计算机的数据整合在统一云端中,而且也为数据获取与挖掘提供了巨大的便利。此外,云计算具有的弹性计算能力和海量存储能力,也是解决海量数据挖掘困难等问题的重要途径。
  1    相关内涵概述
  數据挖掘技术从本质来讲就是围绕数据进行的有效整理,是服务于数据应用、共享等的一种技术形式,可以将看似毫无关联的数据进行深入剖析并对其进行合理化分类,之后将分类好的数据予以深入分析,以此形成特定的结论。数据挖掘技术概念具有一定的系统性特征,囊括了多个子系统和关联技术,其功能主要通过以下几个方面得以体现:首先,具有分类聚类功能。在围绕相同的交易数据库予以管理时,可以针对项目间关系予以剖析,并依托专业化软件和分类聚类技术实现对数据的合理化分组,从而为后续数据查询与应用提供便利。其次,具有分析预测功能。数据挖掘技术可以对数据间存在的规律进行总结,同时,数据间潜在的自变量或因变量等关系的挖掘也可以借助数据挖掘技术来实现,是后续决策制定时的主要参考依据。最后,数据挖掘技术可以实现虚列模式编辑功能,在基于时间顺序背景下实现对数据间内在联系的深入分析,并按照等级不同实现层次的划分,便于后续更好地应用与开发。
  云计算是以互联网为基础形成的一种服务模式,资源虚拟化是其最为突出的特点。在使用数据的用户中,其对于数据存储地并不知晓,同时数据存储方式也主要以分布存储为主[1]。云计算对服务器规模和服务的安全性和可靠性都有着较高的要求,同时其服务模式也是海量数据得以正常使用和存储的基本保障。
  基于云计算的数据挖掘系统有着一般数据挖掘系统不可比拟的优势,主要原因有以下两种:(1)数据挖掘技术本质而言就是以海量数据为面向进行的处理活动,数据量与复杂程度成正比,所以,依托云计算可以实现与数据挖掘技术的充分融合,从而使数据挖掘和数据处理的能力都能得到显著的提升。(2)以云计算技术为支撑的分布式存储技术的运用,可以改变原本数据挖掘对服务器性能要求高等要求。由此可见,基于云计算环境下的数据挖掘技术不仅拥有了更丰富的数据源,而且数据挖掘分布式处理方式也更加便利,提升了数据挖掘技术基于同等条件下处理多种数据的便利性。
  2    基于云计算的数据挖掘技术的优势
  基于云计算的数据挖掘技术共具有以下几点优点:第一,可以对底层予以隐蔽处理,后续数据开发工作便利性能够大大提升。在这一背景下,计算分配或计算调度任务等问题均不纳入用户考虑内容当中,不仅能够促进工作效率的提高,而且操作起来也更加便利;第二,无论是大规模数据处理能力,还是处理速度都有了显著的提升;第三,由于对机器性能要求有所降低,相应的数据处理成本较之前相比也会低,能够获得更多的收益;第四,可以根据自身需求从海量数据信息中快速找出所需信息,既实现了开发环境和应用环境的创造,又简化了挖掘任务。
  3    基于云计算的数据挖掘技术的具体应用
  3.1  算法
  云计算环境下,数据具有类型丰富和形式多样等特点,数据规模也呈现了逐渐扩大的趋势。想要对这些数据予以整理和分析,并挖掘其中潜在的关联,将其整合供用户使用,算法不仅是至关重要的技术,而且也是关键工具。一般来讲,处于云计算环境下的数据量大小并不能精准估计,仅依靠小规模分布式计算机集群完成对大批量数据的处理是不现实的,同时在这一过程中,存在的运算部署难度大和成本投放大等客观现实问题也不容忽视。基于此,可以将云计算基数和数据挖掘整合起来,能够起到重要作用。具体来讲,可以建构以Hadoop为基础的开源并行数据挖掘平台,在Map Reduce框架的支撑下完成数据处理工作。
  基于云计算的数据挖掘算法通常还会与其他领域算法进行结合,例如人工神经网络系统与基于云计算的数据挖掘技术的整合,可以使多数数据的处理与分析同时进行。深度学习算法是以大批量数据为对象予以的处理工作,同时,在样本集的训练依托下可以实现算法的自动数据处理与挖掘。遗传算法也是数据挖掘技术中应用相对广泛的一种算法,主要是以可视化技术为手段,在动画和影像技术的支撑下促进内容形象化、可视化展现,从而给用户带来更好的体验,不仅使信息技术展示模式逐渐丰富起来,而且对其推广与应用也具有积极意义。
  3.2  用户数据处理
  就需要处理的数据源来讲,用户要立足于自身实际需求对数据来源进行合理化安排。部分还需要购买新的需求数据,在用户获取到所需数据后,就可以以云计算DaaS服务模式为辅助和手段开展对数据的管理。用户在数据挖掘系统应用背景下,可以保证自身所需数据能够快速且准确地被找出,为后续的数据处理奠定了良好的基础。同时,用户也可以将个人数据置身于系统中予以共享,从而为其他用户的处理提供便利。在这一过程中不同用户数据处理结果也是相互独立的。此外,也可以借助数据挖掘系统中分类聚类功能,针对用户数据予以科学化划分,也是用户数据实现动态管理的重要前提。在针对数据予以处理的过程中要坚持以下原则:只在算法的支撑下进行数据处理,确保原数据相关属性的固定不变。因此,数据是可以多次利用的。   3.3  Map  Reduce模型
  Map Reduce是基于云计算的数据挖掘过程中最常应用的并行计算模型,是大数据处理非常流行的并行模型,常常被应用到商业与科学领域,如生物信息学、索引、网络等等。Map Reduce程序用来计算大规模海量数据,简单来讲就是以大数据为基础,处于Hadoop下的并行核算框架[2]。此框架一方面其容错特性较强,另一方面也是确保数据顺利传递的重要保障,推动了大批量数据高效运算的实现。Map Reduce执行有3个阶段,分别是输入阶段、Map阶段和 Reduce阶段,输入阶段是進行录入及拷贝的过程,是执行的最初阶段;Map阶段是分配Map任务及解析key/value对的过程;Reduce是最后一个阶段,合并key/value对,输出R文件。通常来说,Map Reduce并行计算可以细分为Map和Reduce两种任务,这些任务由Map器和Reduce器来执行。无论是上述两种任务哪个执行过程中,数据挖掘系统都会将现有数据进行自主划分,使其以多个独立小模块的形式存在。之后,被划分的小模块会在Datanode各个节点中予以分布,从而保证了后续统一核算处理的顺利进行。上述方式可以以数据为面向完成分布式核算处理,既能够有效提升数据处理速度,又可以使服务器集中处理数据负载得到显著地降低,其效率也得到了相应的提升。在围绕海量数据予以处理的过程中,可以在Map Reduce任务分配功能框架支撑下完成Datanode各节点的设定工作,并将处理阶段和核算节点予以统一化的分布式管理,这也是Hadoop数据处理过程中遇到的各种问题得到有效解决与处理的重要前提。
  4    基于云计算的数据挖掘技术面临的问题与挑战
  据了解,目前云计算依然处于初级阶段,各方面还有待完善与发展,在这一过程中也必然会面临着一些问题与挑战,主要囊括在以下几个方面:第一,无论是软件还是服务,其可信度都有待提升。云计算要将隐私安全问题给予高度重视,从而使其隐私安全保护能力得到充分的提升,确保用户使用过程中的安全。第二,不确定性因素较多。例如数据挖掘方法和结果、挖掘结果评价和数据挖掘任务等都是构成不确定因素中的重要内容。第三,算法的选择问题。遇到不同问题,就要选择与之相应且合理的算法和策略,以此完成数据处理工作,这也是基于云计算的数据挖掘技术需要强化的地方。
  数据挖掘技术应用过程中,还存在验证技术局限性强等问题。通常来讲,技术应用过程中需要借助特定分析方法和逻辑形式以此发现知识[3]。如果对已经发现的知识系统不具备相应的能力来对其予以交互证实,会导致已经发现的知识实用性不强。对于部分有待挖掘的数据来讲,其本身就存在不正确的可能。基于此,数据挖掘有效性也会受到冲击。想要使数据挖掘结构价值得到充分保障,就需要基于用户对自身数据有清晰了解的基础上来进行,这样可以推动数据挖掘输出结果质量的提升,而且也能使挖掘到的数据具有的价值得到充分发挥,更好地提供服务。
  5    结语
  综上所述,数据挖掘技术是处理海量数据过程中的一种常用且有效的方式。近年来,数据挖掘技术的应用范围也有了显著拓宽。云计算在数据挖掘过程中有着较为突出的优势,无论是分布式存储,还是基于云计算的Map Reduce计算模型等,都给数据挖掘过程提供了重要的辅助,既有效提升了数据挖掘效率,又保障了数据处理的质量。
  [参考文献]
  [1]李庆年.基于云计算的数据挖掘技术应用与发展[J].无线互联科技,2019(10):134-135.
  [2]杨继武.云计算视域下数据挖掘技术[J].电子技术与软件工程,2019(5):151.
  [3]商挺.浅谈基于云计算的大数据挖掘及解决方案[J].中国新通信,2018(23):68.
转载注明来源:https://www.xzbu.com/8/view-15093922.htm