您好, 访客   登录/注册

探究基于云计算的大数据挖掘平台

来源:用户上传      作者:

  摘  要:云计算技术具备动态资源分配和调度、虚拟化和高可用性的特点,能够克服传统数据挖掘技术速度慢、效率低和能耗高的弱点,有效的降低成本,提高数据挖掘效率。文章探讨了一种基于云计算的并行大数据挖掘平台的应用,并探讨基于云计算的大数据挖掘系统构成、存在问题及应对措施。
  关键词:云计算;大数据;挖掘;平台
  1  云计算在大数据挖掘中的重要性
   近年来,随着数据量的急剧增加,数据的低价值密度特性越发显现出来,大数据时代的到来,凸显了数据的重要性。但是数据大价值必须通过数据挖掘才能从低价值密度的数据中发现其潜在价值。数据挖掘通常需要遍历许多数据获得相关的统计信息,用于求解或优化模型参数,在大规模数据上进行频繁的数据访问需要耗费大量运算时间。数据复杂度和系统计算能力有限的矛盾日益突出,传统的单机系统速度慢、效率低、能耗高,而云计算平台却具备动态资源分配和调度、虚拟化和高可用的特点,能够满足挖掘计算的性能要求。大数据挖掘平台的建立和发展离不开云计算技术。云计算就是将复杂的计算任务分布在大量计算机构成的"云"中,将计算能力、存储能力以及应用服务能力按需分配给用户,提高数据获取的效率。而数据挖掘则是将大量的、不完全的、有噪声的、模糊的、随机的实际应用数据经过加工处理,筛选优化后,提取出隐藏在其中的有应用价值的信息。由于数据的大量和复杂性,这就需要用到巨大的存储运算量。而基于云计算技术的数据挖掘平台就能够很好的解决这一问题。它能够有效的控制运算和存储成本,提升数据挖掘效率,进而打破传统数据挖掘的瓶颈限制。
  2  基于云计算的并行数据挖掘平台
   由于数据复杂多样,数据挖掘和处理需要高速、高效,因此需要并行计算来实现大规模的计算,而云计算平台实质上就是一个虚拟资源池,通过多个虚拟机和应用将资源按需分配给用户,提高资源利用率。基于云计算的并行数据挖掘平台的架构是利用了数据库分片的思想,将数据分片后存储在各个分节点中,再由一个中央单元像一台中央空调一样来负责各个节点信息的汇总和维护。而各个分节点的算法是不固定的,也就是说不同的部分可以使用不同的算法,应用在并行分布式环境中,就更加灵活和高效,而这些是传统的数据挖掘平台所不具备的。基于云计算的并行数据挖掘平台能够利用云计算的海量存储和并行计算能力解决大数据的海量和高效性要求。目前基于云计算的并行数据挖掘平台的研究已经取得了一部分成果。何清等开发了一种基于云计算的并行分布式大数据挖掘平台 PDMiner(Parallel Distributed Miner),运用云计算的手段,实现像是数据预处理、关联规则分析以及分类、聚类等各种并行数据挖掘算法。并在 PDMiner 中的并行数据计算实现了处理太字节级的大规模数据集。PDMiner 并行分布式数据挖掘平台具有很好的加速比性能,在商用机器构建的并行平台上能够稳定运行。中国移动研究院研发了一种基于云计算的并行数据挖掘工具 Hadoop,可以让程序员很容易的开发和运行处理海量数据,实现了海量数据的存储、分析、处理、挖掘,向子系统提供可靠,高性能的数据。其核心部分就是 HDFS――一种建立在大型集群上的可靠存储大数据集的文件系统和 MapReduce――一种简化的分布式程序设计模型用于处理和生成大数据集。
  3  基于云计算的数据挖掘平台的问题和建议
   基于云计算的数据挖掘平台是云计算和数据挖掘的完美结合,融合了云计算的动态资源分配高效性和强大的数据挖掘能力,二者相辅相成、相得益彰。基于云计算的数据挖掘平台结构复杂、内容丰富。云计算综合运用了分类算法、聚类分析、关联规则、基于模式的相似性查找和时间序列或趋势发现和分析等多种算法对数据进行挖掘,达到良好的数据挖掘效果。云计算为数据挖掘提供强大资源分配上的技术支持,而数据挖掘能够促进云计算的数据计算和管理能力大幅提高。基于云计算的数据挖掘平台系统一般包括数据管理子系统、账户管理子系统、数据挖掘子系统、挖掘算法管理子系统四个子系统,负责不同的任务,彼此之间结合紧密。基于云计算的数据挖掘平台还包括一个服务器群和一个数据库群。
   对此,在建立数据挖掘云服务平台时,一定要注重其专业性和个性化,因地制宜,根据不同的服务对象构建相应的服务平台。而且在数据挖掘使用的算法的选择上也要尽可能的考虑其通用性,要可查、可调、可视,对一些隐私数据要加大安全防护。
   目前基于云计算的数据挖掘平台系统的研发和应用已经取得了一定的成果。这一类系统具有其独特的高效、处理数据量大的优势,但是由于云计算技术目前还处在发展的初级阶段,还面临着许多问题和挑战,既要克服云服务软件的安全性问题,还要克服数据挖掘算法和结果的不确定性。因此在构建运计算基础上的数据挖掘平台时,要注意与实际结合,注意设计的个性化以及通用性,加大对隐私数据的加密保护。
  参考文献:
  [1]郑妙师.基于云计算的数据挖掘平台架构及其关键技术研究[J].信息通信,2014(08).
  [2]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013(01).
  [3]程琳.基于云计算的数据挖掘系统架构研究[J].电子世界,2012(21).
  [4]刘桂霞,崔永铎,高平和.关于数据挖掘的研究[J].工业技术经济,2000(03).
  基金项目:本篇论文是秦皇岛市2015年科技计划项目"基于云计算的云课堂教学管理平台的搭建与应用研究"的研究成果
转载注明来源:https://www.xzbu.com/2/view-11829742.htm