您好, 访客   登录/注册

基于云计算的数据挖掘平台架构及其关键技术研究

来源:用户上传      作者:胡珊

  摘   要:近年来,随着经济的飞速发展,社会逐渐步入信息化社会。相比传统数据挖掘系统,基于云计算的数据挖掘平台是新时代的科技产物,具有得天独厚的优势,其处理海量数据的能力、面向服务、高度扩展性等特点受到各行各业广泛的关注和认可。文章首先概述了云计算的概念以及服务范围,之后分析基于云计算的数据挖掘平台架构,并且提出相关的技术指导建议。
  关键词:云计算;数据挖掘;平台架构;关键技术
  随着经济全球化的逐渐加深,国家建设规模得到进一步扩大。时代的发展促使人们从电气时代步入高效发展的信息时代。互联网技术的广泛应用,为人们的日常生活带来极大的便利,同时也促进了国际经济的发展。在互联网时代,每天都会产生大量的数据信息,海量的数据内存在大量的无用信息。并且现阶段信息处理技术尚不成熟,在信息挖掘方面比较薄弱,为了改善这样的现象,基于云计算的数据挖掘平台应运而生。帮助人们解决了信息处理问题,也推动了信息时代的发展。传统数据挖掘并不能满足人们对信息的需求,经过专家学者的探索研究,云计算具有超强的计算能力和存储能力,并且运营成本比较低,得到社会的青睐,所以以云计算为依托构建数据挖掘平台是新时代发展的必然趋势,为推动国家科技水平发展做出突出贡献。
  1    云计算概述
  1.1  概念
  云计算是二十一世纪的新名词,是一种新型网络模式,社会各界对其的定义各有不同。云计算是分布式计算的一种,主要利用网络“云”将巨大的数据计算处理程序分解为无数个小程序,之后利用多种服务器构成的系统进行处理和分析,并且将处理后的结果回传给用户[1]。美国NIST认为云计算是一种根据使用量来进行付费提供的,是一种比较方便、符合用户需求的网络访问模式。综合国内外专家学者研究成果,将其定义为:云计算是一种多种计算方式对于某些特定需求,在短时间内面对海量信息数据具有超高效率的计算处理模式。
  1.2  服务层次
  通过对现阶段的理论综述研究,分析出云计算服务层次一般为3种:软件级服务、平台级服务以及基础设施级服务。软件级服务就是指用户群体利用云计算来获取信息资源和计算能力,进而实现对软件的操作使用。平台级服务能够在用户群体不需要购买相关的软硬件设备的前提下直接实现应用的测试和开发等。基础设施级服务主要是帮助用户群体直接实现云计算服务的使用,比如资源的存储、开发等。在服务层次上,发展较为成熟的是美国的亚马逊等服务平台。
  2    基于云计算的数据挖掘平台架构
  近年来,互联网技术发展比较迅速,在数据挖掘平台架构方面得到了充分体现。在云计算的分布式存储和分布式计算的影响之下,推动了新时代数据挖掘平台的创新改革。
  可以发现,基于云计算的数据挖掘平台构架是从上到下的顺序设计,一共分为3层,根据顺序依次为数据挖掘云服务层、数据挖掘能力层以及云计算支撑平台层[2]。其中,数据挖掘云服务层主要是向外界分享数据挖掘云服务以及服务能力封装的接口方法,也就是本地应用程序的编程接口,具体包括HTTP,Restful,SOAP以及Web service等。可以為客户提供解析引擎,并且支持语言语句的搜索查询,可以根据实际情况适当调节云服务,来满足不同业务系统对数据的用户业务的真实需求,此外,还可以对数据挖掘云服务自行调用和组装。
  数据挖掘能力层主要是较为基础的数据挖掘能力,具体表现为调度引起和算法服务管理以及数据并行处理框架等,并且也为使用者提供数据挖掘能力层的相关能力。在本层中,能够直接与Mathout和Weka等第三方数据挖掘工具的分布式算法库连接,除此之外,还具有内部数据挖掘算法能力和算法库。
  云计算支撑平台层通常情况下具备3种能力,分别是分布式文件存储、数据库存储和计算能力。本层架构比较简单,可适用于企业自主研发的数据挖掘平台,还可以依托于第三方云计算数据处理平台,。
  3    基于云计算的数据挖掘平台的关键技术
  通过对数据挖掘技术和云计算技术的有机结合,进一步实现基于云计算的数据挖掘平台的搭建[3]。而基于云计算的数据平台搭建的质量与云计算数据平台的每一个关键技术有着密不可分的关系。本文全方位地分析有关于云计算数据挖掘平台的关键技术,找出平台架设过程中的问题和不足,进而对平台进行完善优化,推动信息化社会稳定发展。
  3.1  云计算技术
  云计算关键技术主要表现在虚拟化技术、分布式存储技术以及并行云计算技术3个方面。(1)虚拟化技术。能够为网络海量数据挖掘营造良好环境,在大数据时代背景下,虚拟化技术在数据挖掘的具体表现可以分为跨两个或者跨多个系统的信息数据挖掘处理。此外,结合虚拟化技术可以帮助用户群体实现动态化数据管理,能够扩大技术服务范围,进而提高服务效率。(2)分布式存储技术。其存在的价值在于可以提高信息数据处理精度,还可以降低挖掘平台运作的成本。如果平台的硬件能力不足,可以转化研究方向,向高性能的软件方面探索来弥补缺陷。基于种种外在影响因素,分布式存储方式相比传统存储方式,具有非常大的优势,比如存储容量庞大,并且挖掘平台运作成本相关较低。(3)并行云计算技术。该方面的研究尚不成熟,但是该技术在一定意义上对云计算数据挖掘平台的运作效率有着直接影响作用[4],利用此项技术能够实现多个数据处理任务的同时进行。并且云计算技术对服务调度有着非常重要的作用,而且基于并行云计算技术,可以强化云计算数据挖掘平台的稳定性。
  3.2  数据汇集调度中心
  具体表现为将平台的各种业务数据进行汇集接入,可以为多种源数据格式进行支撑,从而有效地解决由于各种数据所导致的规约问题。除此之外,源数据格式也可以为多种数据作为支撑,比如各种日志数据、爬虫数据等,同时还支持联机分析处理系统数据和联机事物处理系统数据等。基于此项技术,可以实现很大程度的数据同步,比如文件数据传输协议同步等。而且源数据格式也应该提供更多的数据同步形式,比如socket消息同步、数据库实时同步以及文件传输协议等。并且利用数据汇集调度中心可以有效地改善现阶段云计算所存在的隐私安全问题。也就是并行云计算技术为云计算提高了效率,而数据汇集调度则为云计算数据挖掘平台的高效性、稳定性和安全性提供了保障。在数据汇集调度中心方面,主要应用的是模板化的设计技术,具体功能为将不同类型的数据信息进行整合汇集,可以支持新数据和源数据的配置,借此可以实现对于不同业务数据的规约和统一汇集管理。   3.3  服务调度与管理技术
  云计算具备非常强的基础能力,服务调度和管理技术正是实现其能力的关键技术。云计算数据挖掘平台的架构必须具备服务调度能力和服务管理能力,而且需要不同的业务系统才可以满足使用此平台的条件[5]。在并行互斥和服务管理等方面,应该结合平台实际运作情况以及用户信息反馈等,根据实际需求合理对服务和资源进行分配,出现这些问题,要根据服务的优先等级按照顺序解决。基于此,才可以进一步实现云计算数据挖掘平台的安全性和可靠性,同时根据相关的服务管控情况适当地对调度进行调节。在服务注册和服务暴露等方面,可以利用服务管理对这些系统功能进行统一管理。在云计算数据挖掘平台实际操作过程中,服务管理功能可以直接纳入第三方数据挖掘能力,由于其自身具备暴露本地服务的能力,所以可以最大限度地发挥出云计算数据挖掘平台的服务能力。
  4    结语
  总而言之,云计算技术的广泛应用为国家建设带来新的机遇和挑战,在新的时代背景下,将云计算技术作为依托构建数据挖掘平台,可以极大地提高数据处理效率,还可以为用户群体提供更为优质的体验和服务。但是现阶段的数据挖掘平台发展过程中存在一些问题,比如用户的安全隐私问题等,都需要加大重视程度,努力探索完善,弥补技术上的不足。文章全面分析了云计算和数据挖掘技术以及二者进行有机结合后的发展前景与关键技术,提出一些不成熟的建议,旨在帮助新时代云计算数据挖掘平台获得更为良好的发展。通过国内外专家学者的探索研究和社会的不断进步,云计算数据挖掘平台也会不断地完善优化,受到社会各界的广泛关注,为用户提供更为优质的服务体验,推动信息时代的发展。
  [参考文献]
  [1]葛晓玢,刘杰.基于云计算的数据挖掘平台架构及其关键技术研究[J].景德镇高专学报,2017(3):26-29.
  [2]陈磊.基于云计算的数据挖掘平台架构及其关键技术研究[J].电脑编程技巧与维护,2017(6):64-65.
  [3]冯娜.云计算环境下数据挖掘信息平台架构设计及实现[J].电脑编程技巧与维护,2017(18):63-65.
  [4]徐焱.基于教育数据挖掘的个性化自适应学习系统研究[J].中国教育信息化,2019(11):13-15.
  [5]尚斯年.基于云計算分布式技术的海量AIS数据挖掘系统设计与实现[D].大连:大连海事大学,2017.
  Research on the architecture and key technologies of data
  mining platform based on cloud computing
  Hu Shan
  (Guangzhou College of Technology and Business, Guangzhou 510000, China)
  Abstract:In recent years, with the rapid development of economy, the society has gradually stepped into the information society. Compared with the traditional data mining system, the data mining platform based on cloud computing is the product of science and technology in the new era, which has unique advantages. Its ability to deal with massive data, service-oriented, high scalability and other characteristics are widely concerned and recognized by all walks of life. This paper first outlines the concept and service scope of cloud computing, then analyzes the data mining platform architecture based on cloud computing, and puts forward relevant technical guidance suggestions.
  Key words:cloud computing; data mining; platform architecture; key technologies
转载注明来源:https://www.xzbu.com/8/view-15176192.htm