您好, 访客   登录/注册

基于优化粒子群算法的云环境大数据聚类算法

来源:用户上传      作者:

  摘  要: 对于传统云环境大数据聚类中的量子进化方法的聚类精准度比较低的问题,为了降低存储开销,提高数据管理能力与调度能力,提出将优化粒子群算法作为基础的云环境大数据聚类算法,对云环境大数据聚类原理进行分析,将传统模糊C均值聚类作为基础,通过粒子群聚类算法对大数据聚类算法进行改进,从而实现空间分割,得出云存储系统的海量數据模糊聚类。利用粒子群聚类方法分配聚类数据离散成本,得到数据聚类信息浓度;与粒子群优化聚类约束条件结合,得到云环境大数据聚类中心最优解。仿真结果表明,此算法的数据聚类精准度比较高,具有良好的收敛性能。
  关键词: 大数据聚类; 云环境; 粒子群优化; 空间分割; 模糊聚类; 仿真测试
  中图分类号: TN919?34                             文献标识码: A                      文章编号: 1004?373X(2020)14?0072?04
  PSO?based big data clustering algorithm in cloud environment
  HU Yi, ZHU Zijiang
  (South China Business College Guangdong University of Foreign Studies, Guangzhou 410545, China)
  Abstract: As the clustering accuracy of the quantum evolution method of the big data clustering in the traditional cloud environment is relatively low, a PSO?based big data clustering algorithm in the cloud environment is proposed to reduce the storage cost and improve the abilities of data management and scheduling. The principle of big data clustering in the cloud environment is analyzed. By taking the traditional fuzzy C?means clustering as the basis, the big data clustering algorithm is improved by means of the particle swarm clustering algorithm, so as to achieve the spatial segmentation and get the fuzzy clustering of mass data in the cloud storage system. The discrete cost of clustering data is distributed by means of the particle swarm clustering method to get the information concentration of data clustering, and is combined with the clustering constraint condition of particle swarm optimization to get the optimal solution of big data clustering center in the cloud environment. The simulation results show that the algorithm has high accuracy of data clustering and good convergence performance.
  Keywords: big data clustering; cloud environment; particle swarm optimization; space division; fuzzy clustering; simulation testing
  0  引  言
  云计算概念是IBM于2007年提出的。云计算是并行处理、分布式计算、网格计算之后所发展起来的最新计算方式,其将各种互联计算、数据、存储和使用等资源整合,从而能够实现多层次虚拟化和抽象,用户只需要和网络连接,就能够利用云计算强大的计算和存储能力实现功能。基于云计算背景,大数据信息处理能够实现数据聚类,利用大数据的特征参量可以对数据进行分析。基于数据聚类可实现大数据的创建,并且利用模式识别与诊断实现服务分析。
  1  云环境大数据存储的设计
  云计算是指通过现代互联网对结构模型与存储空间进行动态扩展。要想以云计算作为背景,进行分类挖掘与大数据存储,首先就要实现大数据存储机制架构的创建。在云环境中,大数据存储通过虚拟化存储在计算机集群开展云计算部署,通过USB磁盘层、结构层、计算机等构成,企业利用终端就能够使用,通过分布式计算机就能进行计算。
  云环境大数据存储结构如图1所示。
  利用图1所示结构,将屋内分配应用到云计算虚拟机中。通过式(1)、式(2)实现优化聚类算法,利用最优解实现云计算背景中大数据特点聚类物理分配,公式为:   然后收集样本且分析、判断,之后给予此样本,假如设置大数据库数据信息为S=X1,X2,…,Xk,则在时间段T1,T2,…,Tk中对样本数据进行分析。划分云计算环境大数据集合X为c类,c,n大于1,实现数据的空间分割,以此得到大数据存储结构中心的矢量。由于客户端具有相同的模块大小,从而可开展云聚类。利用以上云计算背景大数据存储机制分析,从而实现数据聚类精准分析[1]。
  假如基于云计算背景下时间序列表示为:
  X与Y指的是数形结合,以此得出云计算背景数据聚类空间分析:
  式中:x(t)为云环境大数据聚类的信息流时间序列;J为云环境数据重构时间窗函数;t为数据手术时间。对角向量指的是数据中心粒子距离与目标解,利用误差反转降低训练梯度,使大数据优化特点充分展现出来,将其输入到数据聚类中识别计算模式。
  2  基本粒子群算法
  基本粒子群算法的位置与速度更新公式为:
  式中:k为迭代次数;[Xid]为粒子位置;[Vid]为粒子速度;C1为学习因子;C2为加速常量;Plid为个体极值;Pgd为全局极值。
  2.1  基本粒子群算法参数
  基本粒子群算法中参数主要包括学习因子C1和C2、最大速度vmax、惯性权重系数[ω]和种群规模m。
  2.2  惯性权重系数
  惯性权重是指基本粒子群算法主要参数,其能够对算法开发与探索的能力进行控制。惯性权重大小和粒子目前速度继承相关,惯性权重比较大就会提高粒子速度,提高探索能力。
  在选择惯性权重的过程中,主要有时变与常量,算法执行效果和惯性权重有密切关系。一般设置权重惯量为0.9~0.1的线性下降方法,此方法能够使基本粒子群开始时对大区域探索,然后对最优解大致位置进行探索,在惯性权重减小过程中,降低了粒子速度,开始精准局部搜索[2]。
  2.3  学习因子
  C1指的是粒子对历史最优值权重系数的跟踪,其指的是粒子对自身认知。C2指的是粒子跟踪群体的最优质权重系数,其指的是粒子对整体认知。其能够对粒子全局最优粒子与个体最优粒子方向飞行最大步长进行调节。如果太小,粒子会远离目标区域;如果太大,就会导致粒子忽然飞过或者飞向目标区域。设置合适的C1与C2值,促进算法收敛,不容易陷入到局部最优解。
  2.4  种群规模
  种群规模m指的是整型参数,m=1时,说明种群具有一个粒子,基本粒子群算法为将个体搜索为基础的技术。如果陷入到局部最优,就无法跳出;在m值小的时候,算法收敛速度比较快,但是会陷入到局部最优;在m值大的时候,基本粒子群算法优化能力良好,但是收敛速度慢。一般,以具体位置实现粒子种群值的设置,为10~50之间,得到良好效果。针对复杂化搜索空间与制定类型问题,粒子群为100或者更大。但是,群体过大会增加计算时间幅值,在群体数量增长到一定水平的时候,使粒子数量增加并没有效果[3]。
  2.5  最大速度
  通过上述表示,粒子速度为随机变量,通过粒子位置对公式更新所产生运动轨迹不可控,导致粒子在问题空间循环的跳动。
  为了对无规律跳动抑制,速度在[-vmax,vmx]中限制,vmax增加,对全局搜索非常不利;vmax降低,对局部开发非常有利。但是vmax过高,粒子运动轨迹就无法规律性,或者使最优解区域越过,从而使算法无法收敛,导致停滞状态。相反,如果vmax比较小,粒子运动步长比较短,算法就会陷入到局部极值中。根据经验选择vmax值,一般设置为问题空间10%~20%。
  3  基于优化粒子群算法大数据聚类算法
  在以上粒子群算法中,实现优化粒子群聚类算法的改进,设计云环境中大数据优化聚类设计,使存储开销得到降低,使数据管理与调度的能力得到提高。传统通过量子进化的方法,能够实现云存储的大数据聚类。随着量子群个体的非线性偏移,以数据聚类收敛降低聚类精准度。为了有效解决传统方法中的问题,本文基于粒子群进行优化,实现云计算大数据优化聚类算法[4]。
  假如D维大数据云存储聚类特征空间中的粒子构成种群有m个,在种群聚类扰动序列过程中,对聚类精度造成影响。因此,本文使数据聚类问题转变成为多目标优化的问题,云存储大数据聚类数据为:
  式中:[fi(x)]([i=1,2,…,n])为目标函数;[gi(x)]为系统不稳定周期点;[hj(x)]为等式约束。
  在此使用混沌粒子群扰动概念,得出变量x支配聚类中心特征解:
  为了避免粒子陷入局部最优,实现大数据信息特征矢量Xi存档,计算公式为:
  设置聚类阈值为Nth,在Neff<Nth的时候,对区域区间聚类正确概率进行搜索:
  使用粒子群跳数的改进机制对存储库粒子群进行更新[5],图2为粒子群条数的改进机制。
  粒子群更新过程中的粒子空间位置为:
  在均匀分布评估解集的过程中,通过最优化的聚类中心矢量函数进行计算,根据模因组中更新迭代顺序得出:
  以此能够得出云存储大数据聚类粒子适应度函数:
  式中,α与β指的是分集聚类敛目标函数,通过粒子群聚类方法的优化,聚类云存储大数据,对算法进行改进[5]。算法的改进流程详见图3。
  4  仿真测试分析
  為了对本文算法验证,对云环境大数据优化聚类性能进行仿真实验。仿真实验硬件环境为WIN7操作系统、内存2 GB、CPU主频2.93 GHz,使用Matlab 7仿真软件。在实验过程中,设置大数据采样频率[7]fs=4f0=20 kHz。大数据聚类时间中心t0=15 s,数据量为10 MB~1 GB,将10 MB作为单位,粒子群数量N共有30 984个,在粒子群聚类的过程中,设置空间搜索维度为30,粒子群移动概率设置为0.34,优化粒子群算法运行迭代为5 000次。表1为大数据聚类算法处理参数[8]。   通过以上仿真环境和设置参数的结果,对云计算中心进行大数据聚类仿真。原本大数据二维特征分布随机,在二维空间中无法实现规律性特征分类与提取。使用文中算法处理数据聚类,提取其中的特征与大数据,创建信息模型,实现粒子群优化算法特征聚类的设计,图4为特征提取结果。
  由图4可以看出,本文算法能够有效提取云计算大数据中的特征,具有良好的波束聚焦性能,以此能够为数据优化聚类提供精准特征,数据聚类得到实现。
  本文算法在计算迭代的过程中,稳定收敛速度朝着最优解逼近,和其他算法对比,具备良好的全局最优解搜寻优势与收敛速度,使数据聚类寻优能力得到提高,使大数据聚类精度得到提高,从而使误分率得到降低。对比文中算法与传统算法,误分率降低13.56%,表明大数据聚类挖掘能力良好[9]。
  5  结  语
  本文设计云存储系统的大数据优化聚类,使存储开销得到降低,调度能力与数据管理也有所提高。通过量子进化方法能有效实现传统云环境大数据聚类,随着量子群的个体非线性偏移,数据聚类具备局部收敛性,降低了聚类的精准度。本文云环境聚类的粒子群优化算法,在进行设计的时候要分析云环境存储,基于传统粒子群算法优化设计大数据聚类算法,利用仿真实验检测性能,充分展现大数据聚类中本文设计算法的优越性能。实验结果表明,此数据聚类具有良好的聚类性能,能够在短时间内计算出最优解,具备良好的数据聚类挖掘能力。
  参考文献
  [1] 刘云恒.云环境下基于群智能算法的大数据聚类挖掘技术[J].现代电子技术,2019,42(9):73?75.
  [2] 王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26?30.
  [3] 朱亚东,高翠芳.基于PSO的云计算环境中大数据优化聚类算法[J].计算机技术与发展,2016,26(9):178?182.
  [4] 项丽萍.结合大数据流特征和改进SOM聚类的资源动态分配算法[J].计算机应用与软件,2019,36(5):262?268.
  [5] 李斌,王劲松,黄玮,等.一种大数据环境下的新聚类算法[J].计算机科学,2015,42(12):247?250.
  [6] 李庆伟,陈慧枫,姚桂焕,等.基于距离学习粒子群算法的NOx减排优化[J].动力工程学报,2016,36(5):404?410.
  [7] 蔡晓丽,钱诚.基于改进的粒子群算法的云资源调度策略[J].微电子学与计算机,2018(6):28?30.
  [8] 邹华.云计算环境下大数据分布规律的结构优化设计[J].现代电子技术,2016,39(8):18?20.
  [9] 蔡宇翔,付婷,张辉,等.云計算环境下移动大数据合理分流方法[J].科学技术与工程,2018(2):194?199.
  [10] 李立军,张晓光.基于动态粒子群优化与K?means聚类的图像分割算法[J].现代电子技术,2018,41(10):164?168.
转载注明来源:https://www.xzbu.com/8/view-15283821.htm