您好, 访客   登录/注册

基于ADC模型的计算机集群工作效能评估

来源:用户上传      作者:张超越 余积宝 王紫阳 张欢

  摘   要:计算机集群是目前中大型系统建设的重要发展方向,计算机集群技术是支撑国家战略威慑手段和战略安全的中坚力量。目前,国内对其工作效能评估尚无有效的方法和模型。本文采用由美国空军提出的ADC系统效能评估模型,对中大型计算机集群的工作效能进行了建模。将集群状态分为正常、降级和故障3种情况,以概率论为基础,推导出了可行性的计算矩阵。根据计算机集群的工作能力、计算速度、实时推算能力3个指标给出了集群能力的计算方法。最后对模型进行仿真得到计算机集群工作效能随单个计算节点的平均故障间隔时间和工作时长的变化关系,对于计算机集群的应用和指标设计具有重要指导意义。
  关键词:计算机集群  ADC模型  工作效能
  计算机集群可以通过多台计算机完成同一工作,具有高性价比、高可靠性和高计算速度的特点[1]。作为集群的核心设备,计算机集群节点的性能显得尤为重要。以计算机集群节点的性能为基础,对集群的工作效能进行评估,能够有效掌握集群目前的能力,同时在合理调度使用节点方面,有着指导性的作用。本文将基于美国空军经典的ADC系统效能评估模型[2],建立可适用于计算机集群的工作效能评估模型[3],用于对同一体制的集群进行工作效能评估。
  1  ADC效能评估模型
  本文采用的效能评估模型最初由美国空军提出,简称ADC模型。该模型最终用一个向量来表示系统的工作效能[4],整个系统的n个明显不同的状态是建立该向量的基础。美国空军给出的系统效能表达式如式(1)所示。
  式中,A是一个向量,为系统可用性因子。用于度量系统是否能够正常使用,可以对使用前的系统是否处于正常状态进行量度,确认系统是否正常工作。
  D是一个矩阵,为系统可靠性因子。用于度量系统在工作过程中的可靠性,测算系统在工作过程中不发生故障的概率。
  C也是一个向量,为系统的能力因子。这是使用者最关心的指标,也是最能体现系统效能的指标。用于表示系统完成工作任务能力的量度。
  明显可以看出,基于以上的评估模型,如果系统的状态、故障概率和能力指标不一致,那么获得的效能评估结果也就不一致。
  2  计算机集群工作效能建模
  2.1 可用性因子建模
  把计算机集群处于不同工作状态的概率用可用性因子A来表示[5]。计算机集群由多个相互独立的计算节点组成,可以分为正常节点和故障节点。与传统单个计算机不同,即使故障计算节点较多,计算机集群仍能工作,只是性能会下降[6]。
  计算机集群的工作效能直接受故障节点影响,可以将计算机集群工作状态分为正常状态、降级状态和故障状态,其中降级状态指计算机集群的性能受到影响,但是仍然能够担负工作任务。故障节点的数量不同,计算机集群性能降级的情况也可以细分为很多种。根据故障节点的数量对计算机集群的工作状态进行定义,并建立简化模型:
  状态1:系统工作正常,故障节点数量少于计算机集群节点总数量的4%;
  状态2:系统性能降级,故障节点数量在计算机集群节点总数量的4%~16%之间;
  状态3:系统工作故障,故障节点数量大于计算机集群节点总数量的16%。
  此时,计算机集群的可用性因子A可以表示为以下向量:
  单个计算节点变为故障节点的平均间隔时间为t1,通过修复使故障节点恢复成正常节点的间隔时间为t2,单个计算节点变为故障节点的概率可以表示为PW。
  那么n个正常节点同时变为故障节点的概率为:
  接着推导a1的表达式,即故障节点数量少于计算节点总数量4%的概率。设计算机集群节点总数量为N,那么当故障节点数量少于时,计算机集群处于正常状态。计算机集群处于正常工作状态的概率a1为:
  同理可得,计算机集群处于故障工作状态的概率,既a3的表达式为:
  2.2 可靠性因子建模
  系统可靠性因子D同样分为三个阶段:d1、d2、d3,对应可用性因子A的三个阶段。在系统工作过程中,系统存在状态之间的转换,比如系统从正常工作状态转换为降级状态,我们将这个过程命名为:d12。类似的,我们命名d23为降级状态转换为故障状态,d13为正常工作状态转换为故障状态。由此类推,可以得到矩阵如下:
  式(11)表示系统在正常工作过程中变换到各种状态的概率矩阵。我们假设在工作状态下无法修复故障节点,并且故障节点无法自动恢复,所以式(11)可以简化为:
  假设一次系统工作时长为t,那么整个过程中单个计算节点正常工作的概率为:
  2.3 能力因子建模
  系统能力因子向量表示了计算机集群在三个不同状态下的作战能力。采用计算机集群的工作能力、计算速度、实时推算能力三个评价因子,表示为β1、β2和β3,三个评价因子的权重根据实际应用情况确定,表示为ω1、ω2和ω3,则能力因子向量C可表示为:
  当计算机集群处于正常工作状态时,β1、β2和β3的取值均为1;当计算机集群处于故障状态时,β1、β2和β3的取值均为0;当计算机集群处于性能降级状态时,计算机集群的工作能力β1下降为0.5,β2计算速度下降为0.5,实时推算能力β3下降为0.8。那么,能力因子向量C可表示为:
  3  计算机集群工作效能仿真
  为了对某型计算机集群进行工作效能评估,在搭建有效模型时,我们采用以下仿真参数。
  (1)计算机集群节点数量:N=50。
  (2)故障节点修复间隔时间:t2=10h。
  (3)三个评价因子的权重取值为:(ω1、ω2、ω3)=(0.5,0.5,0.8)。
  在上述参数设定下,系统工作时长t=20h时,计算机集群工作效能随单个计算节点平均故障时间的变化趋势如图1所示。由图1可得,在故障节点校正间隔时间和系统工作时长的约束下,单个计算节点平均故障时间小于6000h时,计算机集群的工作效能随单个计算节点平均故障时间的增加先上升后下降;单个计算节点平均故障时间为3000h时,计算机集群的工作效能达到第一个峰值,随后开始下降;当单个计算节点平均故障时间大于6000h时,计算机集群的工作效能开始随着单个计算节点平均故障时间的增加而增加;当单个计算节点平均故障时间大于100000h时,计算机集群工作效能接近最佳值。
  当单个计算节点平均故障时间一定时,计算机集群的工作效能随系统工作时长的变化趋势如图2所示。由图2可得,当单个计算节点平均故障时间一定时,计算机集群的工作效能随系统工作时长的增加而减少;单个计算节点平均故障时间越小,计算机集群的工作效能随系统工作时长的增加而减小的速度越快。
  4  结语
  本文针对计算机集群的工作效能评估,对正常、降级和故障3种状态进行分析。通过仿真结果可知,计算机集群的工作效能受单个计算节点的平均故障时间和系统工作时长的影响。当系统工作时长和故障节点校正间隔时间一定,单个计算节点的平均故障时间小于6000h时,计算机集群的工作效能并不是线性增加的,当单个计算节点的平均故障时间大于6000h时,计算机集群的工作效能随单个计算节点的平均故障时间的增加而增加;当单个计算节点的平均故障时间和故障节点修复间隔时间一定时,系统工作时长越大,计算机集群的工作效能将会降低,单个计算节点的平均故障时间越短,计算机集群的工作效能下降的速度越快。
  参考文献
  [1] William W.Hargrove.The Do-It-Yourself[J].Scientific American,2011-10-18(2):72-79.
  [2] 李耀,馮明翰.基于ADC模型的雷达网工作效能评估[J].火控雷达技术,2016(2):96-99.
  [3] 梁桂琳,周晓纪,王亚琼.基于ADC模型的遥感武器系统地面系统效能评估[J].指挥控制与仿真,2018(5):96-99.
  [4] 董雪.基于ADC模型的潜艇作战系统效能评估与工具实现[D].南京:南京航空航天大学,2018.
  [5] 李彤岩,王培国,张婷.基于ADC模型的通信网络效能评估方法研究[J].电子技术应用,2015(9):621-625.
  [6] 梁波.计算机集群节点的状态测量与节能优化的研究[D].湘潭:湘潭大学,2015.
转载注明来源:https://www.xzbu.com/1/view-15185390.htm