您好, 访客   登录/注册

虚拟化IMS网络可靠性解决方案探讨

来源:用户上传      作者:

  【摘  要】通过对虚拟化IMS网络可靠性需求分析,从满足电信级可靠性要求的角度出发,在vIMS网元级可靠性和网络级可靠性两个层面,对虚拟化IMS网络可靠性解决方案进行探讨:在网元级层面,从网元架构设计、故障检测和恢复手段等三个方面层层递进给出解决方案;在网络级层面,着眼网络全局,结合不同网元在网络中的角色、资源平衡等因素给出相应的解决方案。
  【关键词】NFV架构;vIMS;虚拟化;可靠性
  doi:10.3969/j.issn.1006-1010.2020.03.011        中图分类号:TN915.07
  文献标志码:A        文章编号:1006-1010(2020)03-0056-06
  引用格式:雷多萍,邓勇,彭莉. 虚拟化IMS网络可靠性解决方案探讨[J]. 移动通信, 2020,44(3): 56-61.
  The Discussion on Reliability Solution of Virtual IMS
  LEI Duoping1, DENG Yong2, PENG Li1
  (1. China Telecom Intelligent Network and Terminal Research Institute, Guangzhou 510630, China;
  2. China Telecom Corporation Limited, Beijing 100033, China)
  [Abstract] Through analyzing the reliability requirements of virtual IMS networks, this paper discusses the solutions of vIMS network reliability at both network-element and network levels in view of meeting the reliability requirements of telecom level. At the network-element level, the solution is given in a progressive way with network-element architecture design, fault detection and recovery methods. At the network level, the solution is given by considering the overall network and combining the roles of different network elements and their resource balance in the network.
  [Key words]NFV architecture; vIMS; virtualization; reliability
  0   引言
  NFV具有网络部署高效弹性、通用硬件资源共享、业务快速上线等优势,已成为未来通信网络演进的主要趋势。不同于传统的专用设备,NFV采用通用的IT硬件设备部署网元,因此其可靠性机制与传统的物理设备有一定的差异。如何提高和保证NFV网络的可靠性是虚拟化网络设备能否大规模商用的关键因素。
  业界在NFV可靠性方面做了大量研究,比如网元架构设计中提供高可用HA(High Availability)和容错FT(Fault Tolerance)两种方案,在网元故障自动恢复方面也提供了进程重启、虚机重启和虚机重建等手段。但这些方案主要是针对单个虚拟化网元的通用手段,并没有结合网元的实际业务需求和网络整体架构的可靠性提供面向具体业务特性、端到端的解决方案。本文根据语音业务对网络可靠性的要求和语音网络虚拟化架构的特点,深入探讨影响设备和网络可靠性的因素,结合业界研究成果,从IMS网元可靠性架构设计、故障检测和自动恢复等方面提出解决方案,并站在全网视角提出网络级的可靠性解决方案。
  1   vIMS/网络设备虚拟化架构
  图1是建立在ETSI NFV(Network Functions Virtualiza-tion)定义的架构之上,vIMS实例化后的网络架构图,整个NFV架构由三部分构成:基础设施NFVI(NFV Infrastructure)、网络功能VNF(Virtual Network Function)和NFV 管理和编排MANO(NFV Management and Orchestration)。
  虚拟化基础设施层包括通用硬件、虚拟化软件(Hypervisor)和操作系统(OS)。通用硬件是云资源池里的计算、存储、交换机和路由器等实体资源。虚拟化软件包括Hypervisor在内的一些中间件,是通用硬件和操作系统之间的交互通道。虚拟化软件向上提供标准化接口,向下屏蔽底层不同硬件的差异,提供硬件和上层应用软件交互通道。虛拟化软件技术实现了软硬件之间的隔离,使得上层应用软件不再感知硬件的差异,实现传统设备的软硬解耦,使得多种业务软件可以运行在统一的虚拟化基础设施之上。
  网络功能是搭载在基础设施层之上的各个虚拟机的应用软件,完成各种业务逻辑。对于vIMS来说,主要是vCSCF、vMMTEL、vENUM/DNS、vHSS等网元软件,提供包括语音、视频和短信等服务。
  协同编排由OSS/BSS和MANO组成。OSS/BSS提供开销户、计费等运营支撑。MANO由NFVO、VNFM和VIM组成,负责网络功能VNF生命周期管理,包括VNF软件镜像管理、实例创建、启用、停止、升级、扩缩容、网元管理策略以及对NFVI层资源管理、调度、运行监控等。   从NFV本质来看,vIMS实际就是一张IT化、云化的语音网络。从传统ATCA专用硬件到通用X86服务器,硬件翻天覆地的变化极大影响了语音网络可靠性要求。
  2   vIMS可靠性需求分析和影响因素
  语音网络的可靠性强弱采用系统可用性指标来对标。系统可用性是指语音网络一年内正常服务的时间。目前运营商可用性指标大多要求一年内业务正常服务时间为99.999%。即一年内语音业务出现故障时间不能超过5.256分钟。为保障业务的延续性,运营商在网络重构时,这个严苛的可用性指标被继承下来,并作为vIMS能否成为语音网络重构技术的关键指标之一。
  从传统专用硬件构成的IMS网络来看,软硬件是一种紧耦合的关系,软硬件之间沟通渠道由单厂家完成,协议是私有协议,不存在对协议理解沟通上的差异,不同硬件服务于不同功能软件。这种架构软硬件之间接口单一,转发效率高,设备可靠性也高。
  从NFV功能架构可知,vIMS实例化首先由协同编排MANO根据NFV镜像和模板要求,组合NFVI层虚拟计算、存储、网络等资源构成一个个符合NFV规格的虚拟机,并在这些虚拟机上加载相应的IMS功能软件,生成vIMS各种功能网元的过程。从单个虚机角度剖析,vIMS网元首先建立在虚机之上,而虚机又是由通用硬件、Host OS、Hypervisor、Guest OS、网络等颗粒组成,所有接口都开放和标准化,不唯一地为某种软件所使用,是一种松耦合关系。适用性广也就牺牲了包括转发效率在内的能力,设备可靠性也受到一定影响。除此之外,任何一个颗粒发生故障,都可能造成虚机故障,影响上层应用软件运行,最终影响语音业务可用性,而虚拟化vIMS比传统IMS颗粒度更细,颗粒更多。
  综上分析,影响虚拟化IMS网元可靠性有以下因素:
  NFVI层面:计算资源、存储资源等物理机层面故障直接影响虚拟机正常运行,网络故障则影响虚机或网元之间信息交换。
  虚拟机层面:包括Host OS、Hypervisor、Guest OS在内相关软件和进程故障。
  NFV层面:vIMS网元模块故障发现(检测效率)、个别进程运行故障、吊死。
  3   vIMS可靠性部署方案
  系统可用性指标考核的是业务正常服务时间,不是设备故障时间。局部设备故障,只要不影响业务正常服务,就不影响整个网络可靠性。所以提高网络可靠性可以从网络和网元健壮性着手,最终提升整个语音系统的可靠性。
  从网络组成可知,网络可靠性分为两个层面:网元级和网络级。网元级可靠性指单个网元的可用性,包括网元内各个模块软硬件和软硬件之间交互网络的可用性。网络级可靠性指为提供某种功能所需要的所有网元可用性的合集。网元和网络之间的可靠性可能会相互影响,单网元故障造成的雪崩可能会导致整个网络瘫痪,网元级安全是可靠性部署的重点,做好充分可靠性保护方案是降低单个模块软硬件故障、网络故障和由此产引发网元可靠性降低的重要举措,甚至可以实现单点故障不影响整个网络功能的可用性,从而提高网络的健壮和安全。
  3.1   vIMS网元级可靠性解决方案
  作为网络可靠性部署重点的网级元可靠性保护分三个层面,首先是在网元设计时充分考虑安全,其次是网元出现故障时要及时发现和隔离,最后应有措施自我修复。
  (1)网元可靠性架构设计
  vIMS的VNF由不同功能模块VNFC(Virtual Network
  Function Component)组成,VNFC之间互相协助共同完成协议分发处理、业务控制管理、数据存储管理、媒体报文处理、告警和维护管理、营帐和业务发放几大功能。
  如图2所示,从实现VNF功能的角度看,仅需要把每种VNFC部署一套即可实现VNF所有能力,考虑到设备使用一段时间后大概率会出现各种问题,如果每种VNFC只配置一套,单点VNFC故障必然影响VNF能力供给,所以在平衡资源利用率和网络可靠性时,不同功能VNFC有不同的设计。对于协议分发处理、告警和维护管理、营帐和业务发放这类业务负荷不是非常繁忙的VNFC通常使用1+1主备方式,在主用故障时,备用及时接管业务。业务控制管理、数据存储管理、媒体报文处理这类和业务处理密切相关,工作负荷大的模块采用负荷分担方式,在某一VNFC故障时,其他同种VNFC共同分担故障VNFC的工作。网元内部网络设计则需要保证在某一VNFC故障时不影响VNF相关功能,这就要求有消息交互关系的VNFC之间通过两两互联保证其他VNFC即刻接管其工作。
  VNFC除了在设计过程中需要考虑可靠性外,VNFC在部署时资源选取也是一个重要环节,即VNFC的NUMA亲和性和反亲和性部署。反亲和性部署指vIMS同一网元同种VNFC(有主备关系或者有负荷分担关系的功能模块),实例化时必须部署在不同物理机,以防物理机发生故障,所有同种VNFC都故障,所有功能相同的模块一起宕机,业务根本没有倒换到备用或负荷分担模块的机会。NUMA亲和性指在分配虛机资源时,vCPU、内存和PCI插槽等采用vCPU对应物理CPU所带的内存和PCI插槽。如图3所示,NUMA亲和性避免了采用不同内存和PCI插槽需要经过QPI总线转接。显而易见,NUMA亲和性不但提高数据转发效率,数据转发点减少也是提高数据转发可靠性的举措。图3虚机B采用的是另一物理CPU所带的内存和PCI插槽资源,造成数据转发点增多,可靠性降低。
  (2)网元内部故障检测
  提升网络的可靠性离不开对网络健壮性检测,vIMS应具备自动检测本身业务应用进程是否正常能力。同一设备内部故障检测有几种方式:
  同种有负荷分担关系的VNFC设置心跳,定期向控制VNFC汇报健康状况。   1+1主备方式的VNFC通过内部网络互发心跳,备用VNFC发现主用心跳异常时,即刻向控制VNFC发出警告,由控制VNFC决定下一步动作。
  VNF和Hypervisor之間也应有心跳机制,互相检测对方健康状态,根据健康状态采取不同恢复措施。当虚机启用了HA和“故障本地重启”后,会定期向Hypervisor发送心跳信息,上报运行状态。当检测到虚机没有按照设定时间发送心跳时,Hypervisor就判断虚机运行异常,并根据故障情况直接进行重启虚机或者上报虚拟化基础设施管理系统VIM,VIM进一步上报到NFVO,由上层设定的策略决定当前故障采用何种措施。
  Hypervisor和硬件资源之间也存在互相检查机制,当Hypervisor检查到硬件故障,或者硬件监测到Hypervisor故障时,通知VIM,由VIM通知NFVO决策。
  (3)故障自动恢复手段
  业内虚拟化可靠性有两种解决方案:高可用HA和容错FT。vIMS网元的VNFC主要通过设计1+1主备、负荷分担等方式实现HA。FT的解决方案是双机热备。备用VNFC和主用VNFC同步接收数据、处理数据,但是不输出数据,实时同步主用VNFC数据(包括静态数据和动态数据),在主用VNFC发生故障时备份设备可以立刻接管业务,不丢失任何数据,不影响业务运行。但在实际应用中,FT模式对主备VNFC实时同步要求较高,容易造成数据不一致,在vIMS网元内部应用不多。vIMS网元结合业务实现和HA方案对故障不同层级作了层层递进的保护性措施,在故障被检测到时首先启动故障倒换,把受影响的业务倒换到备用或者负荷分担VNFC之后,系统根据故障程度逐步升级恢复手段,从进程重启、虚机重启、到I层重建到最后网元级重建。I层重建按照发起者不同分为VIM主导发起和VNFM发起。
  进程重启:VNF某进程故障或吊死,操作系统自动重启该进程。这个过程1、2秒内可完成,不影响业务。
  虚机重启:重启和虚机是否支持HA无关,但虚机的“故障本地重启策略”参数需要开启。当虚机出现操作系统类故障时,故障将被I层检测出来,I层启动虚拟机的重启功能,虚机重启后恢复,业务也同步接管恢复。这个过程相当于电脑的重启,对业务基本无影响。例如某个虚机操作系统崩溃,I层检测到虚机故障后通知VIM,VIM通知VNFM,VNFM通知VNF进行业务倒换,同时I层重启该虚机,尝试恢复故障。
  如果虚机重启不能恢复,并且虚机HA开关打开。VIM检测到虚机不能恢复时,将故障虚机下电并通知I层重建虚机。I层将通过故障虚机共享存储中的操作系统、数据等在其他物理机上生成新虚机,这个过程也称为I层重建。新虚机构建成功后,原虚机上所有业务也将被迁移到这个新建的虚机上。例如虚机所在的物理机故障、Hypervisor关键进程故障,无法通过重启虚机恢复,I层在其他物理机使用共享存储上的操作系统和数据自动复活。
  如果虚机重启不能恢复,并且虚机HA没有打开。VIM便不能主导虚机自动复活。这个过程中VNF一直监测虚机恢复状况,定时器终了时间仍未能恢复时,VNF主动向VNFM发起重建申请(虚机自愈告警),VNFM收到重建申请后,上报VIM,VIM确认原虚机确实处于故障态,把故障虚机下电后,进行虚机I层重建。这里需要说明VNF监测间不能太短,太短可能会造成VIM发起的重建和VNFM发起的重建冲突,即要避免造成VNFM发起重建时,VIM发起的重建已经在进行当中。所以虚机HA不开启情况下,恢复时间要比打开要长,所以建议vIMS网络HA开关打开。
  如果I层重建所必须的,存放在共享存储中的操作系统、数据、VNF配置已经损坏,I层就无法采用故障虚机数据直接生成替代虚机。系统则通过存放在NFVO上的镜像文件、模板重建虚机。这个过程也称为网元级重建。虚机重建成功后,将替代故障虚机恢复服务。
  3.2  vIMS网络级可靠性解决方案
  vIMS语音网络由多种设备组成,从功能的角度分为核心控制设备和媒体转发设备,核心控制设备由vCSCF、vMMTEL、vMRFC、vENUM/DNS、vDRA、vHSS等,媒体转发设备有vBAC、vMRFP。从平衡资源利用率和可靠性需求考虑,设备职能不同,部署时对资源倾斜度也有所差别。
  vCSCF、vMMTEL、vMRFC这类核心控制设备采用组POOL方案,某一设备故障,其余N-1接管故障设备的工作。
  vENUM DNS网元包含多个区域所有静态查询用户数据,采用1主+2备方案,即在核心网络节点城市异局址机房设置1主+1备2套vENUM/DNS,同时在另一核心网络节点城市设置1套vENUM/DNS设备作为备份,主用设备对2套备用设备实时自动同步数据,以防地震、水灾等自然灾害影响所辖区域用户使用业务。
  vDRA主要用于转发vIMS网Diameter信令,其作用类似PSTN网络中信令转接点STP。参考STP可靠性部署方案,根据vDRA所处位置的不同,部署L-vDRA和H-vDRA。 L-vDRA之间、H-vDRA之间采用1+1负荷分担方式, L-vDRA和H-vDRA之间采用双平面异构组网方式。
  vHSS采用1+1互助方案,vHSS的两套设备都处于主用状态,但是对于用户A,vHSS1是主用,vHSS2是备用,而用户B则反过来。这种方法既尽量提高设备使用率,又保障安全可靠。
  vBAC、vMRFP也采用组POOL负荷分担方案,其中一套设备故障,由其他N-1套接管业务。
  4   结束语
  综上,通过分析语音网络对可靠性需求以及对NFV架构、vIMS整体架构和单网元设备各层面详细分析影响vIMS可靠性的因素(包括计算、存储等物理资源层面;Host OS、Hypervisor、Guest OS软件层面以及网元故障检测效率等方法论层面),建议在vIMS实际部署中,从网元级和网络级两方面加以考虑。   网元级可靠性从三个层面保障:网元架构设计中保证VNFC反亲和性部署、虚机采用NUMA亲和性部署,VNFC根据业务量繁忙程度采用双机主备或者负荷分担。为保证故障检测实时性,有主备关系或负荷分担关系的VNFC之间须设置心跳,VNF和Hypervisor之间、Hypervisor和硬件资源之间心跳也必须打开。在保证故障恢复手段方面要求虚机HA和 “故障本地重启策略”开关必须开启,定期检查共享存储和存放的操作系统、配置文件是否完好,以免因为共享存储或者其中的数据和软件损坏造成I层重建不成功。
  在vIMS整体组网设计则组合采用网络级可靠性组网,不同功能的网元分别采用不同方案。核心控制设备、媒体转发设备采用组POOL方式、包含多个区域所有静态用户数据设备采用1主+2备方案,本区域用户数据设备采用1+1互助方案,Diameter信令转发设备采用双平面异构组网。
  通过网元级、网络级可靠性组网方案最终从网元、网络的角度全方位保障vIMS业务安全、稳定运行。
  参考文献:
  [1]      张靖. 网构软件可靠性技术研究[M]. 成都: 西南交通大学出版社, 2017.
  [2]      曾声奎. 可靠性设计分析基础[M]. 北京: 北京航空航天大学出版社, 2015.
  [3]     李素游,寿国础. 网络功能虚拟化NFV架构、开发、测试及应用[M]. 北京: 人民邮电出版社, 2017.
  [4]      顾炯炯. 云计算架构技术与实践[M]. 北京: 清华大学出版社, 2016.
  [5]     唐青昊,毛大鹏. 云虚拟化安全攻防实践[M]. 北京: 电子工业出版社, 2018.
  [6]     唐宏,秦润峰,范均伦. 开源云OpenStack技术指南[M]. 北京: 科学出版社, 2017.
  [7]      戴夫· 沙克尔福. 虚拟化安全解决方案[M]. 北京: 机械工業出版社, 2015.
  [8]      凯文· 杰克逊,科迪· 邦奇.  OpenStack云计算实战手册 [M]. 北京: 人民邮电出版社, 2018.
  [9]     何坤源. Linux KVM虚拟化架构实战指南[M]. 北京: 人民邮电出版社, 2015.
  [10]   谢朝阳. 云计算:规划、实施、运维[M]. 北京: 电子工业出版社, 2015.
  作者简介
  雷多萍(orcid.org/0000-0001-5597-605X):高级工程师,学士,现任职于中国电信股份有限公司智能网络与终端研究院,从事网络技术研究和支撑工作。
  邓勇:学士,现任职于中国电信集团公司网络运行维护事业部,从事核心网维护管理工作。
  彭莉:现任职于中国电信股份有限公司智能网络与终端研究院,从事电信网技术和网络发展战略研究工作。
转载注明来源:https://www.xzbu.com/8/view-15153100.htm