您好, 访客   登录/注册

华为LTE网管服务器容灾方法的研究与应用

来源:用户上传      作者:

  [摘要]LTE网络结构较之前的网络更加扁平化,网络维护管理只能通过网管服务器进行。网管服务器更加重要,所以需要更高效可靠的网管服务器的容灾方法。
  [关键词]LTE 4G 网管服务器 容灾
  随着数据通信与多媒体业务需求的发展,适应移动数据、移动计算及移动多媒体运作需要的第四代移动通信开始兴起,因此有理由期待这种第四代移动通信技术给人们带来更加美好的未来。4G是第四代通讯技术的简称,G是generation(一代)的简称。4G系统能够以100Mbps的速度下载,比目前的拨号上网快2000倍,上传的速度也能达到20Mbps,并能够满足几乎所有用户对于无线服务的要求。另一方面,4G也因为其拥有的超高数据传输速度,被中国物联网校企联盟誉为机器之间当之无愧的“高速对话”。随着4G网络的发展,移动用户增长更为迅猛。我国4G用户规模已达到11.49亿户。随着人们使用手机方式的改变,手机的主要业务已从打电话业务变成数据流量业务。而4G网络在数据流量业务方面具有很大的优势。因此,4G网络受到了运营商格外重视。然而4G网络更加扁平化,只能通过网管服务器监控维护网络,所以对网管服务器的容灾要求更高。LTE(Long Term Evolution,长期演进)项目是3G的演进,它改进并增强了3G的空中接入技术,采用OFDM和MIMO作为其无线网络演进的唯一标准。主要特点是在20MHz频谱带宽下能够提供下行100Mbit/s与上行50Mbit/s的峰值速率,相对于3G网络大大的提高了小区的容量,同时将网络延迟大大降低:内部单向传输时延低于5ms,控制平面从睡眠状态到激活状态迁移时间低于50ms,从驻留状态到激活状态的迁移时间小于100ms。并且这一标准也是3GPP长期演进(LTE)项目,是近两年来3GPP启动的最大的新技術研发项目。经统计发现目前只有板卡级的容灾,当板卡发生故障后系统自动倒换到备用板卡,然后人工更换故障板卡。根据4G的网络特点以及重要性,这样的容灾系统可靠性不高。LTE网管服务器急需设备级容灾。
  一、设定目标及目标可行性分析
  目前华为ATAE服务器都有板卡备份,经统计全国范围内没有发生过华为LTE网管服务器设备级故障。小组经过讨论并确定目标值:实现容灾新方法后LTE网管中断的恢复时长小于30分钟。
  目标测算:小组成员借鉴新技术、结合现有技术模拟了建立应急容灾系统后,小组成员在现有是4套华为LTE网管服务器测试网元数据提取和新建网元,并统计分析了时长。平均网元数量;6774个;平均网元数据提取和新建网元时长:26.7分钟(为贴近实际情况,考虑各种误差,需增加10%的冗余时长)。推算时长=26.7x(1+10%)=29.37≈30分钟(预算时长取近似值不可四舍五入,应采取进一法)。因此,目标可以实现。
  方案对比选择:围绕课题,经过头脑风暴,确定三个可选方案:①基于云平台的LTE网管服务器容灾方法;②基于双机热备的LTE网管服务器容灾方法;③基于一对多热备的LTE网管服务器容灾方法。
  方案评估标准:小组成员制定了方案的评估标准:①成本:小于5万;②安全:内外网分离;③倒换时长:小于30分钟;④建设时长:小于3个月。
  总体方案对比介绍:小组成员对上述三个方案进行了详细的对比分析。
  方案一:基于云平台的LTE网管服务器容灾方法:
  实现原理:云服务器(Elastic Compute Service,ECS)是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效。其核心是虚拟化平台技术。虚拟化平台将一定数量的服务器集群虚拟为多个性能可配的虚拟机(KVM),并根据实际资源使用情况灵活分配和调度资源池。
  理论分析与对比:建立LTE网管云容灾服务器有两种方式:①购买使用公有云平台。②运维部自建云平台。这两种方式都要舍弃现有的服务器。
  小组成员对这两种方式分别进行了评估:购买使用公有云平台:小组成员经过了解发现联通公司是公有云运营商,在公有云技术和市场均处于全国领先。小组成员进行了统计分析。
  结果及评估:小组从成本、安全、倒换时长、建设时长等方面进行评估,发成本达到100万元,安全无法物理层面无法实现内外网分离,因此改方案无法满足要求。运维部自建云平台:小组成员查阅各设备制造商的相关技术资料后发现华为的云平台服务器符合我们的要求。根据华为的报价一套华为E9000云服务器的价格约为600万元。
  结果及评估:小组从成本、安全、倒换时长、建设时长等方面进行评估,发成本达到600万元,建设时长达到5个月,因此改方案无法满足要求。
  方案二:基于双机热备的LTE网管服务器容灾方法:
  实现原理:双机热备特指基于高可用系统中的两台服务器的热备。目前双机热备主要有三种形式:单存储方式、存储热备方式、数据同步方式。无论采用哪种方式,都需要新增服务器。目前2G网络空出一套ATAE服务器,如按照全省4套服务器都实行双机热备则还需购买3套服务器,成本约为600万元。
  结果及评估:小组从成本、安全、倒换时长、建设时长等方面进行评估,发成本达到600万元,建设时长达到5个月,因此改方案无法满足要求。
  方案三:基于一对多热备的LTE网管服务器容灾方法:
  实现原理:小组成员在学习磁盘阵列知识中发现在RAID5技术中一块硬盘可以对多块硬盘实现备份。受该技术的启发,小组认为可以用一套设备容灾现网的四套服务器。
  小组成员统计了现网服务器的性能:小组成员通过网管工具查看并统计了现有服务器一个星期的运行性能指标。发现现网服务器的平均CPU占用率为39.3%,平均内存占用率为35.9%,不仅可完全胜任现有的网络规模且仍有冗余。   实验一:小组成员对部分新建工程期站点进行了跨服务器容灾倒换测试。测试步骤:将其中一套网管服务器(IP:172.23.0.2)现网的测试工程期站点断连,然后将备份数据导出,拷贝到另外一套网管服务器(IP:172.23.0.34),连接网元,网元恢复监控。实验二:由于GSM网络在网用户逐渐减少,全省在逐步进行GSM基站和BSC退服工作。原全省有4套GSM网管服务器,今年年初退服了1套。小组成员发现该服务器与LTE最新的服务器配置完全一样。这套服务器可以利旧用于华为LTE网管服务器的容灾。小组成员用了一根跨机房的飞线将该GSM服务器连接到LTE服务器的交换机,然后进行了容灾倒换测试。测试步骤:小组成员选了4个网管服务器上的新建工程期的网元在容灾服务器上建立了断连网元。然而在测试中发现网元无法在容灾网管服务器(IP:172.23.0.130)上建立连接。为什么原先新建工程期站点测试可以,现在测试范围扩大后大部分站点就不行了呢?围绕着这个问题,小组进行了多次头脑风暴。通过网管收集数据并进行了统计分析。查看基站的路由发现,由于原先规划的问题,去往M2000的子网过小,基站数据无法到达容灾网管服务器。所以需修改华为LTE基站网管路由的掩码。经统计表可以看出杭州这一套网管就有6500多个基站需要修改且对应的IPRAN链路的IP掩码也需要修改。即杭州就需要修改数据13000多次,全省则更多,工程量非常巨大。无论是逐个手工修改还是制作批量执行脚本都风险很大。为此小组成员又进行了多次头脑风暴,根据ATAE服务器特殊性找到了另外一个方法:由于ATAE网管服务器是刀片式服务器。其中OSMU板卡是整个服务器的管理板卡,登录该板卡可以对U2000板卡的IP进行修改。当现网某套华为ATAE服务器整机发生故障时,将容灾服务器的U2000板卡IP修改成故障服务器的相应IP,然后在容灾服务器上建立网元连接,即可恢复故障服务器。
  实验验证:小组成员在后半夜利用拔出网线的方式模拟LTE服务器整机故障,然后在容灾服务器上进行相应的修改IP和连接网元等工作。经测试容灾时长在30分钟以内。结果及评估:小组从成本、安全、倒换时长、建设时长等方面进行评估,发现均满足要求。最终确定第三种方案“基于一对多热备的LTE网管服务器容灾方法”为最优实施方案。
  二、容灾系统建立
  (一)实施一:容灾服务器与现网服务器使用网线连通
  ①制作三条网线;②容灾服务器与交换机连接两条网线,一条网线备用。小组成员将三条网线放于机房间的走线架上,按规定绑扎好。容灾服务器与LTE网管服务器端交换机采用双网线连接。为防止形成广播风暴,在3层交换机上配置了VRRP。小组成员特地多放了一条网线,当出现网线故障时可以快速替换,因此网络又多了一层保护。③联网测试:完成后,小组成员使用PING以及内网测速工具LAN Speed Test测试了网络的性能。网速到达100Mbps。综上所述,网线数量到达2主1备,满足链路≥2条的要求,满足网速≥100Mbps。
  (二)对策实施二:建立断连网元备份
  ①在容灾服务器建立4套服务器的断连网元:小组成员从现网四套网管服务器上导出网元备份,导入容灾服务器建立网元并设置为断连状态。②定期网元备份:由于目前不是网络建设的高峰期,小组统计了最近6个月的新增华为LTE站点数。经统计每月平均新建站点约为14个,新增站点数占现网站点数的0.22%左右。③当月新增网元超过60个时启动紧急网元备份:小组成员研究决定,当某个月新增站点数超过60个时,临时增加一次网元备份,以确保网元备份率≥99%。
  (三)对策实施三:服务器板卡开启标准制定
  ①容灾服务器软件版本与现网服务器保持一致:确保每次网管版本升级和打补丁时同步对容灾服务器进行操作。②制定板卡开启标准流程。③定期网元备份时检查板卡健康性以及统计板卡开启时长。小组成员制定了网元备份规范,严格规定每次网元备份时统计板卡开启时间并对每块板卡进行健康性检查。④联网测试:小组成员进行了多次板卡开启测试:板卡开启时长≤8分钟。
  (四)对策实施四:人工倒换标准制定
  ①制定启动人工倒换的故障程度标准:小组成员经过头脑风暴决定当满足:现网网管断连;所有机房均无法ping通该服务器;容灾服务器能连上时启动人工倒换。②制定华为LTE网管服务器人工倒换应急容灾流程:小组成员经过研究对原来的矢线图进行优化,作为人工倒换应急容灾流程。我们用红色重点标出了关键路线,在实施中必须严格控制关键路线各个阶段的时长。③联网测试:经过测试人工倒换的时长可以控制在30分钟以内。
  (五)实验验证
  小组成员在后半夜利用拔出网线的方式模拟LTE服务器整机故障,然后在容灾服务器上进行相应的修改IP和连接网元等工作。小组成员对全省4套LTE服务器均实施了该方案。实施后小组成员在之后3个月内利用其他割接时段进行了多次测试。均实现了将华为LTE网管服务器应急容灾时长降低至30分钟以内的目标,该新方法稳定可靠、切实可行。
  三、结论
  实施该方案后,LTE网管服务器可在30分钟内实现整机容灾,并实现了节能减排的要求。项目完成后,为各措施形成标准化流程。本次项目利旧一套空闲服务器,该套服务器的原价约为200万元,折旧后的价值约为75.5万元。
  同时本次活动也提高了华为LTE网管服务器安全性,可减少备件数量。减少备件价值30萬元。同时本次活动减少设备运行功率5090瓦。按一元一度电计算,活动期间3个月节省电费支出月1万元。本次全部活动利用现有设备和场地,没有产生活动费用。通过计算本次QC活动期间给浙江省联通带来的经济效益约为106.5万元。
转载注明来源:https://www.xzbu.com/2/view-14863659.htm