企业网络态势感知平台建设思路及案例浅析
来源:用户上传
作者:杨帅
近年来,随着企业信息化建设水平的不断提高,各业务条线对于网络和业务系统的依赖越来越高,网络运维难点凸显。网络和业务系统的安全稳定运行已经成为其对外提供服务的关键环节,建设一个统一的平台,实现对网络高层次协议性能进行监控、报警、分析、预测、以及展示,达到数据包级的颗粒度分析,将有效解决目前网络管理上的一些突出问题。本文通过分析企业网络运维所面临的难点及需求,提出网络态势感知平台的建设思路及案例分析。
一、网络运维难点
(一)网络和业务架构复杂化。以某金融服务机构为例,共有77个业务系统和200余家接入单位,业务和网络应用组件的愈发复杂化,极大的提高了网络运维管理复杂度,也使得评估性能、诊断故障、安全问题定位以及回溯分析历史成为网络和运维部门的日常重要工作,给科技部门造成了人力和时间资源的极大压力。
(二)故障排查时间较长。业界原有的网络故障排查的技术手段是通过基于SNMP网管软件手段结合人工分析的网络故障诊断方式。由网络管理员通过手工抓包并结合网络设备日志进行故障定位分析,无法做到快速取证故障数据和第一时间对故障做出精确分析判断,更无法做到提前预警。故障排查效率不高也给业务连续性带来了安全隐患。
(三)网络和业务运维相对割裂。传统的运维平台主要分为网络运维管理平台和业务运维管理平台两类。由网络运维管理平台对网络设备和线路进行监控,业务运维管理平台对业务应用进行监控,它们均无法做到对整个业务应用和网络运行状态进行梳理整合分析,不能对业务系统网络数据流精确监控,也无法监控各个业务应用网络服务连接质量。
二、网络运维需求分析
(一)业务和应用状态实时监控能力。应从业务的角度来做运维保障,实现对不同业务及业务所关联的各种应用状态的全局态势感知,并将业务保障优先级机制和监控系统进行耦合,进一步加强业务保障的流程能力。
(二)线路监控和异常告警能力。专线管理应实现可视化、状态化监控,通过异常行为告警,实现对企业到所有分支机构专线情况的全局态势感知能力,及时发现异常。
(三)快速的定位故障原因能力。通过对网络数据流进行追踪回溯,结合网络拓扑中多点参数进行对比分析,自动判断问题发生在哪个设备,哪个环节。
(四)全面优化的网络性能评估能力。通过对网络通讯数据的监控,在网络流量、网络带宽、网络连接、应用程序性能、网络升级前后的性能对比等方面进行的全面评估,为运维人员在网络改造、网络新业务实施及网络容量规划等多方面提供可靠的数据依据。
三、 网络态势感知平台建设思路
传统的网络、安全检测体系基于特征库匹配,存在盲点。一是难以感知未知的威胁;二是告警太多,运维人员千头万绪,最终导致无法分析;三是由于只有日志信息的存储,安全问题难以追朔。所以,基于全流量的回朔分析,才能使安全监测无死角,是企业网络安全态势感知发展的趋势。该模式的特点就是通过底层数据包级的全流量海量存储,结合大数据分析技术,达到态势感知及回朔取证的功能需求。平台架构如图1所示。
平台通过依托真实的网络流量,来构建网络的全貌视图,充分利用网络数据包,快速发现、定义应用,梳理网络路径,建立覆盖重要链路、关键设备、核心业务的全面监控视图,运用数據统计分析技术,发现、告警、回溯和数据包分析等功能。
数据采集层:通过硬件抓包探针实现网络拓扑中关键网络设备的原始数据实时采集及存储,初步完成数据统计及分类,上传集中管理平台。
数据分析层:接收来自数据采集层的各种数据,通过将分布式采集的企业重要业务及业务所调用的各个应用的各项指标数据进行智能关联分析,完成KPI指标评估,业务多段智能分析,故障定位和实时预警。
集中展示层:将企业及其分支机构业务视图、网络视图和全局安全视图进行直观展现。
四、 案例分析
(一) 平台原理及结构
某省级金融服务机构通过对当前网络运维难点进行梳理,充分对日常网络运维需求进行分析,采用在数据中心和同城转接中心分布式部署方式建设网络态势感知平台。平台在核心路由器、核心交换机、工作区汇聚交换机、生产区汇聚交换机、dmz区交换机、外联路由器和外联交换机等位置设置镜像采集点,镜像全网数据,构建数据中心、同城转接中心网络的全貌视图,利用网络数据包,快速发现、定义应用,梳理网络路径,建立覆盖重要链路、关键设备、核心业务的全面监控视图,运用领先的数据统计分析技术,发现、告警、回溯和数据包分析等功能,极大简化了过去繁冗复杂的操作过程,精细掌握网络运行状态、更快更精准的定位业务故障根源、故障发生后进行数据还原回溯、详细的流量数量,并提供数据的正确性、变更验证的能力。部署结构如图2所示。
(二) 平台功能
1.广域网线路监控
平台对广域网线路进行整理分类,通过直观实时的网络状态(如丢包、重传以及利用率过高)监控告警展示,能精确监控问题发生的位置。后期只需要在一张视图上(如图3所示)就能清晰的了解分支机构所有专线网络态势,有效提高企业对专线管理和保障的能力。
2.局域网网络全局态势监控
网络是承载业务的基础通道,平台通过网络的视角将业务相关的状态指标叠加到局域网拓扑视图上进行监控(如图4所示),并且将多个节点的参数进行叠加对比,实现从网络的视角全局感知业务的状态。
3.业务和应用全局监控
平台对网络数据流的智能分析将该机构网络分布情况、业务和应用情况清晰地梳理出来,并直观地展示整个网络中存在的应用和应用之间的访问关系(如图5所示),同时将网络、主机、应用的性能参数叠加到每个业务的逻辑视图上面。通过对各个重点关注的指标进行自定义监控,实现各个应用对网络资源的占用态势可视化,实时监控各个网络区域应用的变化和对业务的实时状态监控评估,已经能够实现对全部重要业务系统和应用的态势精细化感知的能力,实现以业务的视角来开展运维工作,提升了对业务的保障能力。
4.业务优先级保障
利用平台业务优先级保障功能对业务按照重要性和具备功能共性的业务进行分组,对不同优先级业务执行不同的监控和响应标准,实现对重点业务重点保障。
5.异常行为态势感知
平台对行为模型进行定义,形成了完善的特征库。通过对企业网络情况的梳理,并结合行为模型特征匹配,实现对全网进行异常行为的全局态势感知、展示。图6展示了一个平台感知攻击的实例,图中中心红色节点对多个目标地址发起了攻击。通过平台及时通告并提交给相关负责人进行处理,消除相关隐患。通过将问题处理在萌芽期,保障企业网络健康稳定运行。
6.故障快速定位及回朔
通过将网络重要节点的流量都引入分析平台,当故障发生时,通过该平台将多点的参数(例如网络延迟)进行对比分析,判断问题发生在哪个设备,哪个环节。然后再通过网络、主机、应用性能指标的分析,快速判断问题发生的层面及原因,从而实现对故障的快速定位。同时,依托全流量的海量数据存储,可在事后在数据包层面,通过回朔分析验证故障。
五、结束语
本文分析了当今企业网络运维的难点与需求,引出网络态势感知平台的建设思路及架构、原理,并通过大型金融服务机构的建设实例,展示了平台的建设成效,为各行业建设网络态势感知平台提供了参考。
转载注明来源:https://www.xzbu.com/8/view-15169419.htm