您好, 访客   登录/注册

电信运营商网络流量采集模型研究及应用

来源:用户上传      作者:

  【摘  要】为了评估网络流量情况,及时扩容拥塞电路,运营商普遍采用基于SNMP的网络流量采集方法,通过计算两次采集间隔的平均速率粗略估计电路流量。为了进一步定性分析流量突发情况,编写了实验程序,缩短采集周期,实现了秒级采集,使用不同采集周期的数据进行计算和对比分析,得到了不同采集周期下的峰值流量的比值,最后提出了更有效的运营商网络流量传统采集加触发式秒级采集的新模型,以期实现精准扩容和更加敏捷的流量调度。
  【关键词】网络流量;秒级采集;SNMP;流量突发;精准扩容;触发式
  doi:10.3969/j.issn.1006-1010.2020.03.013        中图分类号:TP393
  文献标志码:A        文章编号:1006-1010(2020)03-0067-05
  引用格式:董兴强, 李晓冰. 电信运营商网络流量采集模型研究及应用[J]. 移动通信, 2020,44(3): 67-71.
  Research and Application of Telecommunication Operator Network Traffic Collection Model
  DONG Xingqiang, LI Xiaobing
  (China Telecom Co., Ltd., Shandong Branch, Jinan 250101, China)
  [Abstract]
  In order to evaluate the network traffic and expand the congestion circuit in time, operators generally adopt SNMP-based network traffic collection methods to roughly estimate the circuit traffic by calculating the average rate of the two collection intervals. In order to further qualitatively analyze the case of bursty traffic, an experimental program is given to shorten the collection cycle to achieve second-level acquisition. Then the data with different acquisition cycles are阿 used for calculation and comparative analysis, and the ratios of peak traffic under different acquisition cycles are obtained. Finally, via combining traditional method and triggering-based second-level one, a more efficient model of traffic collection for operator networks is proposed to achieve accurate expansion and intelligent traffic scheduling.
  [Key words]network traffic; second-level collection; SNMP; bursty traffic; precise expansion; triggered-based
  0   引言
  随着国家互联网“提速降费”政策的不断推进和大力落实,用户带宽越来越大,应用级的一些网络变量的重尾分布会引起流量的突发性[1] ,例如用户下载文件或者加载视频时,大带宽高速率带来了更大的流量突发,瞬间导致电路流量拥塞,影响组播、游戏等对于网络质量要求较高的应用,导致视频花屏、游戏时延劣化。当前运营商市场竞争激烈,良好的用户感知和口碑是吸引新用户和维系存量用户的重要基础,如何有效评估电路突发流量,精准扩容减少网络投资,是所有运营商网络建设维护面临的重要课题[2] 。
  网络流量是单位时间内通过网络链路的数据包的总体,是衡量网络负荷和转发性能的基本指标[3],为了准确地掌握网络流量情况,学者们提出了很多成熟的流量采集方法,也开发了很多高效的流量采集工具[4],运营商普遍采用基于SNMP(Simple Network Management Protocol,简单网络管理协议)的流量采集方式,SNMP采集服务器周期性以轮询的方式[5]采集网络节点设备MIB(Management Information Base,管理信息库)数据[6],通过对数据的进一步处理获得设备的運行状态,比如每5分钟采集一次端口流入流出流量总数,计算获得5分钟内该端口的流入流出平均速率。因为SNMP采集操作会占用网络带宽和设备性能资源,运营商普遍将采集周期设置为5分钟,因为采用计算平均速率的方式,持续几秒或者更短时间的流量突发是无法发现的。
  在1991年Leland等人发现流量在所有时间尺度上都是突发的[7],为了评估当前网络流量采集方式获得的峰值流量与真实的网络流量之间的差异,采取了实验分析的方式,缩短程序采集周期无限趋近于真实网络流量,结合程序性能及设备内部硬件计数更新周期等因素,实现了2 s及以上周期的网络流量准确采集,并选取代表性的网络拓扑电路进行数据采集和对比分析,展现了基于不同采集周期的同一条电路同一时段的整体及峰值流量情况,以及不同网络层级的电路在不同采集周期的峰值流量比值情况。最后,根据实验结论对运营商网络流量采集模型进行了优化,提出了传统采集加触发式秒级采集的新模型。   1   研究分析
  采用实验的方式对运营商网络流量采集模型进行研究分析,整个实验过程分为三个阶段,首先编写程序,搭建运行环境,测试确定最佳的采集周期,自动采集选定电路的端口流量数据;然后选择实验拓扑和电路,完成数据采集;最后对第二阶段采集的数据进行分析计算,总结及验证实验结论。
  1.1  编写采集程序、测定采集周期
  本次实验选用了基于SNMP的流量采集方式,典型的免费工具是MRTG(Multi Router Traffic Grapher,流量负载工具软件)[8],但采集周期最短只能设置为5分钟,为了尽可能缩短采集周期,编写了专用的采集程序,使用当前流行的Python[9]编程语言及PySNMP(Python SNMP模块)框架,程序异步采集端口数据,采集时刻精确到微秒,支持灵活设定周期及采集时间段,采集的数据保存至文件。设备内部端口流量计数器接近于实时更新,采集程序单次耗时少于30 ms,理论上可以实现端口流量的秒级采集,因为程序执行时间和设备硬件计数更新时间的轻微迟滞会对秒级采集的数据产生较大偏差,经过多次验证测试,2 s及以上周期的采集数据准确性满足实验要求,本实验程序环境将网络流量采集周期设置为2 s。
  1.2  选取实验拓扑、完成数据采集
  随着运营商“光进铜退”工作的实施,当前家庭宽带用户主流接入方式是FTTH(Fiber To The Home,光纤到户)[10],用户速率大部分在50 Mbit/s~300 Mbit/s之间。本次实验由底层级到高层级(靠近用户为底层级),依次选择OLT(Optical Line Terminal,光线路终端)上联电路、汇聚交换机上联电路和MSE(Multi-Service Edge,多业务网关)上联电路三个层级的电路流量进行分析,筛选符合条件的网络拓扑结构,如图1所示,并在每个电路层级各选取一条电路,对应图1中的标识1-3,指定采集时段为网络忙时18:00-21:00,共计180分钟,网络流量采集完成后确认采集数据无异常,可用于下一步的计算分析。
  1.3  分析采集数据、总结实验结论
  实验第二阶段采集的数据是每隔2 s的端口流量计数,计算时分别选取间隔2 s、1分钟和5分钟的数据,获得对应周期时间段内的电路平均流量,并从以下三个维度进行分析,总结实验结论:
  (1)网络流量采集周期越短,数据准确性越高
  以电路-1(OLT上联电路)为例,使用折线图展示不同采集周期下的电路平均流量,如图2~图4所示,说明采集周期越短,流量散布越明显,呈现流量突发能力越好,网络流量采集数据准确性越高。
  (2)根据不同采集周期下的峰值流量比值可以合理确定电路扩容阈值
  对同一电路不同采集周期的峰值流量进行对比分析,如表1所示,对于电路-1,基于5分钟周期的网络流量采集,當电路带宽占用率达到60.6%时,基于2 s周期的网络流量采集计算出来的电路带宽占用率已经达到100%,产生拥塞的情况,影响用户业务。所以,运营商数据网管采用5分钟周期的网络流量采集模型时,电路-1、电路-2和电路-3合理的扩容预警阈值分别为60.6%、87.7%和70.4%。
  (3)不同层级的电路在不同采集周期下的峰值流量的比值存在不符合理论预期的情况
  理论上来说,底层电路(靠近用户端为底层)因为带宽小,单用户突发流量对于电路流量影响较大,同时又因为用户数量少,用户流量突发事件相对集中,所以低层级电路采用不同采集周期的数据计算出来的峰值速率差距最大,高层级电路差距最小,但是在本次实验中,对三个层级的电路在不同采集周期下的峰值流量进行对比发现,电路-3峰值速率差距是电路-2的2倍,实验结果不符合理论预期。
  为了验证实验结果的准确性,反复多次在不同时间段重复采集电路流量数据进行计算分析,每次计算的结果除了不同采集周期下的峰值流量比值稍有变化之外,电路-2的峰值流量比值仍然是三个层级电路当中最小的,受限于实验方法和样本数量,无法确定该比值是否与特定的网络拓扑或者用户行为相关,如要定论则需要进一步的研究分析。
  2   研究应用
  基于上述实验结论,尝试对运营商原有的网络流量采集模型及电路扩容预警模型进行优化,包括抽样电路推算扩容预警阈值、缩短全网流量采集周期等方式,最终提出了传统采集加触发式秒级采集的新模型,将2 s采集周期的电路流量超过95%作为新的电路扩容原则,实现了精准扩容。
  (1)抽样电路推算扩容预警阈值,效果有提升但精准度不满足需求
  通过电路抽样和缩短采集周期的方式推算电路扩容预警阈值,抽样选取各个网络层级的电路,并在短时间段内缩短采集周期,对比计算基于运营商5分钟采集周期的电路扩容预警阈值,并将该阈值应用到对应网络层级的所有电路。在实际应用中发现,效果没有达到预期,一是受限于网络拓扑和地域性用户带宽速率的差异性,导致阈值的浮动较大;二是由于用户上网习惯差异,同一电路在不同时间段,基于不同流量采集周期的电路峰值流量比值并非一成不变,使用推算得到的阈值可以粗略估计电路是否拥塞,但存在流量还未到达预警阈值可已经拥塞、已经达到预警阈值可电路没有拥塞的情况,虽然较运营商现在使用的网络流量采集及电路扩容预警模型有提升,但是精准度仍然难以满足需求。
  (2)缩短全网流量采集周期,受限于设备性能资源难以全网实施
  随后进一步探讨了将运营商网络流量采集周期由5分钟全部缩短为2 s的可行性,缩短采集周期可以有效提升网络流量采集准确性,但是高频次的采集动作会占用网络带宽及设备性能资源,省级运营商的电路数量超过几十万,单台设备端口数可达几百个,如果将当前5分钟的采集周期缩短至2 s,预计能够提升50%的网络流量采集准确率,但是采集服务器和设备性能资源占用需要提高到150倍,一方面需要扩容大量的服务器计算和存储资源,另一方面高频次的采集动作可能导致网络设备CPU利用率过高,引发业务运行风险,所以缩短网络流量采集周期的方案难以在运营商全网推广使用。   (3)传统采集加触发式秒级采集,兼顾了设备性能资源及扩容预警准确性
  综合上述尝试和分析,最终提出了传统采集加触发式秒级采集的运营商网络流量采集和电路扩容预警新模型,即缩短采集周期校准运营商电路扩容预警阈值,电路流量达到扩容预警阈值时,触发秒级采集精确判断电路是否需要扩容。具体工作实现是:在运营商原有的基于5分钟周期的日常网络流量采集基础上,定期启动2 s周期的采集,校准基于5分钟周期的电路扩容预警阈值,在日常网络流量采集过程中,电路流量接近扩容预警阈值时触发2 s周期的流量采集3分钟,并对2 s采集周期的电路流量进行计算,若电路流量超过95%,立即对该电路进行扩容预警。
  3   结束语
  本文提出的运营商网络流量采集新模型在山东电信城域网进行了部署和应用,网络流量采集准确率满足了需求,同时对原有的采集服务器及网络资源占用的增加也在可控范围之内,兼顾了采集准确性和网络资源消耗,能够满足当前运营商精准投资和电路及时扩容的需求,有利于实现更加敏捷的流量调度。后续需要考虑扩充该模型的适用场景,进一步对网络流量秒级采集的能力进行封装,应用于用户故障投诉智能预处理、重大节日监控保障等维护场景。
  参考文献:
  [1]     刘孙东. 网络突发流量行为研究[J]. 深圳信息职业技术学院院报, 2011,9(3): 1-5.
  [2]      刘翼. 高性能IP网络流量采集系统设计与实现[J]. 延安大学学报: 自然科学版, 2017,36(2): 21-23.
  [3]      薛一波,王大伟,张洛什. 网络流场:理论和方法[J]. 计算机科学与探索, 2014,8(1): 1-17.
  [4]     李振國,郑惠中. 网络流量方法研究综述[J]. 吉林大学学报: 信息科学版, 2014,32(1): 70-75.
  [5]     W Richard Stevens. TCP/IP详解—卷1:协议[M]. 范建华,胥光辉,张涛,等译. 北京: 机械工业出版社, 2011: 330-350.
  [6]     A Mark, PE Miller. 用SNMP管理互联网络(第三版)[M]. 晏明峰, 等译, 北京: 中国水利水电出版社, 2001: 46-56.
  [7]   W E Leland, D V Wilson. High Timer-Resolution Measurement and Analysis of LAN Traffic: Implications[A]//Proceedings of the IEEE INFOCOM[C]. Bal Harbour, 1991: 1360-1366.
  [8]    孙泳,史忠植. MRTG的应用与部署[J]. 计算机应用, 2004,24(3): 20-22.
  [9]    SAP. PyRFC[EB/OL]. (2019-02-20)[2019-5-31]. http://sap.github.io/PyRFC/index.html.
  [10]   刘继红,王步元. 下一代无源光网络的演进路线与研究进展[J]. 西安邮电大学学报, 2014(2): 13-20.
  作者简介
  董兴强(orcid.org/0000-0001-6705-4909):工程师,毕业于山东大学,现任职于中国电信股份有限公司山东分公司,主要从事数据网络维护工作。
  李晓冰:工程师,毕业于山东大学,现任职于中国电信股份有限公司山东分公司,主要从事数据网络维护管理工作。
转载注明来源:https://www.xzbu.com/8/view-15153104.htm