您好, 访客   登录/注册

高速网络入侵检测中流量数据约简研究

来源:用户上传      作者:

  摘 要: 高速网络数据庞大且高维度,网络入侵检测系统要面对流量数据约简的问题。如何有效地实现流量数据约简是网络入侵检测系统需要研究的一个重要问题。文中首先介绍网络入侵检测中流量数据抽样和特征降维基础;然后从网络流量数据抽样和网络流量特征降维两个方面总结了网络流量数据约简研究进展;最后阐述了网络入侵检测中流量数据约简研究的未来发展趋势和面临的挑战。文中所研究的流量数据约简为进一步探索网络流量测量和网络空间安全提供参考和借鉴。
  关键词: 网络入侵检测; 流量数据约简; 流量数据抽样; 流量特征降维; 网络安全; 发展趋势
  Abstract: The high?speed network data is huge and high?dimensional, so the traffic data reduction is of great concern to the network intrusion detection system. How to effectively implement the traffic data reduction is an important issue that needs to be studied for the network intrusion detection system. The traffic data sampling and feature dimension reduction basis in network intrusion detection are introduced. The research progress of network traffic data reduction is summarized in two aspects: network traffic data sampling and network traffic feature dimension reduction. The development trend of traffic data reduction research in the network intrusion detection and the challenges to it are described. The network intrusion detection researched in this paper  provides some references for further exploring network traffic measurement and network space security.
  Keywords: network intrusion detection; traffic data reduction; traffic data sampling; traffic feature dimension reduction; network security; development trend
  0  引  言
  随着通信技术的不断发展,网络已渗透到各个社会领域,互联网上的攻击手段更加隐蔽、更加智能。在高速网络环境中,网络入侵检测过程需要获取、处理和传输海量的网络流量数据,如何实现在线实时地异常入侵检测是网络安全监控领域的一个热点和难点。
  网络安全领域的分类问题由于数据量极其庞大且高维度,导致入侵检测的分类器过于复杂,因此不少入侵模式并不能被准确检测到,且网络入侵检测效率较低,无法满足高速网络环境下大规模异常入侵检测的实时性要求[1]。为解决上述问题,需要对网络数据流量进行实例抽样约简优化和特征降维约简优化,从海量数据集中抽象出最相关的信息,降低复杂度以获取更好的知识抽象[2]。减少攻击检测的存储和计算压力和提高攻击检测的检测效率和精度。网络流量数据约简方法的好坏直接影响入侵检测的结果[3]。如何有效地实现网络流量数据约简,以提高网络入侵检测系统的性能已成为许多研究的焦点。
  1  网络入侵检测中流量数据约简
  网络入侵检测通常包括四个步骤:数据抽样、特征构造、模型构建和异常检测[4]。数据约简就是在尽可能保持原始数据完整性的前提下,最大限度地精简数据量,去除冗余数据,保留有价值数据,缩小数据挖掘所需的数据集规模[5]。网络入侵检测中的流量数据约简的常用方法包括流量数据抽样和流量特征降维,分别通过网络流量数据集中数据量的减少或维度的减少,来达到降低数据规模的目的。
  1.1  网络流量数据抽样
  网络流量数据抽样是统计学方法在网络流量测量领域的应用。无论是主动测量还是被动测量, 随着流量速率的增加, 分析全部的网络流量分组已经变得越来越困难,一种可行的解决办法就是使用网络流量抽样技术。网络流量抽样是数据量缩减和保留原始数据细节的折衷。选择合适的网络流量抽样方法可以减少工作量,并能在一定程度上反应网络的全局特征[6]。高速网络入侵检测中,按照合理的抽样规则,通过从整体网络流量中抽取部分有代表性的网络流量数据, 然后将抽取到的结果进行科学合理的分析,推断原始网络流量数据的特征,以此来估计整个网络的特性,掌握整个网络的行为特征,进而发现网络攻击[7]。因此,网络入侵检测中的流量数据抽样是一种有效且值得研究的技术。
  1.2  网络流量特征降维
  特征是指一个对象的某方面性质或特性,一个对象是由若干个特征来描述的。高速网络中网络流量数据可由成百上千个特征来刻画,其中某些特征可能是不重要的,或不相关的, 或已经包含在其他特征中, 甚至包含了错误的相互关系[8]。因此,需要对网络流量数据进行特征降维约简优化。网络流量特征降维旨在减少网络流量数据集的维度随机变量的数量,有两种众所周知的方法,即网络流量特征选择和网络流量特征提取。特征选择通常是选出重要的特征的维度,并抛弃不重要的维度;而特征提取则是更广泛意义上地把一个高维的向量映射为一个低维向量,得到的结果特征值已经不一定是原始的值。特征选择保留了训练样本的原始物理意义,但是当数据间相似的依赖性很强时,检测冗余信息对计算要求非常高;特征提取将原始高维特征空间映射到新的低维特征空间,可以有效地去除冗余和不相关特征[9?10]。   2  网络流量数据抽样方法研究
  高速网络与大数据环境下,网络数据流需要在入侵检测之前通过抽样方法缩减数据量,以提高异常检测处理效率。当前,网络入侵检测中网络流量数据抽样方法可分为以下3类:
  1) 基于触发机制的网络流量数据抽样方法;
  2) 基于样本随机性的网络流量数据抽样方法;
  3) 基于抽样级别的网络流量数据抽样方法[3]。
  实际网络入侵检测应用中,这些方法之间的区别并非绝对,可相互结合。
  2.1  基于样本随机性的网络流量数据抽样
  在基于样本随机性的网络流量抽样方法中,網络流量数据样本之间相互独立,且具有同等被选中的概率,是一种完全按照均等概率方式进行的数据抽样调查。根据样本随机性的不同, 网络流量数据抽样方法可分为系统抽样、随机抽样、分层抽样和整群抽样[6],如图1所示。
  系统抽样适用于样本总体中个体较多的情况;随机抽样适用于样本总体中个体较少的情况;分层抽样适用于样本总体由差异明显的若干部分组成的情况;整群抽样适用于群和群之间差异较小或同质的情况。
  2.2  基于触发机制的网络流量数据抽样
  网络流量的抽样行为是被动触发的,触发事件决定抽样频率和抽样间距。 根据触发机制的不同, 网络流量数据抽样方法可分为计数驱动抽样、时间驱动抽样和内容驱动抽样[3],如图2所示。
  计数驱动抽样适合具有随机到达特性的网络流量;时间驱动抽样适合随机到达特性的网络流量;内容驱动抽样可只抽取特定数据包并分析研究。
  2.3  基于抽样级别的网络流量数据抽样
  根据数据抽样单位级别的不同,网络流量数据抽样方法可分为字节级别抽样、数据包级别抽样和流级别抽样[3],如图3所示。
  其中流级别抽样技术能有效体现不同数据包之间的关联性。根据数据流大小不同,分为两类:大流抽样技术,如智能抽样方法、抽样保持方法等;小流抽样技术,如选择性抽样方法、优化神经网络方法、异常流自适应抽样算法等[11]。
  3  网络流量特征降维方法研究
  网络流量特征降维包括特征选择和特征提取。本节分别总结网络流量特征提取和网络流量特征选择的研究进展。
  3.1  网络流量特征提取研究
  特征提取是通过功能映射从原始特征集中提取一组新特征[12]。这种方法的最大好处是通过转换得到期望最小的新功能集[13]。高速网络入侵检测中流量特征提取技术研究进展,如图4所示。
  网络流量特征提取方法可分为基于有监督学习特征提取方法和基于非监督学习特征提取方法。常用的有监督学习特征提取方法包括监督字典学习、神经网络、多层感知机、线性判别分析,以及近年来非常受关注的度量学习(Metric Learning)等;常用的非监督学习特征提取方法包括非监督字典学习、局部线性嵌入、等度量映射、主成分分析、独立成分分析、深度学习和各种聚类算法等。
  3.2  网络流量特征选择研究
  特征选择也被称作特征子集选择,指从所有的特征子集中选择其中一个子集,从而使构造出的模型能产生更好的结果。面向网络流量的特征选择主要包括4个基本环节: 生成流量特征子集、评估流量特征子集、终止条件判断和验证流量特征子集。高速网络入侵检测中流量特征选择技术研究进展,如图5所示。
  根据评价策略,网络流量特征选择方法可分为过滤法(Filter)、封装法(Wrapper)和嵌入法(Embedded)[14]。过滤法应用于单变量特征选择可使用互信息法、卡方检验、信息增益、Fish?Score、皮尔森相关系数等,以及应用于多变量特征选择可使用Relief/Relief F和相关特征选择等;封装法包括遗传算法、穷举法、随机法、墨鱼算法和粒子群优化算法、贝叶斯网络等;嵌入法包括正则化法、随机森林和决策树等。三者的区别在于是否使用后续学习算法来评价特征子集。过滤法与后续的学习算法无关, 封装法需要利用后续的学习算法进行特征评估, 而嵌入法则将特征选择融入到后续学习算法中。
  过滤法和封装法比较如图6所示。
  4  网络流量数据约简趋势与挑战
  4.1  网络流量数据约简存在问题
  当前高速网络入侵检测中数据约简技术已有相关研究,并取得了一定的研究成果,但仍然存在许多尚需要解决和完善的问题:网络流量数据约简后信息丢失的问题;评价待选特征与降维目标的相关度问题;网络流量多样性、网络流量数据的不平衡问题、复合攻击的普及问题;网络加密流量特征提取问题;移动网络在线高实时性问题。这些都制约了高速网络入侵检测中数据约简技术的进一步发展。
  4.2  网络流量数据约简研究方向
  基于现阶段高速网络环境下入侵检测中数据约简技术的研究现状,网络流量数据约简所面临的挑战和未来研究方向主要概括为如下几个方面:
  1) 基于混合模型的网络流量数据约简方法研究。包括混合模型的特征降维方法和混合模型的数据抽样方法,实现更高效的网络流量数据约简结果。
  2) 基于深度学习的网络流量特征降维方法研究。目前,使用深度学习法对高维网络流量数据进行降维时计算时长、开销大,亟待解决。
  3) 高速网络入侵检测中在线实时流量数据约简研究。入侵检测通常建立在大量的实时流量之上,还需寻找在线时效性的数据约简方法。
  4) 加密流量的数据抽样和特征提取技术研究。加密流量持续增长,需重点研究,还需构建可用于网络加密流量入侵检测的公开标记数据集[15]。
  5) 适用于各种网络入侵检测场景的普适性网络流量数据约简方法的研究,以及针对数据约简结果的普适性评价标准研究。   5  结  语
  网络流量数据约简在网络入侵检测中应用非常广泛且重要。本文对高速网络环境下网络入侵检测中流量数据约简的基本概念、研究进展和发展趋势进行论述、总结和展望。面对新问题研究新方法,进一步探索高速网络入侵检测中流量数据约简的理论和技术,对于网络流量测量和网络空间安全的研究和发展具有重要意义。
  参考文献
  [1] 姜滨.基于特征选择的网络入侵检测模型[J].现代电子技术,2019,42(1):87?90.
  [2] 胡志刚,李佳,郑美光.云环境下面向负载均衡的数据密集型工作流的数据约简策略[J].计算机应用研究,2019,36(8): 2410?2414.
  [3] 陈良臣,刘宝旭,高曙.网络攻击检测中网络流量数据抽样技术研究[J].信息网络安全,2019,19(8):22?28.
  [4] WANG W, HE Y Z, LIU J Q, et al. Constructing important features from massive network traffic for lightweight intrusion detection [J]. IET information security, 2015, 9(6): 374?379.
  [5] 杜嘉薇.网络安全态势感知:提取、理解和预测[M].北京:机械工业出版社,2019.
  [6] 张忠琳.网络质量探测应用的研究[D].北京:北京邮电大学,2015.
  [7] SU Liya, YAO Yepeng. Hierarchical clustering based network traffic data reduction for improving suspicious flow detection [C]// 12th IEEE International Conference on Big Data Science and Engineering. New York: IEEE, 2018: 1?3.
  [8] 郭春.基于数据挖掘的网络入侵检测关键技术研究[D].北京:北京邮电大学,2014.
  [9] 曹杰.基于SVM的网络流量特征降维与分类方法研究[D].长春:吉林大学,2017.
  [10] YAO Yepeng, SU Liya, LU Zhigang. DeepGFL: deep feature learning via graph for attack detection on flow?based network traffic [C]// MILCOM 2018?Military Communications Conference. Los Angeles: IEEE, 2018: 579?584.
  [11] 董书琴,张斌.一种面向流量异常检测的概率流抽样方法[J].电子与信息学报,2019,41(6):1450?1457.
  [12] 刘珍.互联网流量分类中流量特征研究[J].计算机应用研究,2017(1):8?14.
  [13] DONGHWOON Kwon, HYUNJOO Kim, JINOH Kim, et al. A survey of deep learning?based network anomaly detection [J]. Cluster comput, 2019, 22(1): 949?961.
  [14] ANUSHA K, SATHIYAMOORTHY E. Comparative study for feature selection algorithms in intrusion detection system [J]. Automatic control and computer sciences, 2016, 50(1): 1?9.
  [15] 陈良臣,高曙,刘宝旭,等.网络加密流量识别研究进展及发展趋势[J].信息网络安全,2019,19(3):12?25.
转载注明来源:https://www.xzbu.com/8/view-15291137.htm