基于随机森林-聚类混合方法的多分类入侵检测研究
来源:用户上传
作者:吕广旭 卢加奇 魏先燕 王小英
摘 要:针对传统入侵检测模型难以应对新攻击场景问题,为了解决有监督检测环境下攻击逃逸检测能力强、漏检误报率较高等关键问题,提出一种基于聚类方法的多分类入侵检测方法。该方法使用无监督聚类方法,结合大量入侵检测数据进行分析,利用随机森林对特征进行筛选降维,使得聚类效果更加合理准确,在新数据实验表明,该方法对于入侵检测具有较高的检测效果,显著降低误检率。
关键词:入侵检测;随机森林;聚类;网络安全
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2022)16-0165-03
Research on Multi-Classification Intrusion Detection Based on Random
Forest-Clustering Hybrid Method
LYU Guangxu, LU Jiaqi, WEI Xianyan, WANG Xiaoying
(Institute of Disaster Prevention, Sanhe 065201, China)
Abstract: Aiming at the problem that it is difficult to deal with new attack scenarios for traditional intrusion detection models, in order to solve the key problems such as strong attack evasion detection ability and high rate of missed detection and false positives in supervised detection environment, a multi-classification intrusion detection method based on clustering method is proposed. This method uses the unsupervised clustering method, combined with a large amount of intrusion detection data for analysis, and uses random forest to filter and reduce the dimension for the features, which makes the clustering effect more reasonable and accurate. Experiments on new data show that this method has high detection effect in intrusion detection and it reduces the false detection rate significantly.
Keywords: intrusion detection; random forest; clustering; network security
0 引 言
随着技术手段的不断更新,传统的防御模型已无法应对当前复杂多变的网络攻击技术,以防火墙为首的防御手段正在失去“防火墙”的作用,攻击方逃逸率不断增加,它们往往采取多种攻击方式结合的手段进行,这使得精准防御逐渐变得力不从心。
随着机器学习技术的不断兴起,防火墙防御技术、入侵检测技术[1]等有了较大进步,但仍有较大的提升空g,防御攻击能力相对较弱。网络攻击的复杂多变成为新攻击下网络安全问题不断严峻的新方向。一方面基于有监督的入侵检测方法严重依赖样本数据,样本数据分布是否合理、数据的质量成为有监督入侵检测方法应用过程中的重要一环。在数据量巨大网络环境中,数据良莠的认定成为制约有监督学习的另一关键问题,对于数据的标签处理各行业很难有统一的处理方式,导致效果未能满足要求。为此,基于无监督的入侵检测方法[2]应运而生,无监督检测方法摒弃对样本标签数据的依赖,减少人力资源的消耗,提升了检测手段的实用价值,成为解决入侵检测重点问题的关键抓手。
1 研究概述
用于入侵检测方面的无监督方法获得了大量的关注和研究,为后续研究提供大量的理论基础。2018年,杨文君等人对于K-means聚类方法在密度、距离和阈值等方面进行了分类分析,对于各类应用场景分别进行了详细阐述[3]。此外针对聚类方法容易陷入局部最优等实质性问题,邢瑞康等人使用数据密度等信息改进中心点依赖弊端,显著提高检测效果[4]。入侵检测的数据往往是高维且复杂的,应对高纬度环境下压缩降维难题对于传统聚类方法难以保证检测准确率。2020年,解滨等人结合三支决策思想对传统聚类方法进行改进,消除K值对于聚类效果的限制影响,通过二次聚类手段重新划分,此方法在多攻击行为场景下表现优异[5]。董新玉等人引入多视角余弦相似度作为衡量手段使用主成分分析对数据进行降维处理,克服有监督学习漏检率高等难题[6]。
目前入侵检测方法存在以下关键问题:
一是传统数据降维方式中涉及较多的方式为主成分分析和线性判别分析。无论是作为无监督的主成分分析方法,还是相比较主成分分析具有较优的降维效果的线性判别方法而言,都容易存在过拟合的缺点。但不论是降维还是特征选择的方式,对原始数据的压缩和特征减少会对原始数据的表示存在损耗[7]。因此还会出现损耗过大的情况导致误报率较高。
二是传统聚类方法存在局部最优、漏检率高、难以应对高维复杂攻击数据等主要问题,聚类算法将直接影响聚类效果的好坏。
nlc202211011003
针对上述问题,适应高维大数据检测,本文使用随机森林方法对于数据进行特征筛选以提供数据降维支撑,将特征筛选结果提供聚类方法实现多分类入侵检测效果。将改进算法应用于入侵检测分析中,其显著提升无监督聚类条件下多维数据的聚类效果,提升检测准确率。
2 随机森林-聚类混合方法
本文使用随机森林-聚类混合方法对于入侵检测数据进行分析,该方法包括两部分组成。
模型前半部分主要利用随机森林方法对入侵检测数据集进行特征筛选,对高维度数据进行降维,在尽可能最大化保留原始数据信息情况下,将数据维度降至最低。模型后半部分接受降维后的数据作为输入,使用基于改进的Canopy+K-means混合聚类方法对于数据集进行多分类划分研究。
2.1 随机森林筛选特征
由于网络流量数据的高维性,导致单独聚类方法对于入侵检测的分类效果不佳,模型的泛化能力较差。就需要前期对数据进行压缩降维处理,使提取的特征数据能够保留原始数据的大部分信息的前提下,对聚类效果进行一个更优的表达。本文使用随机森林方法对数据特征进行筛选。
随机森林筛选特征结构如图1所示,该方法将多个有监督学习模型通过一定的结合策略实现一个能力更加优秀的学习器。随机森林则是以决策树为单元划分多个单元模块分别进行决策,通过投票选择出最优的分类组合。基于随机森林的特征筛选过程则是利用随机森林基于决策树分析的这一核心思想,通过每个单元可以将特征在决策树上进行划分,对比特征对于每个树的贡献程度通常是以袋外数据错误率作为评价指标,对特征进行选取从而达到特征筛选的目的。随机森林因为随机选取初始特征性质以及强大收敛性,相比较于单个决策时进行分析时,更加适应高维数据的处理,很好避免过拟合现象发生。
2.2 Canopy+K-means混合聚类算法
传统的K-means聚类方法存在以下缺点:
(1)由于中心点的不确定性,导致簇内聚合质量较差,反映到入侵检测方面产生的直接后果影响就是具有较大的错误分类数,对于各攻击的划分非常不明确。
(2)另一方面由于聚类数据量较大,使用聚类方法计算迭代的次数也愈来愈大,导致分析时间延长。
由缺点进而演化出多种基于传统K-means聚类方法的改进方法,从密度和距离计算方式等方面进行改进,极大提高了K-means聚类方法的效果。本文使用Canopy+K-means混合算法作为改进方法,为克服K值选取的困扰,可先用Canopy算法对所选数据进行一个初期的聚类研究,根据Canopy算法的结论然后对K-means算法中的K值进行一个选取,这样既可以减少K值选取的极大不确定性,也可以减少开销时间。Canopy算法原理如下:
(1)将原始数据转换成列表形式作为样本数据,并设定初始阈值S1和S2且S1>S2。
(2)从列表数据中随机选取样本P,计算样本数据到所有簇中心点的距离D。
(3)如果D>S1,则形成一个新簇,将P作为新簇中心点并将P从列表中删除。
(4)如果S2
将聚类K值给定K-means聚类方法进行聚类分析,并对比不同聚类方法的实验效果,实验效果如表2所示。
实验结果表明,传统聚类方法在2018检测数据集中检测效果差距不大,其中层次聚类方法相较于K-means方法和DBSCAN检测方法,在各项指标表现较优,改进后的随机森林-聚类混合方法在入侵检测数据集表现各项指标均优于传统聚类方法,相对于传统方法中表现优越的层次聚类方法,准确率提升了19.6%,同时AMI和ARI指标均大幅度改善,表明该方法簇内和簇间的聚类划分能力强,极大改善了传统入侵检测方法的检测效果。
4 结 论
入侵检测是防御网络攻击中重要一环,为了解决传统聚类检测方法误报率较高,难以应对高维数据分析等关键难题,本文提出一种基于随机森林-聚类混合方法的多分类入侵检测方法,该方法基于CSE-CIC-IDS2018流量数据集,使用随机森林进行特征筛选和组合,然后将筛选后的特征输入聚类算法中,该聚类方法结合Canopy和K-means算法进行,可大幅度减少开销时间,使K值确定更加准确,先用Canopy算法对于数据进行粗聚类为K值大小提供参考依据,然后使用K-means聚类方法进行多聚类划分。实验结果表明,该方法能够有效处理高维数据环境下入侵检测数据,相比较于传统聚类方法,各项指标更高,检测效果更加优越。
参考文献:
[1] 张昊,张小雨,张振友,等.基于深度学习的入侵检测模型综述 [J].计算机工程与应用,2022,58(6):17-28.
[2] ZHUANG C J,ZHANG B,HU J,et al. Anomaly detection for powerconsumption patterns based on unsupervised learning [J].Proceedings of the CSEE,2016,36(2):379-387.
[3] 杨文君.入侵检测技术中k-means聚类算法综述 [J].科学技术创新,2018(36):65-66.
[4] 邢瑞康,李成海.改进的聚类算法在入侵检测系统中的应用 [J].火力与指挥控制,2019,44(2):124-128.
[5] 解滨,董新玉,梁皓伟.基于三支动态阈值K-means聚类的入侵检测算法 [J].郑州大学学报(理学版),2020,52(2):64-70.
[6] 董新玉,解滨,赵旭升,高新宝.多视角层次聚类下的无线网络入侵检测算法[J/OL].计算机科学与探索:1-14.(2021-06-16).http://kns.cnki.net/kcms/detail/11.5602.TP.20210615.1633.006.html.
[7] ⒃溃刘宝旭,赵子豪,等.基于特征组合的Powershell恶意代码检测方法 [J].信息安全学报,2021,6(1):40-53.
作者简介:吕广旭(1998―),男,汉族,山东德州人,硕士研究生在读,研究方向:网络安全、数据挖掘;卢加奇(1997―),男,汉族,江苏徐州人,硕士研究生在读,研究方向:网络安全、APT攻击;魏先燕(1996―),女,汉族,湖北襄阳人,硕士研究生在读,研究方向:语音安全、数据分析;通讯作者:王小英(1979―),女,汉族,陕西咸阳人,教授,硕士,研究方向:无线通信、WSN技术、网络安全。
nlc202211011003
转载注明来源:https://www.xzbu.com/1/view-15441642.htm