您好, 访客   登录/注册

数据挖掘技术在网络入侵检测中的应用与研究

来源:用户上传      作者:

  [摘           要]  将数据挖掘技术应用到网络入侵检测系统中,一些网络意外情况就能提前进行预防并处理,使用户的网络更加安全。对数据挖掘技术在入侵检测系统中的误用检测和异常检测进行研究。
  [关    键   词]  数据挖掘技术;误用入侵检测;异常入侵检测
  [中图分类号]  TN915.08                   [文献标志码]  A                      [文章编号]  2096-0603(2019)05-0206-02
   近年来,随着恶意网络入侵愈加严重,非法盗取网络用户的隐私信息、篡改网络数据情况时有发生,入侵检测技术受到了人们的关注和应用。入侵检测技术是一种动态的安全防护技术,它能够主动检测网络系统状态,收集用户活动的数据信息并分析研究,从而发现自系统外部的非法用户的攻击行为和违规操作。将数据挖掘中的关联规则挖掘、序列模式和分类算法应用到网络安全检测系统中,是数据挖掘技术应用的一个新增领域,可以有效快速地检测用户网络状态,保护用户的信息安全。
   一、数据挖掘技术
   数据挖掘是一种知识发现技术,人们感兴趣的数据信息都能够利用数据挖掘在入侵检测中找到,并发现一些攻击。数据挖掘技术应用到入侵监测系统主要集中在关联规则、分类和序列这三种。
   关联分析的目的是希望找到一条审计记录中不同字段之间的联系,通过挖掘数据记录中不同数据项之间的关系,探究两者之间的关联性。
   分类算法是通过收集足够的审计数据辨别一个用户或者程序是否合法,然后将这些数据指导一个分类器学习,未知的网络数据是否合法就是通过学习后的分类器预测的。例如,常用的分类算法Ripper是一种通用的规则优化分类算法,对包含大量噪声数据的数据集,它能很好地对其进行分类,从而提高计算的准确性。
   序列分析算法序可以发现各种事件在时间上的先后联系,在事务中形成时间序列模式,利用事务之间的相关对侵入的行为进行研究。序列分析和关联分析方法比较相似,但是序列分析更注重数据之间关系的前后分析,这种方法对检监测网络黑客十分有效。
   二、网络级连接记录的误用检测
   对原始数据进行预处理是实现网络级连接记录误用检测的第一步,然后分别对正常数据和入侵模式数据使用数据挖掘技术找出相应模式并进行比较,从入侵数据中找到正常数据中没有出现的模式,临时的统计特征就能通过这些没有出现的入侵模式建立,然后利用分类器建立误用入侵检测模型。
   (一)原始数据预处理
   网络原始审计数据或者应用程序数据是抓取得到的二进制文本数据,先将这些数据转换成可视化的主机型数据,再将网络连接的信息转变成主机会话记录,之后再加进数据库中。每条记录在数据预处理输出后都有固定的基本特征,对构建网络模型很重要,往往能够决定训练结果,能够给一般的网络分析提供帮助。
   (二)关联规则和序列模式
   对原始数据预处理后得到大量的网络连接主机会话记录,按照预先设定的支持度和可信度使用关联规则和序列模式进行挖掘,抽取特征频繁模式。关联规则挖掘一般采用Aprior算法,序列模式挖掘采用GSP算法。但是这两种算法在部分优先属性处理上规则不合理,对检测入侵行为没有较大意义,所以要使用拓展的关联规则进行挖掘,即在候选项集生成中增加主属性的测量,如扩展的关联规则包括属性axis和reference,可以满足用户兴趣度的要求。
   (三)挖掘纯入侵模式
   利用数据挖掘技术获得频繁模式后,通过合并、编码和比较等方法获取的入侵模式就是纯的。频繁模式合并是指在相同数量的项集的前提下将同种类型的模式并为一起,使每一对的项集都有同样的axis属性和相邻非axis属性,并且支持度和可信度的数值大小是接近的。频繁模式编码是准确完整地建造出关联规则和序列模型,然后计算和操作这些规则模型,并对其进行分析和比较。在使用编码方法时需注意模式结构的要求和属性重要级别的顺序。模式比较是要判断模式是否为“纯入侵模式”,在入侵系统进行检测过程中,正常模式有可能也会出现在攻击模式中,假如我们采取已编码的攻击模式和正常模式相互对比,若获得的绝对值比较值很大的话,就能证明此时的攻击模式是“纯入侵模式”。
   (四)構建统计特征
   在确定模式为纯入侵频繁模式后就能建构数据的统计特征。每一个记录在网络连接的过程中都会存在一些本质的特征,这些特征称为本质特征(如F0),相同属性值个数等和所占的百分比等这些特征是通过计算可以获得的,计算后就可以构建附加特征,使构建的入侵检测模型更加有效。
   (五)建立分类模型
   分类检测模型就是利用分类器在统计特征构建之后建立的,分类器的本质就是一个函数,每一个或者多个特征的检测都是由一个分类器的条件函数对应的。建立分类器有几种机器学习方法,如决策树、神经网络、支持向量机等。例如,RIPPER分类器可以利用分类算法生成的规则,很好地处理大量噪声数据,而且还能够对已知攻击的微小变化进行分类,并根据分类规则形式快速建立误用入侵检测模型,以便能够及时地处理要求。
   三、网络用户行为的异常入侵检测
   在网络对检测系统进行入侵时,数据挖掘技术可以搜集数据,并从中找到有用的数据呈献给用户。当一个用户冒充另外一个用户时,他的一些命令、数据包和连接都很正常,所以区分用户的单击事件是正常还是异常十分困难,使用数据挖掘技术可以检测到用户的行为模式。检测用户的行为模式的第一步要修改数据库中telnet会话事件的处理器,获得一条命令后再使用关联规则和序列模式构建用户模型,将构建的模型与当前用户模式进行比较,判断是否异常。    (一)用户会话命令的审计记录
   为了检测用户行为模式我们可以将主机接受的用户呈递的所有命令进行提前处理。命令参数删除用户编辑状态下输入的内容,只保留一些文件的后缀名或者异常的文件名。经过处理之后会得到的用户会话审计记录。
   (二)挖掘关联规则和序列模式
   关联规则是观察用户会话审计记录中的数据特征,在设定的最小支持度满足的情况下,挖掘出不同项间的相关属性,找出数据噪声多次发生的记录。根据用户呈递命令的审计记录,在支持度不同的情况下得到关联规则。
   序列模式就是通过序列分析查找不同数据之间的关系模式,方法是通常使用AprioriAll、AprioriSome等算法在最小支持度满足情况下,找到频繁的用户会话审计记录序列。这些算法能够观察用户会话的审计命令序列进而计算出序列的支持度,找出能够满足最小支持度的最大频繁序列,本文利用滑动窗口算法寻找最大频繁模式序列。
   假设S={s1,s2,s3......},S是用户会话命令集合,其中s1,s2,s3代表一个用户会话命令,设定滑动窗口在长度为MAXL的情况下最小支持度为MINSUBP。首先设置窗口的初始宽度值为1,在用户会话命令集合中找到支持度大于MINSUBP长度为1的序列,这就相当于找到候选频率大于MINSUBP的一项集用户会话命令。然后对滑动窗口的宽度不断进行递增(L=L+1),将窗口左边设置在用户第一个会话命令的位置处,再将窗口进行滑动与窗口右边界的最后一条会话命令重合,当窗口滑动一次就会得出一个长度为L的子序列。滑动结束后可以得到n-L+1个大小长度为L的子序列sub集合,然后分别计算这些子序列的支持度,获得满足支持度要求的最大模式序列。使用历史行为模式也可以检测到用户异常行为。如模拟一些异常会话。
   (三)模式比较
   用户当前行为模式和历史行为模式被查找出之后,需要把这两种拿来进行比较,查看用户行为模式是不是正常的。序列方法是模式比较常利用的方法,再加上相似度的概念对不同行为之间的相似程度进行描述,如果发现偏离设定的可信基准值的操作模式,说明发生了非法攻击行为。利用数据挖掘技术建立用户正常行为模式能够让检测过程简单化,降低数据匹配的难度,使检测入侵的行为不再处于被动状态,为网络的安全提供了很大保障。
   四、结语
   网络系统中数据流量是海量的,将数据挖掘技术引用入侵检测系统中,可以挖掘和获取用户活动隐含且有用的模式,或者异常的模式,从而判断网络系统是否受到了入侵,可大大降低入侵检测系统误报和漏报的行为,全面提高用户的网络环境安全。
   参考文献:
   [1]蔡艳.探讨数据挖掘技术在网络信息安全管理中的应用[J].网络安全技术与应用,2013(10).
   [2]杨锋.基于数据挖掘的入侵检测技术研究[D].哈尔滨工程大学,2006.
   [3]王文娟.数据挖掘算法及其在入侵檢系统中的应用[D].郑州大学,2007.
   [4]宋世杰.基于数据挖掘的网络型误用入侵检测系统研究[J].重庆邮电学院学报,2004(1).
  编辑 冯永霞
转载注明来源:https://www.xzbu.com/1/view-14723534.htm