您好, 访客   登录/注册

基于SVM的Fast-flux僵尸网络检测技术研究

来源:用户上传      作者: 康乐 李东 余翔湛

  摘要: 近些年出现的采用Fast-flux技术的僵尸网络,给网络安全带来了极大的威胁。因此,有效检测Fast-flux僵尸网络就成为网络安全研究者关注的热点问题。目前的检测方法都存在误报率较高的问题。针对这个不足,通过对Fast-flux僵尸网络数据进行分析,选取Fast-flux僵尸网络的六个典型特征,提出了基于SVM的Fast-flux僵尸网络的检测方法。实验表明,基于SVM的Fast-flux僵尸网络检测方法明显地降低误报率。
  关键词:
  中图分类号: TP393 文献标识码:A 文章编号:2095-2163(2011)01-0024-04
  
  0引言
  僵尸网络能够实行DDOS、垃圾邮件、窃取个人信息、网络仿冒等攻击行为,对网络安全产生了极大的危害。因此,越来越多的研究者开始研究僵尸网络。研究表明,为了提高网络的健壮性和存活率,僵尸网络普遍采用Fast-flux技术[1]。
  Fast-flux技术是为一个域名配置多个IP地址,并且这些IP地址以非常快的频率更换,从而实现域名到IP地址的动态映射。通过动态变换IP地址,每次用户访问某个域名时,实际上访问的并不是同一主机。利用此特征,僵尸网络控制者可以将其控制的肉鸡中服务能力比较强、具有公有IP的肉鸡作为代理,其他一些服务能力比较弱的主机通过与这些代理通信,代理将通信重定向到后面真正的控制者,完成控制者与肉鸡的通信过程。僵尸网络控制者通过频繁的更换域名到代理IP的映射,从代理网络中剔除不可用的以及服务能力较弱的代理,提高网络的健壮性和可用性。
  1相关工作
  1.1传统僵尸网络检测方法
  Hyunsang Choi,Hanwoo Lee等人提出基于僵尸网络DNS查询群体性特征的检测方法[2-3]。该方法通过对校园网DNS数据分析发现:在僵尸网络活跃时,受控主机将同时发出DNS查询这一群体性特征。但是,这种方法不能区分迅雷、BT等下载站点,因为当客户端同时下载一个资源时,也具有相同的行为。
  Shouhuai Xu、Ravi Sandhu等人提出一种基于主机DNS访问与网页访问关系的僵尸网络检测方法[4]。这种方法需要获取大量主机页面访问的数据以及DNS访问数据,并且需要将两种数据组合。数据量巨大,在大规模的网络中实现困难。
  Kazuya Takemori等人提出基于信息熵理论的僵尸网络检测方法。该方法通过分析一段时间的校园网DNS数据发现:当僵尸网络活跃时,某些域名的熵发生了剧烈变化[5-6]。但是Kazuya Takemori等人的方法在某些网站访问量剧增的时候会出现误报。如:2008年北京奥运会开幕式当天,奥运会官网的访问量变化非常剧烈。
  1.2Fast-flux僵尸网络检测方法
  Jose Nazario等人对Fast-flux僵尸网络进行长期观察,提出了Fast-flux僵尸网络的九个基本特征,并详细分析了Fast-flux僵尸网络的地域分布、生存时间、网络大小等基本特征[7]。Thorsten Holz利用已经发现的Fast-flux僵尸网络的特征,采用线性划分的方法将Fast-flux服务和RRDNS(轮转域名系统)、CDN(内容分发网络)相区分,获得了很好的效果[1]。
  Chenfeng Vincent Zhou等人提出了一种分布式入侵检测系统对采用Fast-flux 技术的钓鱼网站的检测方法[8]。但是该方法需要各地的IDS都得和其他IDS交换数据来检测Fast-flux域名,并不能在前端检测。
  Alper Caglayan等人采用主动和被动方式实现FFSN的实时监测[9-10],但是其所采用的数据都是在非常小的时间段内获取的,如果某个网站将其服务迁移到不同的机器,将出现误报。
  Emanuele Passerini等利用FFSN(Fast-flux服务网络)的九个特征,采用朴素贝叶斯算法,对FFSN进行检测[11]。
  Yang Wang利用僵尸网络IP数和AS(自治系统)数两个特征,采用SVM对FFSN服务进行检测[12],取得了很好的效果。但因其只采用了90个正常域名,39个Fast-flux域名的数据集,而数据集太小,则无法代表网络中的真实环境。
  Jiayan Wu等人对现有的线性划分、KNN(K最近邻)和朴素贝叶斯的FFSN检测方法进行了对比[13]。
  本文通过对哈尔滨工业大学两台DNS服务器的长期数据进行分析,选取了Fast-flux僵尸网络的六个典型特征,采用线性核函数的SVM方法对Fast-flux僵尸网络进行检测,取得了比较好的效果。
  2特征选取及SVM算法选取
  2.1Fast-flux特征选取
  本文中,用来区分Fast-flux僵尸网络域名和正常域名选取的特征如表1所示,特征主要分为三大类。第一类是域名的特征,第二类是网络特征,第三类是代理的分布特征。
  (1)TTL特征
  Fast-flux僵尸网络为了提高健壮性,会频繁地变换IP地址。为了做到这一点,僵尸网络控制者会将DNS缓存的时间设置的比较小,以便当控制者改变IP地址时,被控机器能及时地连上控制主机,因此,Fast-flux僵尸网络域名的TTL都会比较小。对于一些采用CDN,或者RRDNS技术的大型网站,其缓存时间TTL也会比较小,但是,还可以采用剩下的五个特征来区分。
  图1为2011-03-18到2011-03-21哈尔滨工业大学202.118.224.101上捕获的375 885个A类查询的权威回答域名的TTL分布。由图1可知,对于A类应答,TTL小于等于600S的域名为23.98%, TTL小于300S的占9.63%。Fast-flux技术的基本特征就是会频繁地更换IP地址,一般的TTL都小于600S,因此若只对TTL小于600S的域名进行分析,可以大大减少数据量和工作量。
  (2)单个域名A记录IP个数特征
  Fast-flux僵尸网络每隔一段时间都会更新一下其代理机器,因此,在一段时间内,Fast-flux僵尸网络域名查询得到的IP地址会持续的增加,累计得到的IP数也会非常大。
  而对于正常的域名,提供服务的机器是固定的。因此,得到的IP地址一段时间之后会稳定不变,并且IP地址的个数比较小。图2和图3分别显示了僵尸网络域名和正常域名IP地址的增长情况。
  (3)IP所属自治域特征
  表2显示的四个典型Fast-flux僵尸网络域名与正常域名得到IP所属自治域的对比。由表2可知,Fast-flux僵尸网络域名获取的IP所属的自治域都比较多,分布在几十甚至上百个不同的自治域中;而对于正常的域名来说,IP地址一般都分布在一个自治域中。
  (4)IP所属国家特征
  表2显示的是四个典型的Fast-flux僵尸网络和四个访问量比较大的域名所属国家的对比。由表2可知,采用Fast-flux技术的僵尸网络来说,受感染主机的分布影响,用来做代理的主机将分布在不同的国家,而正常的FFSN服务或者正常的域名的IP一般都在一个国家中或少数几个国家中。这一特征对区分Fast-flux僵尸网络和正常的Fast-flux服务非常有用。一般正常的Fast-flux服务的IP地址都属于一个国家,而Fast-flux僵尸网络的IP地址则分布在不同的国家。

  (5)其他特征
  如Emanuele Passerini[11]文中阐述的原因,还采用了域名注册时间、所属组织机构这些特征,作为区分Fast-flux僵尸网络的特征。
  2.2SVM算法选取
  SVM是基于结构风险最小化理论,在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且整个样本空间的期望风险以某个概率满足一定上界。支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来。
  通常分为两类情况来讨论:(1)线性可分;(2)线性不可分。
  对于本文选取的六个特征,对应于Fast-flux僵尸网络域名和正常域名的划分,这是一个线性可分的问题。对应于线性可分问题,采用SVM,会存在一个超平面使得训练样本完全分开。该超平面可描述为:
  g(x)=wtx+w0 (1)
  其中,w是权向量,w0是阈值权或者偏置。对于g(x)>0,则该样本在决策面的上方;反之,则在决策面的下方。
  最优超平面是使得每一类数与超平面距离最近的向量与超平面之间的距离最大的平面,即要求使公式(2)最小化的w。
  3实验验证
  本文中所采用的数据来自于tcpdump捕获的哈尔滨工业大学两台DNS服务器从2011-03-18T12-41-00到2011-04-01T08-23-00的所有DNS查询应答数据120G和采用DIG跟踪的一些Fast-flux僵尸网络的DIG数据。
  本文将2011-01-09到2011-03-18的DNS数据和2011-01-09到2011-03-18的55个Fast-flux僵尸网络域名[14]的DIG数据作为训练集。将2011-03-18到2011-04-01的DNS数据以及2011-03-18活跃的8个Fast-flux僵尸网络域名的DIG数据作为测试集。
  因为数据量巨大,每天都有超过1 000万条查询,所以,对数据进行预处理,只考虑一段时间内累计IP数大于4或者IP 对应的自治域或国家数大于2的域名。因为对于域名IP数比较小,并且都在同一国家和自治域的域名,不可能是采用Fast-flux技术的域名。
  对训练集进行预处理之后,剩余9 945个域名,通过人工验证的方法,对其进行标记。55个Fast-flux域名DIG跟踪得到32个仍然活跃的Fast-flux僵尸网络域名。将以上数据作为训练集。
  对测试集进行预处理之后,剩余19 753个域名,并加入8个Fast-flux僵尸网络域名8天的DIG数据作为测试集。通过交叉验证的方法,获取最优参数,即c=8.0,g=0.5。采用Thorsten Holz的线性划分方法与本文的算法来对比,如表3所示。
  由表3可知,采用Thorsten Holz线性划分的方法产生了233个误报,比SVM多231个。但是这种方法没有漏报的域名,而采用SVM算法产生了两个漏报的域名。
  两种方法误报的一些域名如表4所示。由表可知,一些正常的域名,域名映射的IP数量非常大,并散布得非常广,具有Fast-flux的特征。想要对其进一步区分,要采用域名的注册时间这一特征。一般而言,Fast-flux僵尸网络的域名都是新注册的,而正常域名的注册时间都比较早。如正常域名europe.pool.ntp.org是在1997-01-18注册的,而Fast-flux僵尸网络域名sdlls.ru的注册时间为2011-05-11。但是也有例外,如表5中的Fast-flux僵尸网络域名send-safe.com,在2001年就已经注册了,不过这个域名在2011-05-04进行了更新。
  表5显示的是采用SVM的方法漏报的两个域名。通过进一步研究发现,send-safe.com漏报是因为这个僵尸网络不够活跃,处于消亡期。在对其的跟踪过程中,该域名一共有16个IP地址,这16个IP地址分布在4个国家和7个自治系统中,和很多正常的域名具有相同的特征。而对于sdlls.ru这个域名,产生漏报的主要原因是训练样本中,两种类别的数据不平衡,Fast-flux的数据比较少,对Fast-flux特征训练不够,出现了过拟合的现象。
  4结束语
  本文通过对Fast-flux僵尸网络长期分析研究,选取了Fast-flux僵尸网络的六个典型特征,采用SVM的方法对Fast-flux僵尸网络进行检测,获得了较小的误报率和较高的准确率。但是,由于Fast-flux僵尸网络域名的样本比较小,为了进一步降低漏报率,下一步的工作将是采集更大的Fast-flux僵尸网络域名的数据集,提高分类器的能力。
  
  参考文献:
  [1] HOLZ T,GORECKI C,RIECK K,et al. Measuring and Detect- ing Fast-Flux Service Networks[C]// Network & Distributed Sy- stem Security Symposium,2008.
  [2] CHOI H,LEE Hanwoo,LEE Heejo, et al. Botnet Detection by Monitoring Group Activities in DNS Traffic[C]// Proceedings ofIEEE Int’l Conf. Computer and Information Technology, 2007: 715-720.
  [3] CHOI H,LEE H,KIM H. BotGAD: detecting botnets by cap- turing group activities in network traffic[C]// The Fourth Inter- national ICST Conference on Communication System software a- nd middleware. ACM, 2009:1-8.
  [4] XU Shouhuai. Analyzing DNS Activities of Bot Processes[C]//4th International Conference on Malicious and Unwanted Soft- ware, 2009: 98-103.
  [5] TAKEMORI K. Detection of NS Resource Record Based DNSQuery Request Packet Traffic and SSH Dictionary Attack Ac- tivity[C]// Intelligent Networks and Intelligent Systems, 2009:2- 46-249.
  [6] ROMAA D A L,KUBOTA S. DNS Based Spam Bots Detection in a University[C]// Intelligent Networks and Intelligent System- s,2008: 205-208.

  [7] NAZARIO J, HOLZ T. As the Net Churns: Fast-Flux BotnetObservations[C]// 3rd International Malicious and Unwanted Soft- ware, 2008: 24-31.
  [8] ZHOU Chenfeng,KARUNASEKERA C,PENG S T. A Self-He- alinng, Self-Protecting Collaborative Intrusion Detection Arch- itecture to Trace-Back Fast-Flux Phishing Domains[C]// IEEENOMS Workshops, 2008: 321-327.
  [9] CAGLAYAN A,TOOTHAKER M,DRAPEAU D, et al. Real- time detection of fast flux service networks[C]// Conference For Homeland Security, Cybersecurity Applications and Technology, 2009: 285-292.
  [10] CAGLAYAN A,TOOTHAKER M,DRAPEAU D, et al. Beha-vioral Patterns of Fast Flux Service Networks[C]// Cyber Secu-rity and Information Intelligence Track. Hawaii International C-onference on System Sciences, 2010:1-9.
  [11] PASSERINI E,PALEARI R,MARTIGNONI L, et al. Fluxor: detecting and monitoring fast-flux service networks[C]// 5th C-onference on Detection of Intrusions and Malware & Vulnera-bility Assessment. Springer, 2008: 5137/2008:186-206.
  [12] YANG Wang. Fast-flux服务网络检测方法研究[D]. CNKI, 2-009.
  [13] WU Jiayan,ZHANG Liwei,QU Sheng, et al. A comparative study for fast-flux service networks detection[C]// Networked Computing and Advanced Information Management. Sixth Inte-rnational Conference, 2010:346-350.
  [14] Abuse.ch. http://www.abuse.ch/ .


转载注明来源:https://www.xzbu.com/8/view-45606.htm