您好, 访客   登录/注册

大数据架构的安全分析技术研究与实践

来源:用户上传      作者:卢伟

  摘   要:当前随着信息化技术的不断发展,计算机技术已经被广泛应用到人们的生产生活中的方方面面。其中,计算机技术带来便利的同时,也带来了安全隐患。为此,在信息数据膨胀化的当下,如何进行有效数据挖掘已经成为了人们关注的焦点。只有建立科学准确高效的信息网络数据挖掘架构,才能充分保障网络信息安全。本文首先进行了以SPARK为基础的网络系统整体安全方案設计,其次分别介绍了分布式网络构件及数据存储架构设计,继而进行了安全实践,以便为相关网络企业提供科学合理的参考依据。
  关键词:大数据挖掘  架构  安全实践
  1  安全方案整体设计
  这里对本文所设计的安全系统进行整体设计分析,总体来说,可以分为如下五个方面,即采集数据层面、历史数据储存层面、分析数据层面、安全分析实践层面、结果展示层面。整体方案首先通过系统服务设备进行采集分布式代理对log进行收集,继而将收集到的log日志进行历史数据平台的传输,在此过程中,形成HDFS文件系统、KFA消息队列;之后,SPA收集服务器传送的SPA分布式计算应用,由该集群通过HDFS/KFA进行数据挖掘工作,最后进行结果反馈,并进行数据存储。
  主要步骤可分为如下五个,对于数据采集而言,Flu形式的分布式网络采集进行各层服务器log的收集,其中不同的系统种类,需要进行FLu采集代理设置,对各不同系统进行安全数据的收集。数据收集完成后,以数据量规模的不同为基础,进行Flu节点汇聚,由该节点进行数据编辑如HDFS/KFA中,以此完成数据收集工作。对于原始数据的储存而言,其往往表现为数据量繁多,但是可利用性较低。为此,本文所设计方案主要采取批处理形式、流计算等方式对HDFS/KFA进行数据记录。其中,对于HDFS而言,其主要表现为物理节点的分布式数据存储,表现为抽象化的文件系统。在Flum进行数据HDFS记录时,HDFS物理节点预先设置一定的空间;对于KFA而言,其预先为数据进行空间准备,Flu节点直接传输记录数据到KFA。对于数据分析而言,考虑到数据更新速度较快,这里选取批处理、流计算模式进行数据分析,首先进行分析规则的读取,按照上述模式进行HDFS/KFA数据读取,继而进行数据安全分析,以此实现规则匹配、数据关联,这有助于进行规模化数据的安全挖掘工作,对危险因素进行判断分析,最终将分析结果进行永久保存。
  2  分布式网络构件及数据存储架构设计
  上述主要介绍了整体方案设计的关键点,这里进行分布式网络构件、数据存储架构的设计工作。对于分布式采集网络的设计,就要尽可能减少客户端的承担任务,同时还要确保采集网络的准确可靠稳定。基于此,本文在客户端采集网络设计主要采取sys脚本,以便高效的进行数据收集任务,其中采集网络层次主要采取二级分布式网络,并且进行不同层次之间的关联,最终达到采集数据的高吞吐。
  2.1 数据源
  对于数据源而言,主要以简化需求为主要基础来进行采集任务。通常来说,采集数据可以进行分类,即web网络日志访问、操作系统日志、web扫描数据、设备运行状态。其中,对于web、系统日志,可以通过sys完成数据存储,其次采取tcp模式进行flu的处理。设备运行状态等数据,可以借助于系统脚本程序,进行特征文件的匹配,进而获取内存空间、端口信息,之后通过netcat模式进行flu的收集工作。
  2.2 Flu网络
  对于采集层次而言,其主要进行对各系统的安全数据采集工作;汇聚层次则主要对收集到的数据进行汇集,并且将数据分配金各个不同的组件当中,如HDFS、KFA序列。本文所涉及的分布式采集网络主要采取Flu代理,以此实现对系统的日志收集,代理模式具有诸多优势,如其可以以数据规模、资源应用情况为基础,继而有效选择虚拟机、物理节点进行空间分配。代理模式的业务系统端口可以分成以下四种数据,即web网络日志、系统操作日志、扫描日志、设备运行,其可以充分发挥拦截器的作用,对数据进行采集标记,继而进行AS模式机型数据序列化处理,传输到汇聚节点,在此过程中,主要依靠数据关联来实现采集、汇聚层次的数据对接工作。值得重视的是,针对信息数据规模量大的日志数据,这里主要采取布置SG,并且对数据传送方向进行控制,以便最终达到两个层次之间的数据高吞吐。
  2.3 数据存储架构
  对于数据存储架构设计而言,主要采取HDFS分布系统、KFA序列来进行构建,这里需要重点以控制吞吐量和数据动态实时性为主要目标。HFDS文件系统的构建,则要考虑节点架构和数据动态实时同步,以便能够保证信息管理的真实性,同样可实现数据的备份;KFA序列则主要通过控制协调机制对关键节点进行热切换,保障数据的可靠性。
  3  安全分析实践
  3.1 计算架构部署
  在规划数据分析实现时,本方案根据不同的吞吐量和分析实时性的分析需求,在安全应用开发上做了Spark批处理分析与SparkStreaming流计算两种编程模型实现。分析程序批量或实时读取各类日志数据,根据行为特征或统计特征检测攻击行为,并进行数据的关联分析,可快速有效的从大量日志数据中检测出针对Web应用系统或操作系统攻击行为并追溯。为保证计算架构的高可靠,采用Spark-Standalone的HA Master的方式实现,各Master节点上的Curater进程实时监控Master的运行状态,并与Zookeeper集群进行通信,将状态信息存储在Zookeeper的ZNode上。
  3.2 安全分析应用运行架构
  在考虑Spark安全分析应用运行架构部署时,本方案采用了应用与计算平台相分离的思路进行部署,在Spark分析集群外,专门设立应用管理服务器,负责管理代码维护、配置维护等应用管理的工作。当分析执行时,应用服务器在本机启动Spark-Driver程序,并将并行分析的task任务提交到计算集群的Master节点。Master节点再将task派发到各Worker节点的Executors下具体执行。Spark安全分析应用主要包括3个部分:基于web访问日志的web攻击检测;基于操作系统日志的系统攻击检测;基于特征的webshell检测与溯源。Web攻击检测和系统攻击检测主要是通过批量或实时读取相关日志,识别日志中是否存在网络攻击的行为特征或统计特征。基于特征的webshell检测与溯源,主要通过采集端前置的分析脚本扫描web应用的文件上传目录,还原攻击者的攻击行为。
  4  结语
  总而言之,本文所设计安全方案以SPK、HDFS、KFA为主要基础,构建Flu采集网络模式进行数据的记录分析,并且该设计方案能够依据不同的实际需求进行SPK模式的批处理、流模式,实现高吞吐与安全数据挖掘。该方案能高效稳定地进行大规模数据情况下的有效数据挖掘,对于当前的信息化时代而言,具有十分重大的创新意义,不仅能大大简化技术人员的运维成本,而且对于促进新兴业务的开发提供了良好的基础,继而保障信息安全,最终能够促进整个信息产业的健康发展。
  参考文献
  [1] 吕欣,韩晓露.大数据安全和隐私保护技术架构研究[J].信息安全研究, 2016,2(3):244-250.
  [2] 刘鸿霞,李建清,张锐卿.立体动态的大数据安全防护体系架构研究[J]. 信息网络安全,2016(9):18-25.
  [3] 姚欣.网络空间安全大数据实时计算平台关键技术研究[D].天津理工大学, 2016.
转载注明来源:https://www.xzbu.com/1/view-15189865.htm