基于云计算的大数据智能运维系统设计
来源:用户上传
作者:
摘要:智能化运维系统对大数据以及云计算技术进行了有效的结合,使IT运维服务的运维效率得到了提升,新兴的大数据智能运维系统能够从整体上实现对网络的实时监控以及对大数据的分析。本文以大数据技术为中心,在大数据的背景下,从设计和应用方面对智能运维系统进行了相关研究。
关键词:云计算;大数据;智能运维系统;设计
中图分类号:TP311. 文献标识码:A 文章编号:1007-9416(2020)10-0000-00
1大数据智能运维系统的技术原理
相比以往的运维系统来说,大数据和智能技术在运维系统中的应用,使其具备了大规模数据搜索、快速处理以及大量业务开展等能力,有着极为关键的作用,新兴的大数据运维系统,能够使运维系统由传统的自动化实现向智能化发展转变,对其的应用是为了在减少运维资金的同时,提升客户所获得的服务质量和服务体验。由于其有效的应用了智能混合技术,因此,其能够实现对各类工作的动态化管理、对内存的合理计算分配以及对全方位的调度等,也就是说其能够通过对资源的最大化利用,以此來使预算能够得到最大化的节省。
大数据运维系统中,通过对大数据技术的基础应用,使各项运维工作得到了全面的基本指标,以此来实现对各服务器数据运行的实时动态监测,并且,其对运行日志的统一收集,能够通过对各种非关系类型数据库的借助,实现对各项数据的多样化保存。以此为基础,在Hadoop数据集群中,统一输入各项所收集到的数据,能够实现大数据技术对此类收集数据的全方位离线分析,并且能够实现对相应曲线图的生成,此外,通过其与预先设定指标数据的对比,在关联监控报警系统后,能够实现对目标数据中心性能,以及可用性的实时监测,并且,还需要对其发展趋势进行分析。根据以往数据以及算法,能够使预算模型获得相应的应用基础,此外,需要根据运行状况和问题,对未来的服务器发展进行合理的预测,运维人员根据所获得的数据信息,能够更好的对系统以及硬件资源,进行提前迁移和调整[1]。
2信息系统运维在现阶段面临的问题
2.1监控防护缺乏主动性
根据总结以往对问题的监控有着以下流程:首先在问题发生时,需要做好问题位置的查找工作,并且需要告知运维人员,运维人员在接收到通知后,需要做好对问题的解决。换句话说,一旦系统发出了警报,就意味着发生了问题,需要做好事后的控制工作,以及对其的管理。以此来方式进行监控,对运维人员有着较高的素质要求。主要是由于问题无法得到预防,如果在问题发生时无法在第一时间得到解决,就会造成十分严重的影响。
2.2传统运维方式与大数据环境无法适应
指数增长是数据在大环境下的特征之一,对以往运维方式的采用,会导致海量数据无法得到利用,导致运维工作无法得到有效的开展。并且,以往运维阶段所采用的方式方法,管理人员以及业务人员,没有对运维数据进行全方位的分析,以至于运维人员无法通过运维工作,对大量数据进行有效针对的运维[2]。
3大数据智能运维系统功能设计分析
3.1智能警告
大数据技术以及智能技术在运行系统中的应用,能够使其具有智能警告的功能,也就是说,以监控对象为基础,根据其历史数据以及日后的发展趋势,采用统计学的应用原理,通过大数据技术对其功能的分析,能够根据最终的性能数据,实现对被监控对象平稳性的判断。并且,还能够根据业务形态以及时间范围,实现对被监控对象差异性,以及具体表现的判断。最终根据动态阈值,能够在不同的时间点内,实现对业务的实时监测,通过对动态阈值的借助,能够使性能监测机制得到强有力的建设,对以往的警告检测进行了极大的突破,在动态性、实时监督等方面具有一定的优势,通过此类转变,能够使无法较高的出现得到尽可能的减少,以此来使用户对系统异常性能的感知,能够更加准确。
3.2分析预测智能化
所谓的分析预测智能化,就是在服务器内部通过对SMATR信息、syslog信息等不同类型信息的基础应用,同时需要做好监督工作,以及对各种示例的实习等,在场景特征中,通过对LR的借助或对GBDT模型的引入,能够合理的对服务器内部频繁使用部件可能出现故障的概率和时间进行预测,并且能够通过对相应措施的采取,实现对故障出现的预防,从整体上使IT架构具备了更强的可用性。此外,针对产品和定制来说,通过智能技术对标准容量的预测以及对方式的开发,能够实现对动态阈值、阈值趋势以及瓶颈点的获取、分析以及预测,需要以IT系统对容量的预测为基础。此外,以定制开发方式对流量的智能预测,能够为数据中心以及多冗余链路,提供一种全新的预测技术,以此来实现对网络流量的针对性预测,能够作为决策依据,为流量数据的调度工作提供支持[3]。
3.3根因定位智能化
从本质上来说,这一功能能够实现对系统故障源的定位,专家知识库是其基础功能,用于复杂场景下对IT故障源的定位。同时,所获取到的故障源,能够作为基础,实现对故障影响范围的计算,以及对故障的自动化处理等。
3.4智能能耗管理
在进行智能化管理的过程中,需要做好对服务器数据运行能耗的全面采集,以集群和业务为基础,做好对服务器历史功耗数据以及对采集数据的对比分析,同时,需要根据业务机制,对云平台进行业务的调度,通过对用powercapping、powersaving等技术的使用,使系统功耗能够从整体上得到优化,实现对系统基础运行的稳定保障,使其功耗能够得到尽可能的减少。
4大数据智能运维系统
从整体上来说,采集器、数据存储、大数据分析以及数据展示,是大数据智能运维系统
的四大主要模块,其有着不同的逻辑。这四个模块能够展示不同阶段所采集到的数据。采集器模块能够使分布式采集有效的实现对目标的达成,数据资源能够作为基础,实现对采集工作效率的提升,例如主机、虚拟机等数据能够起到技术支撑作用。采集器模块将所有节点在内部的同一位置进行了集中,只是采集任务的执行方式有所不同,如果某个采集节点在其中的运行出现了停止,控制中心就需要及时对其进行监测和确认,然后需要由其他采集器负责采集本模块的数据节点,以此来负责数据的采集,能够具有连续性以及完整性。 綜上所述:相比以往的运维系统来说,大数据和智能技术在运维系统中的应用,使其具备了大规模数据搜索、快速处理以及大量业务开展等能力,有着极为关键的作用,从整体架构的角度来说,信息系统在云系统以及分布式系统中得到了不断的完善,受到此类情况的影响,运维系统需要通过主动服务,实现对运维效率的提升,并以此为基础,使客户能够获得更强的感知能力,是目前最为重要的问题。
参考文献
[1] 曹建军.基于大数据的云计算中心智能运维系统的研究[J].计算机产品与流通,2019(7):150.
[2] 林刚.基于大数据云计算的铁路智能运维系统技术研究[J].铁道通信信号,2019,55(5):37-41.
[3]罗砚.基于大数据的信息系统运维智能化研究[J].邮电设计技术,2018(3):79-82.
收稿日期:2020-08-24
作者简介:李宁(1980—),女,山西晋中人,本科,工程师,研究方向:计算机技术应用和系统运维。
Design of big Data Intelligent Operation and Maintenance System Based on Cloud Computing
LI Ning,JIANG Ning-ning
(Unit 91001, Beijing 100841)
Abstract: The intelligent operation and maintenance system effectively combines big data and cloud computing technology, which improves the operation and maintenance efficiency of it operation and maintenance services. The emerging big data intelligent operation and maintenance system can realize the real-time monitoring of the network and the analysis of big data as a whole. This paper takes big data technology as the center, and studies the intelligent operation and maintenance system from the aspects of design and application under the background of big data.
Keywords: cloud computing; big data; intelligent operation and maintenance system; design
转载注明来源:https://www.xzbu.com/8/view-15364571.htm