云计算对运维的影响
来源:用户上传
作者:
摘 要:随着互联网用户的不断增加和计算机科学与技术的快速发展,在系统的运行维护方面,越来越多的互联网企业期望实现更高的运营效率,改进传统的运维技术,云计算技术为解决这一问题带来了新的机遇。云计算技术在日益互联的世界中,提供了更高的灵活性和可扩展性。它的主机和存储设备使用虚拟化技术,并通过平台、软件和服务等方法进行共享,这使得快速部署IT环境成为可能。通过更加合理地配置资源以及按需支付模式,提高了资源利用效率,极大地降低了企业的运营和维护成本。
关键词:云计算;运维;效率
近年来,随着云计算技术的飞速发展,它成为计算机领域最热门的术语之一。在运营方式上,云计算不仅对中小企业有影响,对大型互联网企业也有影响。中小型互联网公司的互联网项目需要网络设备、服务器设备、机房设备、CDN和线路设备、在线运维人员、IDC机房运维人员等。在项目开始时,这些复杂的机器设备和公关项目过程消耗了大量的人力、物力和财力,造成了项目成本增加、开发维护困难等一系列问题。对于大型互联网公司来说,在长期的流动和扩张的影响下,其运营和维护组织将变得越来越臃肿。随着互联网企业使用云计算服务,则前线的运营和维护将在整个过程中转移到云服务提供商进行相同的管理,从而可以大大减少项目初期的投资。当然,大多数公司可能不使用公共云,而是开发自己的私有云,但它们本质上是类似的,即整合和集中一线运营维护,为各项目组人员提供云服务,充分利用资源。因此,如若越来越多的互联网公司进军云计算运维技术,那么对传统的运维将会造成极大影响。
1 当前运营维护中存在的问题
传统的运维效率较低,并且会给运维工程师带来很大的压力,主要表现在:
(1)服务器恢复时间长
为了避免基于传统硬件维护过程的硬件故障风险,不仅需要更高的硬件更新成本,而且由于软件升级等原因,还会给系统的稳定性和可靠性带来风险。应用程序服务器在关闭时无法在最短的时间内恢复。
(2)系统维护工作量大
随着服务器数量的增加,它给运维工作带来了很大的困难,同时给IT工程师增加了管理工作量和难度。
(3)系统无法灵活配置
现有应用程序无法在当前状态下在服务器上灵活配置,无法在最短的时间内完成部署新应用程序。业务系统分布在不同的服务器上,如果服务器硬件或软件出现故障,将导致单点故障,从而导致应用程序
中断。
(4)能源消耗持续增长
随着应用数量的增长,服务器硬件相应增加,使能耗持续增加。它需要扩大网络机房的供电和空调,这将带来能源浪费。
2 云计算的优势及对运维的影响
2.1 云计算的优势
首先,云计算解决了项目开发初期的平台环境和基础设施建设问题,部署利用了计算机的集约效应。因此,可以充分发挥计算机的性能,使项目开发人员不再需要花费大量精力来维护和集成硬件。通过硬件虚拟技术,可以在同一主机上构建多个硬件虚拟设备。此外,云计算允许不同版本的操作系统共存,同时支持不同操作系统的主机映像。它解決了传统应用程序随操作系统升级而被动升级的问题,为应用程序的维护提供了便利[1]。
在硬件设备、中间件平台和应用程序独立部署的时代,云计算技术的出现和应用类似于社会专业的划分。软件系统与人类社会早期的建筑公司相似:从购买机械设备开始,雇佣技术工人来完成一个建设项目,进而到建筑后期的装修和维护。但是,其有着巨大的缺陷,无论是该项目的需求量是减少还是增加,人员和设备都会是公司面临的极大问题:当需求增加时,资源不足;当需求减少时,需要实时维护冗余的资源和设备。云计算的出现可以更好地解决这个问题。云计算提供了开箱即用服务的各种层次和不同方面,如:在SaaS层,它可以为单个用户或中小企业提供标准化软件服务;在IaaS层,它提供定制或标准化的硬件配置和操作系统;在PaaS层,它提供平台级软件需求之一,如开发和部署环境和中间件平台。
在云服务技术的发展进程中,由于分工更加细致,这自然会较大地增加企业管理成本。然而,这种更为详细的分工又带来了节省成本和服务租赁市场适应性的优势。在云计算领域,由于存储资源与主机虚拟能力的差异,以及中间服务软件等虚拟资源的重复,云计算服务提供商的利润空间更加灵活。为了进一步降低服务价格,吸引更多的服务用户,这是各方积极参与云计算时代的重要因素。
总的来说,云计算拥有以下优点:(1)硬件的可重复利用率增加了10倍;(2)运行系统可以整体实时迁移,使IT环境能够继续正常运行,这意味着即使在维护期间也不会出现中断;(3)它可以加快应用程序的开发和部署周期;(4)它可让新环境和系统同存;(5)它增强了系统的恢复能力,极大地减少了服务器的恢复时间;(6)它具有良好的可扩展性,可满足未来硬件和软件的需求。
2.2 云计算对运维的影响
使用云计算技术可以极大地提高服务器的整合效率,大大简化服务器组管理的复杂性,并提高整个系统的可用性。它还可以显著降低投资成本,并具有良好的技术领先地位和成本效益。
云计算在企业用户实践中面临着操作和维护的挑战。运营和维护工程师认为在使用云计算技术之前,一切都在控制之下。他们可以告诉我们系统A在X行和Y列的Z主机上运行。该设备已被纳入备份管理。在不久的将来,设备将正常工作,只有B区主机才能安全进入。使用云计算技术后,运行维护工程师很难知道A运行在哪个主机系统上,因为他们都使用设备的虚拟化管理,A系统可能在不同的主机上运行不同的时间。
云计算引入后,运行维护的重点将不仅是原有管理设备的正常运行和网络的畅通,还将是资源的主动供给、自动配置、可持续性和可跟踪的实时配置管理[2]。其对传统的IT运维流程将产生以下影响:
(1)需要添加虚拟资源作为新的监控对象 除了原始的物理资源和应用程序外,操作和维护监视工作还考虑了虚拟化环境中的各种虚拟资源,包括新的监视对象、事件和虚拟资源的事件分类。
(2)维护过程中解决虚拟资源事件的方法不同
虚拟资源支持资源的自助应用、容量扩展、恢复和迁移,因此可以在事件发生时实现快速部署。它们还可以在应用程序繁忙时根据需要动态增加计算资源,并在应用程序空闲时释放它们。他们还可以为资源池中的计算资源实现动态资源迁移。
(3)运维的检查要求是不同的
与传统资源环境不同,必须检查云计算平台是否存在安全风险、不合规,性能或容量是否符合上线前的情况要求。只有通过这些检查才能在线,这样可以避免出现一些事故风险,并减少事件的发生。
(4)支持團队的运营和维护要求不同
根据部署在云计算平台的应用程序,维护活动可能与不同的部门和角色有关,传统的IT支持团队无法在单一功能类型中完成。此外,云计算的高可用性还极大地减少了IT支持团队在流程中的参与和努力。
3 云计算运维的标准化与自动化
3.1 云计算运维的标准化
现如今,云计算的工业实现已经不难了。但是对于云计算工程方面,云计算运维却是较为困难。管理100台、1万台或者100万台机器,其难度是全然不同的。机器少可以用人工管理,但是机器多时是不可能全靠人工的。所以,云计算运维的一个关键因素之一就是标准化。只有制定了一个统一的标准,运维环境、操作和服务扩容等有了完善的标准化流程,才能保障业务的顺利开展。
3.1.1 运维环境的标准化
首先,需要有操作人员的权限控制。开发人员、测试人员、运维人员需要有不同的权限。例如,开发、测试人员只可拥有只读的权限,而运维人员能够有可读可写可执行的权限。
其次,需要统一规范程序的目录。要么将其全部部署在/opt下面,要么将其部署在/home下面,当出现故障时,以防出现找不到目录的情况。
然后,需要规范服务配置。让配置统一起来,以方便后面的排错。例如,参数之前写好注释,相同配置采用拷贝的方式等。
最后,机器的启动关闭方式要统一。由于程序与程序之间的启动方式不太相同,这会给运维人员造成很多的困扰。
3.1.2 运维操作的标准化
首先,需要采用工单管理的方式。需要先将操作单发出来,经过严格的审批,才能够执行。工单上必须写清详细的步骤和操作命令,模糊的工单会让人有多种理解方式,很容易造成误解。
其次,需要按单操作。运维人员在看到工单以后,如果发现工单有错误,需要和发单人员核实以后,重新审批才能操作。操作时根据情况,采用双人或者多人的方式,一人操作,一人观察,出现问题及时打断,提高操作的准确性。
最后,必须要回滚备份。我们很难保证操作完成以后,一定不出问题,因此,随时都要做好备份,方便回滚。
3.1.3 服务扩容标准化
在业务中,我们经常会遇到服务扩容的情况。在云计算环境下,服务扩容也是有一定标准的。需要对服务的计算模型进行评估,得出计算、存储、网络的最佳的比例,将其做成Set模型。在服务扩容的时候,严格按照Set模型,一个Set一个Set添加,这样能够保证服务的最优配比,规范运维环境,提高资源利用率。
3.2 云计算运维的自动化
在云计算环境中,人工操作太多,总有可能出现故障。提高服务的自动化程度,能够大大减少运维故障。比如在添加计算节点的时候,我们尽量采取自动化添加,避免了手动操作的随意性。同时,采用自动化操作,即便出错,所有的错误也会一致,相比手动操作,更加容易排错。
4 结语
随着技术的不断发展,云计算与运维的关系将会越来越紧密。相对于传统运维而言,云计算平台服务端的复杂性和创新性,对于运维是个全新的挑战,运维思路和方式都会发生改变,这种改变不是简单的在传统运维上的优化,而是基于云计算特征孕育而生的运维重构。运维方式的转型,将会为互联网公司带来新的机遇。
参考文献:
[1]杨刚,随玉磊.面向云计算平台自适应资源监测方法[J].计算机工程与应用,2009,(29).
[2]曹吉庆,张树海.IT运维在虚拟化环境下的流程改进和设计[C].国际云计算与大数据分析会议,2016.
转载注明来源:https://www.xzbu.com/2/view-15112446.htm