您好, 访客   登录/注册

重要时期的信息系统维护工作

来源:用户上传      作者:

  【摘要】信息系统是核心业务的支撑平台,信息系统的保障工作非常繁杂。与日常维护相比,重要时期的信息系统维护在可靠性和应急响应方面提出更严格的要求,重保期维护工作是基于明确的保障边界,执行新的维护标准,在可控的资源内,保障业务系统稳定、安全运行的过程。
  【关键字】信息系统 重要保障 维护
  一.引言
  运维保障工作是组织的一项重要的工作,而重保期的运维工作的重要程度更是不言而喻的。如何做好重要保障期运维工作,应该首先明确业务目标、信息系统以及运维工作三者的关系,掌握重保期间运维工作的特点,明晰所掌控资源,做好重保期间的运维规划,明确重保期间IT系统运维工作要点等,继而建设一套符合业务系统要求及组织架构的运维管理体系。
  二.业务与信息系统以及信息系统运维的关系
  现如今,信息网络系统现已成为各业务的支撑系统,信息网络系统保障是确保核心业务系统稳定、安全、高效运行,业务系统的通用要求,例如:服务能力、服务效率、完整性、可用性、可靠性、符合性、安全性等,以及业务系统特有的技术要求或指标,共同构成了对系统运维保障工作的要求,落实到信息系统运维的具体环节中,使这些要求转换成对信息系统的技术要求和服务能力要求,成为运维工作执行标准。重保活动的目标,是充分发挥现有资产和组织的最大效能,在特定时间内,比较平时大幅度提升运维组织和资产的抗威胁和承载业务冲击的能力,保障重大活动按计划和标准运行。
  三.重要时期保障的特点及标准确定
  广播电视行业的重要保障期是指国务院广播电视行政部门指定的安全播出重要保障阶段。重点时段是指包括重要保障期和非重要保障期在内的由国务院广播电视行政部门指定的重大活动的现场直播,每日要求全国转播的中央电视台和中央人民广播电台重要节目时段。
  重要保障期对事故定义标准比非重要保障期要严苛很多,因此,重保期的业务系统在可用性、稳定性和可靠性方面更严格要求,有更高的标准,重要保障期对支撑核心业务的信息网络系统的故障容忍度大大降低。所以需要相应的调整保障工作所需要遵循的标准和规划。
  确定重保时期运维工作的标准和规则,应掌握以下基本方法:
  1.明确IT资源。IT资源是运维保障工作的基础,包括运维保障的对象,即承载核心业务的信息网络系统,也包括运维保障工作所需的必要资源,包括但不限于:数据、应用系统、技术、工具、场所以及人员等。运维保障是根据IT资源,按照服务保障的边界,对运维保障工作进行规划,落实相关的标准。这些服务资源是运维保障的基础条件,同时也是运维服务的制约条件之一。
  2.确定信息网络系统的服务能力。信息网络系统的设计指标决定了信息网络系统的服务能力,如果信息系统要求超出系统设计指标,运维工作是无法满足此要求的,需要通过技术改造或新建予以实现。也可以从第三方临时获得满足,同时需要考虑外部风险引入应对和控制措施。
  3.重保时期运维保障标准提升是需要成本,而且提升是有限度的,所以重保活动是临时性的、非常规的。超常规的高标准运维,成本也会增加,用日常运维的资源响应非一般的标准要求,不可持续。因此在重保时期开始和结束的时间都会有转换工作,调整标准和服务框架,调整IT服务资源。
  4.重保时期的运维保证前的规划和落实非常重要。规划和落实两个阶段决定了重保时期的运维保障品质。在重保期间问题响应是块试金石,应急响应的可执行度、有效性及完整性可以反映重保运维规划工作是否完善,IT服务资源服务响应过程能反映出获取和落实过程是否到位。问题响应也可反映应急演练是否到位,如果没有多次应急演练,会造成纸上谈兵,问题响应时会手忙脚乱,欲速则不达,一旦操作失误,又会引发连锁反应,扩大问题影响范围。
  四.运维重保障的主要階段
  重保时期的运维保证工作的主要阶段有:
  1.规划
  是重保时期运维保障工作的前期阶段,IT运维部门需要按照业务部门对IT系统在重保时期的技术规格要求,为重保时期的运维保障工作定义一系列需要遵循的框架及原则,这些框架和原则将作用于具体的、可实施的运维保障工作。运维保障工作中所要考虑的要素包括:服务项目、基础设施、内部和外部的风险、资质的需求、具有专业技能的人员和特殊的工具(含软件)的需求与供给,以及各项制度、应急响应及处理原则、组织间信息交互的方式、流程等。
  2.资源获取与确认阶段
  落实IT服务资源是重保时期运维保障工作的前期阶段,该阶段主要是消除IT 服务资源的实际状态与书面记载信息之间的差异,让IT服务资源与重保期间的目标状态一致。日常运维主要工作是建设以获取IT资源,重保时期的运维保障,除信息网络系统为满足某项业务需求,需要对系统功能、能力、性能方面等进行技术改造,并将建设后的结果纳入IT服务资源外,IT资源建设是非例行工作,在重保前大量的IT资源确认是工作重点。在确认中发现的不足,并对计划进行修正或者重新获取符合要求的资源。
  3.服务与支持阶段
  是进入重保时期的实际运维保障工作执行阶段。在这个阶段各项IT服务资源均已按照计划配置到位。通过前期的确认,运维保障组织依据框架开展各项运维保障工作,进行服务和支持工作。重保时期一般性运维保障工作与日常运维保障工作没有区别,而重保时期的应急响应的执行标准明显高于日常运维应急响应标准。
  4.监控阶段
  对重保运维工作进行有效监控和评估与服务与支持阶段并行,对项目检查的细致程度和频度反映了监控工作的执行力度,重保期间检查项目细致程度和检查频度会大大多于日常运维。   5.完成总结阶段
  从重保时期的运维保障工作恢复到日常运维保障工作,释放为重保而临时获取的IT服务资源,调整运维保证工作框架和原则,对重保时期的运维保证工作进行总结性评估,用于下次同类型工作的改进。
  五.重保IT系统运维工作要点
  1.落实组织,明确责任分工
  (1)明确每个岗位的工作目标,形成清晰的责任边界。
  (2)岗位责任人形成书面承诺,督促履职。
  (3)建立详细的工作计划和工作例会制度。
  (4)清晰描述任务活动,落实控制措施,建立授权过程。
  (5)合理安排值班,明确安全职责,签署保密协议。
  (6)成立检查小组,对第三方提供的服务进行检查,对报告和记录进行定期监控和审核。
  2.确认信息一致
  要对运维服务框架中所涉及的各种对象的信息与实际状态进行符合性确认,从而保证运维服务框架是可执行的。这些信息包括但不限于以下内容:
  (1)业务活动计划
  业务活动计划是评估压力,安排资源,建立监控窗口的依据。
  (2)资产的清单
  资产清单包括资产属性和控制权柄。资产清单中应包括临时调配或处于待机状态的资产。承担保障组织具有以下资产管理的职责:清楚识别所有资产;随时调动和处置资产;掌握并保护控制权限;设备的口令保护,检查口令质量,关键口令的更新;远程针对和配置端口保护等等。
  (3)服务合约和库存
  为完成信息网络系统的保障工作,业务部门每年都会采购诸多服务,如硬件维保服务,备品备件服务,应急响应服务等,这些服务通过合约形成了不断消耗的服务库存。在重保前,需要对服务库存状态进行确认和清理,耗尽或失效的服务需要重新采购,无法获取的服务需要在服务框架中给出替代方案。
  (4)风险再识别
  基于重保目标和相关环境,对风险进行再评估,发现应识别而未识别的风险,做好应对预案。
  3.平衡计划与实际冲突
  在实际工作中,外部风险的不确定性会造成IT服务资源需求与实际供给,计划执行标准与现实情况,工作预期与实际效果之间产生差距。受资源的限制,妥善处理这种差距就需要划定边界实施重点保障,以重大活动优先的原则来解决重保与日常维保资源冲突的问题。重保时期的运维标准提升了,很多时候需要调整资产边界,确定IT服务资源响应关键的业务目标,减小非关键业务的突发情况对重保工作的影响。依据重保原则,特殊环境特别对待,清理不必要的负载,包括:清理在线设备,清理账户,清理端口,隔离业务,为关键业务预留出足够的容量储备。
  4.落实应急演练能力
  应急预案不等于应急能力,因为应急情况是小概率事件,所以处置方法不为运维人员熟悉,存在执行盲点和操作风险,因此要通过演练把预案文字落实为人员实际处置应急情况的能力。
  应急方案应包含如下情况:电力终端、设备故障、资产被调走、恶意代码、人员缺勤。
  通过对应急方案进行演练,检验资源的可用性,敦促运维人员熟悉应对的场景及方案细节,提高运维保障能力。
  5.确定检查的关键时间点
  检查的关键时间点主要依据以下信息:
  (1)业务活动的时间安排
  (2)对业务压力曲线峰值及时间点的预判
  (3)交接班时间
  (4)常规性检查计划点窗口
  通过对以上重要时间点检查,确认资源和服务的有效性和业务的可持续性。
  6.加强审计并落实责任
  确保审计系统和监控系统正常,主要做好以下几点:
  (1)保障审计与监控系统的正常,包括以下主要内容:保证审计到位,记录用户活动,故障日志和信息安全日志齐全,并按照规定期限进行保留以支持未来的调查和访问控制监控。
  (2)重要保障期中所有的保障活动应建立记录并存档备查,以便提供合规或违规的证据。记录处置应本着法律和合同责任的要求,记录应保持清晰,便于识别和检索,记录的标识、储存、保护、检索、保存期限和处置应满足文件控制的要求。
  (3)为防止业务压力超过系统设计的规格,设置业务压力监控。
  (4)强化各类安全监控,把外部风险从责任中区隔出来。
  (5)建議专门的检查小组,扩大动态监控范围,随机检查情况进行日报监控及分析,严格处置。
  六.结束语
  运维保障是一项管理工作,重保期间的运维保障工作的规范性、有效性能反映组织的运维管理水平。各层管理者在运维管理中的作用如下:
  (1)最高管理层是推动重保机制有效运行的重要力量
  最高管理层应首先建立、健全运行保障机构,其次需要建立信息安全工作架构,并在组织中建立推行信息安全的管理机构。做到有组织、有原则、有监督;最高管理层应颁布重保活动的战略目标、绩效目标、财务目标、合规目标;最高管理层需制定一个切合实际的在重大活动期间对信息系统的保护策略,对信息系统分类,使不同信息系统的安全措施和企业资产保护的标准与目标一致。信息系统分类使得企业能够调整匹配的资源、财力、物力对重要信息资源和系统进行重点保护,这与有限安全、重点保护的等保原则相契合。
  (2)中层管理者在重保运维工作中的作用
  在具备重保活动的策略指引和以企业信息安全管理体系框架的条件下,中层管理者的主要履职活动包括:梳理资产、掌握环境和资源;使每个岗位理解整体工作目标和自己工作目标,并审核各岗位的工作计划;建立事件响应的标准,不断验证组织对于事件响应的效率和事件识别能力;组织学习各项规章制度,按规定开展各项活动,评价活动。与各部门定期交流信息,保持与国家管理部门和公安系统的联系;监控过程,并确保审计系统的正常运行。
  重保期间信息系统运维工作的性质决定了其特殊重要性,值得运维工作的管理者和实施者不断探索、思考和系统学习,也需要通过实践来检验,形成了本组织特有的管理方式和运维流程,继而上升到理论,有效指导实际工作。B&P
  参考文献
  [1] Peter BrooksMetrics for IT Service Management(Peter Brooks著的IT服务管理指标)
转载注明来源:https://www.xzbu.com/1/view-14792791.htm