机群系统操作系统浅谈
来源:用户上传
作者: 盛蒙蒙 罗 维 葛亦斌 邱 烨
[摘要]机群技术从上个世纪90年代初提出到现在,经过十几年的发展,已经逐渐成为一种比较成熟的技术。机群体系结构具有高的性能价格比、良好的系统伸缩性、高可用性、易管理性和易使用性,因此,它已成为构建高性能计算机的最通用的途径。而机群操作系统是机群的核心。就机群系统的操作系统进行分析、讨论,使了解和认识机群系统的操作系统,为今后更好的应用机群、及时排除机群故障奠定基础。
[关键词]机群操作系统核心映像
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110076-01
一、引言
机群是一组物理上通过高速互连网连接在一起的计算机集合,通过附加的机群系统软件,互相协作,作为一个整体对外提供服务。随着机群系统规模的增大,节点数目的增多,机群系统整体的可靠性会相应降低,故障的发生不可避免。同时,随着机群应用日益普及尤其是机群上商业应用服务的迅速发展,人们对机群系统的可用性提出了更高要求。
为了提高机群系统上应用运行的可靠性和连续性,作为用户、应用开发者和系统管理员提供单一系统映像支撑的机群操作系统必须具有对机群应用提供高可用服务的功能,同时其自身也应是一个可修复的高可用系统。
二、机群系统操作的概念和组成
机群操作系统:机群操作系统建立在节点操作系统基础之上,是机群中最基本的一个系统软件集。
机群操作系统支持系统的单一系统映象、可用性、并行性、通信和负载平衡。并可以实现对机群资源的配置、管理、调度、控制和监视,同时提供使用机群所必需的环境和工具。机群操作系统是机群实现对外提供服务的途径。一个较为完备的机群操作系统应该至少具备以下的功能:系统配置、任务管理、应用管理、系统管理、系统监控、文件管理、用户编程环境和并行文件系统。
三、机群操作系统的发展趋势
随着机群规模的不断扩大,应用领域的不断拓展,一体化成为了机群操作系统的发展趋势,而构件技术成为了构造一体化机群操作系统的主要技术。
早期研制的机群操作系统一般都采用从基本的通讯到上层的服务全部由开发者自主设计和实现。机群操作系统的软件基本上是独立、分离的,各软件只实现一个或有限的几个功能,如作业管理软件、系统监控软件等。当用这些软件构造机群服务器时,会导致如下问题的出现:
(1)功能冗余,系统庞杂,效率低。(2)各软件难以实现彼此的互操作。(3)缺少一致的系统概念,各软件间有不一致情况出现。(4)缺少通用性。
目前有许多采用一体化设计的机群操作系统软件。为了实现一体化设计,构件技术被引入机群操作系统的构造中。构件化机群操作系统就是采用构件技术构造机群操作系统。系统中各功能子系统或模块被封装成不同的构件对外提供服务,构件间可以实现彼此位置透明的交互。构件化机群操作系统是一个集成的、一体化的系统。用构件化方式构造机群操作系统可以有效地减少机群操作系统软件在功能上的冗余,模块间的冲突,并实现软件间的互操作性和软件的通用性。
四、机群操作系统软件组成
从机群操作系统构造的角度,机群操作系统的软件框架分为两层,第一层是机群操作系统核心,它定义了满足用户核心需求的最小功能子集。第二层是机群操作系统用户使用环境,它是用户使用机群资源完成特定目标的途径。
(一)机群操作系统核心
机群操作系统核心为上层子系统提供稳定而健壮的构造块(building block)并以服务的方式为上层提供统一语义的不同形式的接口(如Socket、RPC和ORB等)。因此机群操作系统核心是一个基于构件构造的服务集合,为构造用户使用环境中的构件提供公共服务和基础设施。
机群操作系统核心包括:组服务、检查点服务、事件管理服务、数据公告服务、并行加载服务、侦测服务、配置服务、安全服务。
(二)机群操作系统用户使用环境
机群操作系统用户使用环境包括:控制中心、配置中心、作业管理子系统、并行编程环境、应用管理子系统、系统管理与监控子系统等。机群操作系统用户使用环境是机群操作系统同用户的交互的界面,为用户了解机群当前的状态和配置信息、提交并运行科学计算任务和商业应用软件运行任务、进行科学计算开发以及进行系统的部署和引导提供可视、智能和高可用的服务。
五、机群操作系统的高可用性
为了保证机群操作系统提供高可用服务,必须保证提供高可用服务的相关构件是高可用的,同时机群操作系统核心的配置服务虽然没有提供高可用服务,但是由于核心的其他构件依赖于配置服务构件,所以配置服务需要保证高可用性。从而,也能看出机群操作系统核心是满足用户核心需求的最小功能子集。
六、核心构件高可用实现方案
解决构件的高可用问题有两种方案:一种是构件的高可用自己负责,也就是说每个构件都要设计和实现自己的高可用部分,这种设计在构件很少时比较适合,它可以有效地提高每个构件服务的自治能力,使系统形式上更加简单,调试更加方便。但这种方案在系统核心构件增多时就会造成很大的功能冗余,系统功能下降。并且,这个方案也不符合构件服务设计的思想,它把和构件服务本身功能逻辑不相关的高可用功能强行的加到每个构件中,违背了构件功能独立的设计思想。另一种就是提出一种服务构件,由它来负责机群操作系统其他构件的高可用。这样把高可用从其它每个构件中抽离出来,以一种公共服务的形式提供给集群中的其他构件,不但能提高整个系统的工作效率,使构件的功能更加细化,也为以后系统的升级、服务构件的增加带来了方便。因为机群操作系统中所有的构件服务都可以依赖它来实现自身的高可用了。
七、结束语
随着机群系统的发展,机群的应用领域已经从科学计算领域扩展至商业计算领域。不论科学计算领域还是商业计算领域,都对机群系统的可用性具有较强的需求。了解机群的操作系统对机群的深一步学习是有帮助的。
参考文献:
[1]王磊,机群操作系统高可用服务研究[D].中国科学院研究生院(计算技术研究所),2006.
[2]孙凝晖、刘淘英,支持网格的机群操作系统的设计[J].计算机研究与发展,2002,(08).
转载注明来源:https://www.xzbu.com/8/view-1067410.htm