本帖最后由 licmanager 于 2014-11-12 13:52 编辑
LMT NEW PBS作业排队管理系统分布式并行计算
LMT NEW PBS
作业排队管理系统
,利用集群系统来构建分布式并行环境,将一个海量的计算请求看作一个作业,提交给集群系统,管理节点将这个作业分解为多个子任务,再根据收集的节点负载信息将这些任务分别映射到各个节点上进行计算。
一个作业在集群系统中的完整调度过程分为
6
个部分,分别为:提交作业,调度作业,分发作业,运行作业,返回输出和返回结果到提交节点。
基于集群系统的分布式并行计算结构如下图所示:
(分布式并行计算结构图)
分布式并行计算结构包含三类节点,分别为提交节点、管理节点和处理节点(即计算节点)。
提交节点负责将作业请求提交给系统的管理节点;管理节点对集群系统的资源进行统一的监视和合理的调度,是集群各节点充分共享计算机的
CPU
、内存、磁盘、
license
等资源;处理节点是负责对各任务进行计算和处理,并将计算结果返回给管理节点。在此结构中,将处理节点分为了两个分组,每个分组有两个计算节点,每个计算节点上可以运行多个服务程序,不同分组之间的服务程序可以相同也可以不同,它们分别用来响应不同的客户请求。
管理节点是整个并行计算结构的核心,它并不参与作业的计算,而只是对整个集群系统进行管理,具体有以下几个功能:任务管理、节点管理、通信管理、数据库管理。
(管理节点的功能)
任务管理包括两部分内容,任务分解主要是将提交给集群系统的作业进行分析,根据作业的应用需求,将其分解为多个面向相同服务的子任务,结果集成是当作业处理完毕后,各个计算节点的计算结果返回到管理节点,管理节点再将这些结果汇集为一个最终结果返回给客户端;节点管理根据运行在各个节点上的守护进程收集的负载信息,选择合适的节点来处理作业,并平衡负载;一个作业的所有任务都有自己独立的输入和输出信息,但是也可以共享部分数据,这些数据存储在管理节点的数据库中。
整个分布式并行计算系统中,每个计算节点都有一个任务队列,任务队列中存放着分配给本节点空闲时,从队列中取出任务进行处理。当某个计算节点负载较重,而另一个计算节点却空闲时,需要对节点上的任务进行合理的调度,从而平衡节点负载。对于任务的调度可以采用分级调度机制。
LMT NEW PBS
作业管理系统充分发挥了集群系统的优点:
对于提交的作业,用户不需要指定哪个计算节点来处理,整个集群系统为用户提供单一系统映像,用户就好像在使用一台计算机一样。
可以动态地实现负载平衡,当某个节点的负载较大时,可以动态的调整任务分配,平衡负载。
集群系统能够随时监测系统各节点的运行情况,有效的利用系统的闲置资源,具有较高的资源利用率。
全部回复(1 )
只看楼主 我来说两句 抢板凳