一种分区集群系统的监测方法及装置与流程

文档序号:11842086阅读:318来源:国知局
一种分区集群系统的监测方法及装置与流程

本发明涉及一种分区集群系统的监测方法及装置,属于软件系统设计技术领域。



背景技术:

随着科技的发展,各种信息量也在爆炸式的增长,同时人们对这些信息的监控需求也在不断增大,海量数据监视成为了当今的热点,为了解决这个问题,分布式集群监控系统就应运而生。但是,人们在解决了如何采集这些海量数据的问题后,如何管理并监视分布式集群系统成为了一个难题,如何保证集群系统的强壮性、可靠性并透明化的了解系统的运行状态成为了目前的迫切需求。



技术实现要素:

本发明的目的是提供一种分区集群系统的监测方法及装置,以实现对分区集群系统运行状态的全面实时监测。

本发明为解决上述技术问题而提供一种分区集群系统的监测方法,该监测方法包括以下步骤:

1)对分区集群系统的每个节点进行应用服务配置,使每个应用服务在节点上都是交错备份处理的,以保证每个应用服务都有主备服务存在;

2)在集群系统每个节点上部署用于存储集群系统对应节点配置信息的sysmoni实时库,同时在每个节点上部署用于根据配置信息来管理节点各级元素的appmanager服务;

3)每个应用服务的应用进程在启动时向对应节点上的appmanager服务进行注册,并定时向其发送自身的状态信息,以实现对各节点应用服务进程的监视。

分区集群系统中各节点的appmanager服务根据预定义优先级确定一个主appmanager服务,其它为从appmanager服务,主appmanager服务会根据初始配置信息,将各个应用服务的主备角色发送给从appmanager服务,使每个应用都会有一个主角色一个备角色,从appmanager服务定时将本节点的应用状态信息发送给主appmanager服务。

所述主appmanager服务和从appmanager服务之间采用心跳报文进行通信。

当备appmanager服务超过设定时间没有心跳时,主appmanager服务将该节点上原来处理的应用主服务切换到其它相应节点上处理;当主appmanager服务超过设定时间没有心跳时,根据预先的优先级配置信息,选取其它从appmanager服务优先级较高的作为新的主appmanager服务,并将原来主appmanager服务上处理的应用主服务切换到其它相应节点上处理。

当某个节点的资源占用率超过设定值时,主appmanager服务会自动将该节点上处理的应用切换到其它节点上,以到达负载均衡的目的。

当某个集群元素发生故障时,appmanager服务会产生报警信息,用于提示管理人员进行及时处理。

每个应用服务均配置有一个对应的关键进程,用来判断该应用服务的运行状态,当某个节点的关键进程出现问题时,则说明该节点对应的应用服务出现异常。

本发明还提供了一种分区集群系统的监测装置,该监测装置包括部署在集群系统每个节点上的appmanager服务和sysmoni实时库,所述sysmoni实时库用于存储集群系统对应节点的配置信息,所述appmanager服务用于根据配置信息来管理各级元素,并对其进行监视,分区集群系统的每个节点在进行应用服务配置时,每个应用服务在节点上都是交错备份处理的,以保证每个应用服务都有主备服务存在;每个应用服务的应用进程在启动时向对应节点上的appmanager服务进行注册,并定时向其发送自身的状态信息,以实现对各节点应用服务进程的监视。

所述sysmoni实时库中存储的配置信息包括集群节点信息、集群应用信息和应用进程信息,是通过专属集群配置工具clustercfg所建立的。

分区集群系统中各节点的appmanager服务根据预定义优先级确定一个主appmanager服务,其它为从appmanager服务,主appmanager服务会根据sysmoni实时库中存储的初始配置信息,将各个应用服务的主备角色发送给从appmanager服务,使每个应用都会有一个主角色一个备角色,从appmanager服务定时将本节点的应用状态信息发送给主appmanager服务。

本发明的有益效果是:本发明通过对分区集群系统的每个节点进行应用服务配置,使每个应用服务在节点上都是交错备份处理的,以保证每个应用服务都有主备服务存在;在集群系统每个节点上部署用于存储集群系统对应节点配置信息的sysmoni实时库,同时在每个节点上部署用于根据配置信息来管理节点各级元素的appmanager服务;各应用服务的应用进程在启动时向对应节点上的appmanager服务进行注册,并定时向其发送自身的状态信息,以实现对各节点应用服务进程的监视。本发明实现了对集群系统的运行状态的全面监测,大大提高了集群系统运行的透明度,增强了集群系统的可靠性。

附图说明

图1是本发明分区集群系统监测方法的原理示意图;

图2是本发明所采用的集群配置工具示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的说明。

本发明的一种分区集群系统的监测方法的实施例

本发明通过对分区集群系统的每个节点进行应用服务配置,使每个应用服务在节点上都是交错备份处理的,以保证每个应用服务都有主备服务存在;在集群系统每个节点上部署用于存储集群系统对应节点配置信息的sysmoni实时库,同时在每个节点上部署用于根据配置信息来管理节点各级元素的appmanager服务;每个应用服务的应用进程在启动时向对应节点上的appmanager服务进行注册,并定时向其发送自身的状态信息,以实现对各节点应用服务进程的监视。下面以电力系统配电网的分布式集群系统为例进行说明,该方法的具体实现过程如下。

1.对分区集群系统的每个节点进行应用服务配置,使每个应用服务在节点上都是交错备份处理的,以保证每个应用服务都有主备服务存在。

本实施例中的分区集群系统进行三节点三应用配置,如图1所示,每个节点运行两个应用,保证每个应有都有主备服务。集群节点A上配置有节点应用服务1和节点应用服务2,集群节点B上配置有节点应用服务1和节点应用服务3,集群节点C上配置有节点应用服务2和节点应用服务3,可见每个节点应用服务都存在两个集群节点上,使得每个应用服务既有主服务也有备服务。

2.在集群系统每个节点上部署sysmoni实时库,同时在每个节点上部署appmanager服务。

本实施例使用专属集群配置工具clustercfg建立集群系统配置信息,如图2所示,并将其导入进sysnomi实时库中,包括集群节点信息、集群应用信息和应用进程信息等,每个集群节点部署的sysmoni实时库用于存储基本的集群系统配置信息(比如系统有哪些节点、哪些应用,每个应用都在哪些节点上,每个应用都有哪些进程等),当appmanager服务启动时,会从该sysnomi实时库中读取这些配置信息,同时sysnomi实时库还对外提供访问接口,方便监视程序读取相应的监视信息数据,以展现监视信息。

3.启动每个节点上的appmanager服务,各个服务之间会根据预先定义的优先级决定出一个主服务、其它的都为从appmanager服务,各个从服务从sysnomi实时库中读取配置信息。本实施例中集群节点A上部署的为主appmanager服务,集群节点B和C上部署的均为从appmanager服务。

集群节点上的appmanager服务在启动之初都会有一个静态的优先级配置信息,每个节点的优先级高低都不一样,当主appmanager服务发生故障时,其它节点上的从appmanager服务就会按照优先级来替代它,切换为主服务。主appmanager服务负责向sysmoni实时库中刷新最新的系统状态信息,当监视程序访问实时库时,会自动连接到主服务节点上的实时库,主appmanager服务会根据初始配置信息,将各个应用的主备角色发送给从appmanager服务,这样每个应用都有一个主角色一个备角色,从appmanager服务会定时将本节点的应用状态信息发送给主服务。

4.每个应用服务的应用进程在启动时向对应节点上的appmanager服务进行注册,并定时向其发送自身的状态信息,以实现对各节点应用服务进程的监视。

启动各个集群节点上的应用服务,所有的应用进程向appmanager服务进行注册,并定时的向其发送自身的状态信息,达到进程监视的目的,主appmanager服务根据配置信息向其他服务节点发送角色分配信息,明确各个应用在每个节点上的主备角色,同时,各个从appmanager服务也会定时将本节点上的应用状态信息汇报给主服务,达到应用监视的目的。

每个集群应用都会配置一个关键进程用来判决这个应用的运行状态,当关键进程出现问题时,就会判决该应用出现异常,此时在主appmanager服务的管理下自动发生主备切换。

主appmanager服务和从appmanager服务之间有心跳报文,当从appmanager服务长时间没有心跳时,主appmanager服务会判决该节点上原来处理的应用主服务会自动切换到其他相应节点上处理;当主appmanagerappmanager长时间没有心跳时,其它从appmanagerappmanager会根据预先的优先级配置信息,由一个优先级高的来取代主appmanager服务,原来主服务上处理的应用主服务会自动切换其它相应节点上处理。

Appmanager服务自身具备负载均衡管理,当某个节点的资源占用率过高时,主appmanager服务会自动将该节点上处理的应用切换到其它节点上,以达到负载均衡的目的。Appmanager服务自身还具备报警显示功能,当某个集群元素(节点、应用、进程)发生故障时,会自动产生报警信息,来提示管理人员进行及时处理。Appmanager服务自身还具备事件记录和历史记录功能,用于将发生的事件记录到数据库中,供管理人员来进行事后分析;同时定时将状态信息记录到历史数据库中,以供之后的统计分析。

本发明的一种分区集群系统的监测装置的实施例

本实施例中的监测装置包括部署在集群系统每个节点上的appmanager服务和sysmoni实时库,sysmoni实时库用于存储集群系统对应节点的配置信息,appmanager服务用于根据配置信息来管理各级元素,并对其进行监视,分区集群系统的每个节点在进行应用服务配置时,每个应用服务在节点上都是交错备份处理的,以保证每个应用服务都有主备服务存在;每个应用服务的应用进程在启动时向对应节点上的appmanager服务进行注册,并定时向其发送自身的状态信息,以实现对各节点应用服务进程的监视。该监测装置的具体实现手段已在方法的实施例中进行了详细说明,这里不再赘述。

通过上述过程可知,本发明对集群系统的运行状态进行了全面的监测,可对集群系统进行负载均衡与故障管理,大大提高了集群系统运行的透明度,增强了集群系统的可靠性。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1