机群监控与预警方法

文档序号:7859948阅读:200来源:国知局
专利名称:机群监控与预警方法
技术领域
本发明涉及ー种机群监控与预警方法,尤其是采用分组机制适应不同规模的机群以及对大規模机群的实时响应,同时采用拓扑结构解决Group的单点故障,且采用监控与预警相结合的方法达到用户对机 群实时监控的目的。
背景技术
在传统的机群监控系统中,开源项目Ganglia很好的实现了对具有2000节点的机群规模进行监控。Ganglia是ー个跨平台可扩展的,高性能计算系统下的分布式监控系统。它是基于分层设计,利用精心设计的数据结构和算法实现节点之间的低并发性。但是,Ganglia不支持单点故障的处理,即当服务器出现故障吋,需要人工处理。同吋,由于近年互联网的高速发展,机群的规模已远远超过了 2000节点,而Ganglia在随着机群规模的扩展其监控性能并不能得到及时性的响应。目前机群监控技术均是针对某一特殊机群平台而设计的,导致机群监控技术没有一定的通用性,同时传统的监控技术存在不支持单点故障处理问题且不能提供预警的方案。

发明内容
本发明所要解决的技术问题是为了克服现有技术存在的缺陷而提供ー种机群监控与预警方法,以适应不同规模的机群以及对大規模机群的实时响应,其能监控的机群规模将远远超过2000个节点,同时,解决单点故障处理问题。本发明为解决其技术问题所采取的技术路线是首先采用分组思想,将机群分成N组,确定姆组的节点数,即姆ー组由ー个Group和M台Agent组成;然后采用星形拓扑结构解决单点故障问题,将称为ControlNode的节点作为中心节点,姆组中的Group和SecondaryGroup与ControlNode直接相连,构成一个星型拓扑结构,ControlNode实时记录着姆个Group与SecondaryGroup的映射关系,一旦Group出现故障,该Group下的所有Agent将会暂时连接到SecondaryGroup,当故障被消除后,Agent又会连接回Group ;最后采用监控与预警相结合的方法,实时挖掘由监控生成的数据,通过与系统性能指标相比较,当发现某个节点超过性能阈值的时候,将会以短信或者邮箱的方式通知指定用户,具体包含以下过程(I)机群分组根据机群的规模确定将机群分成N组,其中,ClusterSize为机群的总节点数,_7] —>麵0),
IcimferSte < 100则每组的节点数
权利要求
1.ー种机群监控与预警方法,采用分组机制适应不同规模的机群以及对大規模机群的实时响应,采用拓扑结构解决Group的单点故障,用监控与预警相结合对机群实时监控,其特征在于,具体包括以下过程 (1)机群分组 根据机群的规模确定将机群分成N组,
全文摘要
本发明公开了一种机群监控与预警方法,采用分组机制适应不同规模的机群以及对大规模机群的实时响应,采用拓扑结构解决Group的单点故障,用监控与预警相结合对机群实时监控,通过实时分析由监控采集的数据与系统的性能指标进行比较,一旦发现某个数据超过了性能指标的阈值,将会通过短信的方式发送给用户,通知用户及时解决故障。
文档编号H04L12/24GK102761448SQ20121027760
公开日2012年10月31日 申请日期2012年8月7日 优先权日2012年8月7日
发明者俞辉, 高传俊 申请人:中国石油大学(华东)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1