一种基于事件驱动分析的集群故障分析方法

文档序号:8339869阅读:309来源:国知局
一种基于事件驱动分析的集群故障分析方法
【技术领域】
[0001]本发明涉及集群故障分析技术领域,特别涉及一种基于事件驱动分析的集群故障分析方法。
【背景技术】
[0002]集群技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益。
[0003]集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。
[0004]采用集群技术的目的包括如下几点:
I提尚性能
一些计算密集型应用,如:天气预报、核试验模拟等,需要计算机要有很强的运算处理能力,现有的技术,即使普通的大型机其计算也很难胜任。这时,一般都使用计算机集群技术,集中几十台甚至上百台计算机的运算能力来满足要求。提高处理性能一直是集群技术研宄的一个重要目标之一。
[0005]2降低成本
通常一套较好的集群配置,其软硬件开销要超过100000美元。但与价值上百万美元的专用超级计算机相比已属相当便宜。在达到同样性能的条件下,采用计算机集群比采用同等运算能力的大型计算机具有更高的性价比。
[0006]3提高可扩展性
用户若想扩展系统能力,不得不购买更高性能的服务器,才能获得额外所需的CPU和存储器。如果采用集群技术,则只需要将新的服务器加入集群中即可,对于客户来看,服务无论从连续性还是性能上都几乎没有变化,好像系统在不知不觉中完成了升级。
[0007]4增强可靠性
集群技术使系统在故障发生时仍可以继续工作,将系统停运时间减到最小。集群系统在提高系统的可靠性的同时,也大大减小了故障损失。
[0008]虽然集群系统的构建目前可以说是模块化的,从硬件角度来看可以分为节点机系统、通讯系统、存储系统等,软件角度则主要有操作系统、集群操作系统(COS)、并行环境、编译环境和用户应用软件等,目前高性能计算机的通讯、存储等硬件系统是伴随摩尔定律快速发展的,跟踪、测试、比较最新硬件设备构成的高性能计算机的可能方案也成了高性能计算机厂商的重要科研活动,而所有这些关键部件研发、系统方案科研以及厂商的自主部件研发的高度概括就是“整合计算”。整合硬件计算资源的同时,伴随着整合软件资源,其中集群操作系统COS是软件系统中连接节点机操作系统和用户并行应用的重要“黏合剂”,也是尚性能计算机厂商的技术杀手铜。
[0009]就目前业务来说,集群所涉及到的规模一般都是比较大的,因此发生故障更多的会成为一种常态。鉴于业务的重要性,一旦发生故障势必要求尽快处理恢复。因此,对集群状态故障的分析就显得格外重要。

【发明内容】

[0010]本发明为了弥补现有技术的缺陷,提供了一种简单有效的基于事件驱动分析的集群故障分析方法。
[0011]本发明是通过如下技术方案实现的:
一种基于事件驱动分析的集群故障分析方法,其特征在于:包括事件分析器和事件故障库,在集群服务器上,运行守护进程收集集群事件数据,然后将收集的数据发送到事件分析器,所述事件分析器对集群事件数据进行分析建模,并不断完善;当有故障发生时,及时获取故障机器发生的事件,并将故障事件与事件故障库进行自动匹配,对其进行识别,从而分析故障原因,给出分析和解决方法,助力故障快速解决和定位事件分析器,最后将结果呈现给用户即可。
[0012]所述集群事件数据包括服务器日志、控制器时间、事务,这些事件包含了集群自身的状态变化,以及外部的输入输出。
[0013]所述事件故障库用于描述集群服务器的故障,并对故障进行分析,并通过经验总结,不断完善集群服务器的故障。
[0014]本发明的有益效果是:该基于事件驱动分析的集群故障分析方法,通过对服务器日志、控制器事件、事务等集群事件数据进行搜集,并对收集的集群事件数据进行分析,将集群服务器的故障事件通过与事件故障库进行自动匹配,从而分析故障原因,并给出分析和解决方法,提高了集群服务器故障事件的分析效率和解决效率,保证了集群服务器的正常运行。
【附图说明】
[0015]附图1为本发明基于事件驱动分析的集群故障分析流程示意图。
【具体实施方式】
[0016]下面结合附图对本发明进行详细说明。
[0017]该基于事件驱动分析的集群故障分析方法,包括事件分析器和事件故障库,在集群服务器上,运行守护进程收集集群事件数据,然后将收集的数据发送到事件分析器,所述事件分析器对集群事件数据进行分析建模,并不断完善;当有故障发生时,及时获取故障机器发生的事件,并将故障事件与事件故障库进行自动匹配,对其进行识别,从而分析故障原因,给出分析和解决方法,助力故障快速解决和定位,最后将结果呈现给用户即可。
[0018]所述集群事件数据包括服务器日志、控制器时间、事务,这些事件包含了集群自身的状态变化,以及外部的输入输出。
[0019]所述事件故障库用于描述集群服务器的故障,并对故障进行分析,并通过经验总结,不断完善集群服务器的故障。
【主权项】
1.一种基于事件驱动分析的集群故障分析方法,其特征在于:包括事件分析器和事件故障库,在集群服务器上,运行守护进程收集集群事件数据,然后将收集的数据发送到事件分析器,所述事件分析器对集群事件数据进行分析建模,并不断完善;当有故障发生时,及时获取故障机器发生的事件,并将故障事件与事件故障库进行自动匹配,对其进行识别,从而分析故障原因,给出分析和解决方法,助力故障快速解决和定位,最后将结果呈现给用户即可。
2.根据权利要求1所述的基于事件驱动分析的集群故障分析方法,其特征在于:所述集群事件数据包括服务器日志、控制器时间、事务,这些事件包含了集群自身的状态变化,以及外部的输入输出。
3.根据权利要求1所述的基于事件驱动分析的集群故障分析方法,其特征在于:所述事件故障库用于描述集群服务器的故障,并对故障进行分析,并通过经验总结,不断完善集群服务器的故障。
【专利摘要】本发明特别涉及一种基于事件驱动分析的集群故障分析方法。该基于事件驱动分析的集群故障分析方法,包括事件分析器和事件故障库。该基于事件驱动分析的集群故障分析方法,通过对服务器日志、控制器事件、事务等集群事件数据进行搜集,并对收集的集群事件数据进行分析,将集群服务器的故障事件通过与事件故障库进行自动匹配,从而分析故障原因,并给出分析和解决方法,提高了集群服务器故障事件的分析效率和解决效率,保证了集群服务器的正常运行。
【IPC分类】G06F19-00
【公开号】CN104657622
【申请号】CN201510108367
【发明人】姜伟丽, 冯江辉
【申请人】浪潮集团有限公司
【公开日】2015年5月27日
【申请日】2015年3月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1