本发明涉及存储系统技术领域,特别是涉及一种存储集群系统故障处理方法及系统。
背景技术:
存储集群系统是由多台存储服务器相互连接形成一个存储服务器集群,现有技术中,对存储服务器集群的故障监测主要采用如下方式:在集群管理系统中设置有监测告警模块,通过监测告警模块监测和记录存储集群系统运行时遇到的问题和出现的故障,包括记录故障发生时间和故障描述,并将监测到的故障信息反馈给管理员并作出提示。
但现有的这种方式,仅实现了监测和告警功能,对存储服务器集群出现的一切故障,都需要由管理员在得知故障信息后亲自手动解决,如果管理员没有时间处理或者漏掉处理,系统中故障就会一直存在。因此可见,现有这种方式对存储服务器集群故障的处理效率低。
技术实现要素:
本发明提供一种存储集群系统故障处理方法及系统,增加了解决存储集群系统故障的灵活度,提高了系统故障的处理效率。
为实现上述目的,本发明提供如下技术方案:
一种存储集群系统故障处理方法,包括:
整理并记录存储集群系统已出现的故障以及处理对应故障的解决方案,构建故障解决方案数据库;
监测得到所述存储集群系统中产生的故障,根据所述故障的故障描述,从所述故障解决方案数据库中检索与所述故障相匹配的故障解决方案;
若检索到与所述故障相匹配的故障解决方案,则根据检索出的所述故障解决方案对所述故障进行修复。
可选地,所述监测得到所述存储集群系统中产生的故障包括:
监测得到所述存储集群系统中产生的故障,并记录产生故障的发生时间、故障描述和故障级别,形成故障日志。
可选地,还包括:若未检索到与所述故障相匹配的故障解决方案,则显示产生的故障的相关数据并发出提示,所述相关数据包括产生故障的发生时间、故障描述和故障级别。
可选地,还包括:当产生的故障被修复完成后,则在显示的故障列表中删除对应该故障的相关数据。
可选地,所述根据检索出的所述故障解决方案对所述故障进行修复,包括:
对所述故障的故障描述和检索出的所述故障解决方案进行分析,对所述故障解决方案进行调整,生成精确匹配于所述故障的新故障解决方案,按照所述新故障解决方案对所述故障进行修复。
一种存储集群系统故障处理系统,包括:
数据库构建模块,用于整理并记录存储集群系统已出现的故障以及处理对应故障的解决方案,构建故障解决方案数据库;
监测与检索模块,用于监测得到所述存储集群系统中产生的故障,根据所述故障的故障描述,从所述故障解决方案数据库中检索与所述故障相匹配的故障解决方案;
处理模块,用于若检索到与所述故障相匹配的故障解决方案,则根据检索出的所述故障解决方案对所述故障进行修复。
可选地,所述监测与检索模块用于监测得到所述存储集群系统中产生的故障包括:
所述监测与检索模块具体用于监测得到所述存储集群系统中产生的故障,并记录产生故障的发生时间、故障描述和故障级别,形成故障日志。
可选地,还包括:
显示模块,用于若未检索到与所述故障相匹配的故障解决方案,则显示产生的故障的相关数据并发出提示,所述相关数据包括产生故障的发生时间、故障描述和故障级别。
可选地,所述显示模块还用于当产生的故障被修复完成后,则在显示的故障列表中删除对应该故障的相关数据。
可选地,所述处理模块用于根据检索出的所述故障解决方案对所述故障进行修复包括:
所述处理模块具体用于对所述故障的故障描述和检索出的所述故障解决方案进行分析,对所述故障解决方案进行调整,生成精确匹配于所述故障的新故障解决方案,按照所述新故障解决方案对所述故障进行修复。
由上述技术方案可知,本发明所提供的存储集群系统故障处理方法及系统,通过对存储集群系统已出现的故障以及处理对应故障的解决方案进行整理和记录,构建形成故障解决方案数据库;在对存储集群系统监测中,在监测到存储集群系统产生故障时,对监测到的故障会根据其故障描述,在故障解决方案数据库中检索与该故障相匹配的故障解决方案,若能检索到与该故障相匹配的故障解决方案,则根据该故障解决方案对产生的所述故障进行修复。因此,本发明存储集群系统故障处理方法及系统,对于存储集群系统中出现的可由固定方案进行处理的常有故障,能够自动修复,不需要等待管理员手动操作修复,因此本发明存储集群系统故障处理方法及系统,增加了解决存储集群系统故障的灵活度,提高了系统故障的处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种存储集群系统故障处理方法的流程图;
图2为本发明又一实施例提供的一种存储集群系统故障处理方法的流程图;
图3为本发明实施例提供的一种存储集群系统故障处理系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参考图1,本发明实施例提供的一种存储集群系统故障处理方法,包括步骤:
S10:整理并记录存储集群系统已出现的故障以及处理对应故障的解决方案,构建故障解决方案数据库;
S11:监测得到所述存储集群系统中产生的故障,根据所述故障的故障描述,从所述故障解决方案数据库中检索与所述故障相匹配的故障解决方案;
S12:若检索到与所述故障相匹配的故障解决方案,则根据检索出的所述故障解决方案对所述故障进行修复。
可以看出,本实施例存储集群系统故障处理方法,通过对存储集群系统已出现的故障以及处理对应故障的解决方案进行整理和记录,构建形成故障解决方案数据库;在对存储集群系统监测中,在监测到存储集群系统产生故障时,对监测到的故障会根据其故障描述,在故障解决方案数据库中检索与该故障相匹配的故障解决方案,若能检索到与该故障相匹配的故障解决方案,则根据该故障解决方案对产生的所述故障进行修复。因此,本实施例存储集群系统故障处理方法,对于存储集群系统中出现的可由固定方案进行处理的常有故障,能够自动修复,不需要等待管理员手动操作修复,因此本实施例存储集群系统故障处理方法,增加了解决存储集群系统故障的灵活度,提高了系统故障的处理效率。
下面对本实施例存储集群系统故障处理方法进行详细说明。请参考图2,本实施例存储集群系统故障处理方法包括步骤:
S10:整理并记录存储集群系统已出现的故障以及处理对应故障的解决方案,构建故障解决方案数据库。
在存储集群系统中,对存储集群系统已发生过的故障以及处理故障对应的解决方案进行收集和整理,对于其中解决方案为固定步骤进行修复的故障,记录这些故障及其对应的解决方案,构建故障解决方案数据库,其中故障对应的解决方案包括修复该故障进行的操作步骤。
S11:监测得到所述存储集群系统中产生的故障,根据所述故障的故障描述,从所述故障解决方案数据库中检索与所述故障相匹配的故障解决方案。
监测存储集群系统,当系统中发生故障时,监测到存储集群系统中出现故障。本实施例中,在监测到存储集群系统产生故障时,会记录产生故障的发生时间、故障描述和故障级别,形成故障日志。
并根据产生故障的故障描述,从故障解决方案数据库中检索与所述故障相匹配的故障解决方案,来搜索故障解决方案数据库中是否存在与产生的故障相匹配的故障解决方案。
S12:若检索到与所述故障相匹配的故障解决方案,则根据检索出的所述故障解决方案对所述故障进行修复。
具体的,这里所述的检索到与所述故障相匹配的故障解决方案包括两种情况,第一种情况是指从故障解决方案数据库中检索到的故障解决方案对应解决的故障与监测到的故障情况相同,则直接按照检索出的故障解决方案对该故障进行修复。
在第二种情况中,当前监测到的故障与检索出的故障解决方案对应解决的故障存在区别,并不能直接采用检索到的故障解决方案对当前故障进行修复,则先对当前监测到的所述故障的故障描述和检索出的所述故障解决方案进行分析,对所述故障解决方案进行调整,生成精确匹配于所述故障的新故障解决方案,按照新故障解决方案对所述故障进行修复。
S13:若未检索到与所述故障相匹配的故障解决方案,则显示产生的故障的相关数据并发出提示,所述相关数据包括产生故障的发生时间、故障描述和故障级别。
若从故障解决方案数据库中没有检索到与产生的故障相匹配的故障解决方案,则将该故障及其相关数据显示,并发出提示,展示给管理员并提示其系统存在故障需要修复。
优选的,本实施例中将存储集群系统发生的故障按照故障级别从高到低的顺序排列显示,管理员可以根据故障级别,对故障级别高的故障优先处理进行修复。
当产生的故障被修复完成后,则在显示的故障列表中删除对应该故障的相关数据。
本实施例存储集群系统故障处理方法,对于存储集群系统中出现的故障分类进行处理,对于可采用固定方案处理的故障,则自动进行修复,不需要等待管理员亲自手动解决故障;对于产生的其它故障则显示出,提示管理员进行修复。因此,本实施例存储集群系统故障处理方法,增加了对存储集群系统故障处理的灵活度和多样性,可提高系统故障的处理效率,保障系统良好运行。
相应的,本发明实施例还提供一种存储集群系统故障处理系统,请参考图3,所述系统包括:
数据库构建模块20,用于整理并记录存储集群系统已出现的故障以及处理对应故障的解决方案,构建故障解决方案数据库;
监测与检索模块21,用于监测得到所述存储集群系统中产生的故障,根据所述故障的故障描述,从所述故障解决方案数据库中检索与所述故障相匹配的故障解决方案;
处理模块22,用于若检索到与所述故障相匹配的故障解决方案,则根据检索出的所述故障解决方案对所述故障进行修复。
可以看出,本实施例存储集群系统故障处理系统,包括数据库构建模块、监测与检索模块和处理模块,所述处理系统通过对存储集群系统已出现的故障以及处理对应故障的解决方案进行整理和记录,构建形成故障解决方案数据库;在对存储集群系统监测中,在监测到存储集群系统产生故障时,对监测到的故障会根据其故障描述,在故障解决方案数据库中检索与该故障相匹配的故障解决方案,若能检索到与该故障相匹配的故障解决方案,则根据该故障解决方案对产生的所述故障进行修复。因此,本实施例存储集群系统故障处理系统,对于存储集群系统中出现的可由固定方案进行处理的常有故障,能够自动修复,不需要等待管理员手动操作修复,因此本实施例存储集群系统故障处理系统,增加了解决存储集群系统故障的灵活度,提高了系统故障的处理效率。
本实施例中,具体的,所述监测与检索模块21用于监测得到所述存储集群系统中产生的故障包括:所述监测与检索模块21具体用于监测得到所述存储集群系统中产生的故障,并记录产生故障的发生时间、故障描述和故障级别,形成故障日志。
本实施例存储集群系统故障处理系统,还包括显示模块23,用于若未检索到与所述故障相匹配的故障解决方案,则显示产生的故障的相关数据并发出提示,所述相关数据包括产生故障的发生时间、故障描述和故障级别。因此,对于没有从故障解决方案数据库中检索到相匹配故障解决方案的故障,将该故障及其相关数据显示,展示给管理员,并发出提示,提示管理员存储系统存在故障需要修复,以使管理员及时地对故障修复。
进一步的,所述显示模块23还用于当产生的故障被修复完成后,则在显示的故障列表中删除对应该故障的相关数据。
本实施例中,处理模块22用于若检索到与所述故障相匹配的故障解决方案,则根据检索出的所述故障解决方案对所述故障进行修复,其中,检索到与所述故障相匹配的故障解决方案包括两种情况,第一种情况是指从故障解决方案数据库中检索到的故障解决方案对应解决的故障与监测到的故障情况相同,则直接按照检索出的故障解决方案对该故障进行修复。包括两种情况,
第二种情况指当前监测到的故障与检索出的故障解决方案对应解决的故障匹配,但存在区别,并不能直接采用检索到的故障解决方案对当前故障进行修复,则由所述处理模块22对所述故障的故障描述和检索出的所述故障解决方案进行分析,对所述故障解决方案进行调整,生成精确匹配于所述故障的新故障解决方案,按照所述新故障解决方案对所述故障进行修复。
以上对本发明所提供的一种存储集群系统故障处理方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。