堆叠系统的故障处理的决策方法和装置的制造方法
【技术领域】
[0001]本申请涉及网络通信技术领域,尤其涉及一种堆叠系统的故障处理的决策方法和
目.ο
【背景技术】
[0002]IRF(Intelligent Resilient Framework,智能弹性架构)是一种堆叠交换机系统,利用软件虚拟化技术,将至少两台网络设备连接在一起,进行必要的配置后,虚拟化成一台“分布式设备”。使用这种虚拟化技术可以集合多台设备的硬件资源和软件处理能力,实现多台设备的协同工作、统一管理和不间断维护。
[0003]IRF能够简化管理,在形成之后,用户通过任意成员设备的任意端口都可以登录IRF系统,对IRF内所有成员设备进行统一管理。IRF的高可靠性体现在多个方面,例如:IRF由多台成员设备组成,Master (主)设备负责IRF的运行、管理和维护,Slave (从)设备在作为备份的同时也可以处理业务;一旦Master设备故障,系统会迅速自动选举新的Master,以保证业务不中断,从而实现了设备的1:N备份;此外,成员设备之间的IRF链路支持聚合功能,IRF和上、下层设备之间的物理链路也支持聚合功能,多条链路之间可以互为备份也可以进行负载分担,从而进一步提高了 IRF的可靠性。IRF有良好的扩展能力,通过增加成员设备,可以轻松自如的扩展IRF的端口数、带宽;因为各成员设备都有CPU,能够独立处理协议报文、进行报文转发,所以IRF还能够轻松自如的扩展处理能力。
[0004]随着语音、视频等新网络业务的出现和发展,对网络的可靠性和性能都提出了更高的要求。IRF不仅需要提供高的可靠性,还要尽量减少故障对所运行业务性能的影响。因此,在发生故障后如何能根据具体的应用场景进行故障恢复,就成为IRF技术需要解决的问题。
【发明内容】
[0005]有鉴于此,本申请提供一种堆叠系统的故障处理的决策方法,应用在有成员设备离开的堆叠系统的主设备上,所述方法包括:
[0006]根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;
[0007]将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;
[0008]接收携带对端设备组决策参数值的分裂检测报文;
[0009]根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
[0010]本申请还提供了一种堆叠系统的故障处理的决策装置,应用在有成员设备离开的堆叠系统的主设备上,所述装置包括:
[0011]决策参数收集单元,用于根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;
[0012]检测报文发送单元,用于将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;
[0013]检测报文接收单元,用于接收携带对端设备组决策参数值的分裂检测报文;
[0014]分裂决策单元,用于根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
[0015]由以上技术方案可见,本申请的实施例中利用保留策略来体现堆叠系统所在的应用环境的具体需求,在堆叠系统有成员设备离开后,通过采集并交换两端设备组的决策参数值并将决策参数值通知对端设备组,将两端设备组的决策参数值应用于保留策略来确定所要保留的设备组,使得堆叠分裂后更为符合应用环境需求的设备组能够继续分裂前堆叠系统的业务,实现了基于应用场景的故障恢复。
【附图说明】
[0016]图1是一个例子中堆叠系统的组网结构示例图;
[0017]图2是一个例子中堆叠系统成员设备的硬件架构示意图;
[0018]图3是一个例子中一种堆叠系统的故障处理的决策方法的流程图;
[0019]图4是另一个例子中一种堆叠系统的故障处理的决策方法的流程图;
[0020]图5是一个例子中一种堆叠系统的故障处理的决策装置的逻辑结构图。
【具体实施方式】
[0021]在堆叠系统的一种实现方式中,成员设备间通过具有特殊功能的堆叠口连接,通过堆叠口交互Hello报文来通告成员设备的状态、成员设备编号、成员设备优先级、成员设备的连接关系等内容。每个成员设备在本地记录已知的拓扑信息并将已知的拓扑信息周期性的从堆叠口发送出去,在收到其他成员设备的拓扑信息后,更新本地记录的拓扑信息,这样,所有成员设备都会收集到完整的拓扑信息。
[0022]当某个成员设备发生故障或某两个堆叠口之间的连接链路发生故障后,与故障点直接连接的成员设备感知到故障发生,会将发生故障的消息广播给堆叠系统中的其他成员设备,收到这些消息的成员设备更新本地记录的拓扑信息。更新拓扑信息后,不可达的成员设备被认为离开了堆叠系统。如果主设备离开,则在当前在线的从设备中选举新的主设备,继续原堆叠系统的转发业务。
[0023]一些故障可能导致堆叠系统分成两个设备组,这两个设备组之间无法通过堆叠口通信,并且都认为对端设备组已经离开堆叠系统,这种情况称为分裂。分裂后,每个设备组都成为一个独立的堆叠系统,并且都具有与原堆叠系统相同的地址和配置。
[0024]例如,在图1所示的堆叠系统中,成员设备110、120、130、140和150通过各自的堆叠口连接为链形拓扑,并且分别通过各自的其他端口连接到网络设备161和网络设备162,成员设备150为堆叠系统的主设备。当连接成员设备120的堆叠口 122和成员设备130的堆叠口 131的链路断开时,成员设备110和120认为成员设备130、140和150已经离开,选举出新的主设备——成员设备110 ;而成员设备130、140和150也认为成员设备110和120已经离开,继续以成员设备150为主设备。这样,成员设备110和120作为一个设备组,成员设备130、140和150作为另一个设备组,形成两个地址相同、配置相同的堆叠系统。类似的,当成员设备130发生故障宕机时,也会发生堆叠系统的分裂。
[0025]现有技术中,MAD (Mult1-Active Detect1n,多活跃检测)技术用来防止网络中出现两个相同地址、相同配置的堆叠系统。具体而言,当堆叠系统中有成员设备离开后,主设备生成分裂检测报文,其中带有本端设备组的Active ID (活跃标识)。通常将主设备在堆叠系统中的成员编号作为该设备组的Active ID,堆叠系统中的每个成员设备的编号都不相同,因此如果堆叠分裂为两个设备组,则其主设备的成员编号必定不同。主设备将生成的分裂检测报文通过其他端口(非堆叠口)发送给堆叠系统中的其他成员设备。如果主设备接收到来自其他成员设备的分裂检测报文,该报文携带的Active ID不同于本端设备组的Active ID,则可以判定堆叠系统发生分裂。两个设备组的主设备比较本端设备组和对端设备组的Active ID,保留Active ID较大或较小的一个设备组,将另一个设备组的业务端口关闭。业务端口包括用于堆叠系统业务转发的端口,但不包括堆叠口。这样,网络中将不会同时存在两个相同地址、相同配置的堆叠系统。并非所有有成员离开的情况都会导致堆叠分裂(例如图1中的成员设备110宕机),此时主设备不会收到具有不同Active ID的分裂检测报文,不需进行堆叠分裂的保留决策和处理。
[0026]在堆叠系统发生分裂后,根据设备组Active ID的大小来决定保留哪个设备组,可能使得更为符合应用环境需要的设备组被关闭。仍以图1所示的堆叠系统为例,当成员设备110的堆