专利名称:根据实时服务降级动态区分网络故障优先次序的方法和装置的利记博彩app
技术领域:
本发明总体上涉及一种网络故障检测系统,尤其涉及一种根据实 时服务状况来动态提供网络故障的方法和装置。发明背景网络、系统,尤其是通信网络,是由众多不同的设备组成的,这 些设备可以位于不同的位置,并且可以执行不同的功能。作为系统, 这些设备通过合作来提供网络服务,例如无线通信网络服务。无论系 统内部有多少设备,也不可能预期每一个设备都将完美或连续地操作。 中断、错误和故障会发生,并且要被预期。相应地,网络制造商和运营商已经设计、开发和运作了各种与网 络协作的网络和警报管理系统,以便检测、识别、表征和解决网络中 断、错误和故障,并且监视网络的性能和配置。通常,警报管理系统 使用警报来向网络开发人员或操作人员告知系统存在问题。这些警报 可以标识中断、错误或故障,并且将其呈现给操作人员,但是它们主 要基于一组固定或静态的警报严重性,该警报严重性诸如是危急或警 告。这些警报严重性和通知向系统或警报管理系统的操作人员告知警 报的可能幅度以及警报特性。 一旦表征了警报评价,所述表征与警报 状况保持关联。然后,操作人员得根据初始评价来为警报区分优先次 序。当前可用的警报管理系统存在很多问题。由于警报状况是静态的, 因此,尝试解决网络中的警报状况的操作人员未必具有当前或精确的 信息。例如,警报状况在一开始有可能被评价为"警告",但随着时 间的过去,警报状况有可能根据该警报状况的特性及其对其他网络设 备和系统的影响而变得更为严重。无论当前警报状况怎样,操作人员 仍旧会像警报状况及其初始评价是"警告"那样来操作警报管理系统。 可能需要与初始警告警报状况相关的附加警报状况,来向操作人员通 知初始警告警报的严重性已经改变。在初始警报状况等待被解决时, 操作人员正致力于在首次评价时被评定成更为危急而在解决时则并不 危急的其他警报状况。这样,由于无法得到关于警报状况的新数据, 操作人员有可能解决的是不如别的警报状况危急的警报状况。可以采用很多方法来排列警报状况的呈现。如果使用的是时间在 先方案,那么可以借助该方案并且根据警报到达时间来对其进行排列。 然后,操作人员得在没有警报管理系统帮助的情况下根据严重性来对 警报进行排序,并为其区分优先次序。此外,由于先前警报状况未必 允许连续显示最近的警报状况,因此这种排序配置可能不呈现危急警 报。由于该通知机制有可能隐藏在其他警报数据内部,导致很难发现 危急警报状况,因此,该显示格式还有可能会使操作人员难以发现危 急警报。一旦检测到警报状况并且将其呈现给操作人员,当前系统就继续 显示该警报,直至其被解决。因此,为了能够从列表中删除警报状况, 操作人员需要访问警报系统,并且解决该警报或是强迫系统在即使该 警报尚未被解决的情况下宣称该警报已被解决。这增加了警报管理系 统操作人员的工作需求。此外,这并没有向操作人员呈现关于警报状 况的精确说明。在当前的警报管理系统为警报状况区分优先次序这个方面来说, 这些优先化主要是对照其他的当前警报状况进行的。换句话说,确定 新警报状况的严重性级别,然后,将该级别与有效的其他警报状况进 行比较。当另一个新警报状况发生时,在先警报状况的相对分级有可 能会根据新警报状况的放置而改变。由此,警报状况的评定和分级并 未参考除警报状况及其分级之外的附加来源。
对当前系统来说,除了这些问题之外,警报状况首先被评定,并 且那些具有例如危急或非危急等相同评定的警报状况未必会被分在一起。 一旦处于具有相似评定的警报状况的类别中,那么当前系统不再 细分这些警报状况,以使操作人员知道哪一个危急警报如不解决就可 能对被监视的系统产生最严重的影响。因此,操作人员得依靠主观经 验来了解哪些警报状况需要被解决。如所述,为操作人员呈现的、以 使其能够作出谁是最危急警报的最恰当决定的警报状况相关数据的总 量是有限的。鉴于上述内容,需要这样的警报管理系统,其可以对照其他警报 状况来动态评定某个警报状况,其中对照新、旧警报状况以及其他网 络信息来持续地对该警报状况进行分级。此外,还需要这样警报管理 系统,其能将新、旧警报状况相互对照对其进行分级,以便将其呈现 给操作人员来加以解决。该警报管理系统还需要能够对照附加考虑来 对警报状况进行评定和分级。附图简述在附图中,相同的附图标记在各个视图中始终指的是相同或功能 相似的元素,该附图连同下文中的详细描述一起将并入并构成说明书 的一部分,所述附图用于进一步示出各种实施例,以及对依照本发明 的各种原理和优点进行说明。
图1是使用了本发明某些实施例的无线通信系统和网络的框图的 例子。图2是根据本发明原理的警报管理系统的例子。图3是示出了根据本发明原理、根据实时因素来为警报和故障区 分优先次序的方法的流程图。图4是示出了根据本发明原理来为警报状况进行分类的方法的流 程图。
图5是示出了根据本发明原理执行的可动作警报监视的步骤的流 程图。图6是示出了根据本发明原理执行的警报处理的监视功能的流程图。图7是示出了根据本发明原理的意外情况鉴定(qualification)例 程的流程图。图8是示出了根据本发明原理的意外情况鉴定机制的流程图。 图9是根据本发明原理来显示警报状况的用户界面。技术人员可以理解的是,附图中的元素是出于简明目的而被图示 的,并且没有必要按比例绘制。例如,在附图中,某些元素的尺寸有 可能相对其他元素被放大,用于帮助改善对本发明实施例的理解。
具体实施方式
在详细描述依照本发明的实施例之前,应该注意到,这些实施例 主要存在于方法步骤和装置部件的组合之中,其中所述方法步骤和装 置部件涉及根据包括服务降级在内的实时状况来为网络故障和警报动 态区分优先次序的处理。相应地,在附图中,已酌情使用常规符号来 表示这些装置部件和方法步骤,仅仅显示了与理解本发明的实施例相 关的具体细节,以免本公开与易于得益于本描述的本领域普通技术人 员所理解的细节相混淆。在本文中,诸如第一和第二、顶部和底部等的关系术语仅仅用于 将一个实体或动作与另一个实体或动作区分开来,而不必需要或者暗 示这些实体或动作之间实际具有此类关系或顺序。术语"包括"、"包 含"或它们的其他变体旨在包含非排他性的包含,由此,对包含了一 系列元素的过程、方法、制品或装置来说,它们不但包含这些元素, 而且还可以包含那些没有明确列举或是此类过程、方法、制品或装置 固有的其他元素。在没有更多限制的情况下,处于"包含一个……" 之后的元素并不排除在包含该元素的过程、方法、制品或装置中还存
在附加的相同元素。应该了解的是,这里描述的发明的实施例可以包括一个或多个常 规处理器以及唯一存储的程序指令,其中所述程序指令对一个或多个 处理器进行控制,以便结合某些非处理器电路来执行这里描述的根据 包括服务降级在内的实时状况来动态地为网络故障和警报区分优先次 序的方法和系统所具有的某些、大部分或所有功能。这些非处理器电 路包括但不局限于无线电接收机、无线电发射机、信号驱动器、时钟 电路、电源电路以及操作者输入设备。同样,这些功能可以被解释成 用于根据包括服务降级在内的实时状况来动态地对网络故障和警报执 行优先化处理的方法的步骤。作为替换,某些或所有功能可以由未存 储程序指令的状态机来实施,或者实施在一个或多个专用集成电路(ASIC)中,在ASIC中每一个功能或某些功能的某些组合是作为定制逻辑来实施的。当然,也可以使用这两种方法的组合。由此,在这 里描述了用于这些功能的方法和装置。此外,还可以预期的是,虽然 有可能会受诸如可用时间、当前技术以及经济考虑的推动而进行相当 多的努力或者做出很多设计选择,但当得到了这里所公开的概念和原 理的指引时,普通技术人员很容易就能以最少的实验来产生这种软件指令、程序和IC。本发明为包括无线通信系统在内的系统提供了一种动态地为网络状况区分优先次序的方法。该方法包括接收用于指示系统内部设备 中断、故障或错误的多个警报状况之一。警报状况也可以被认为是与 网络性能和网络配置相关的数据,并且在这里将其理解成向操作人员 通告网络内部问题的警报以及与网络相关的数据。警报状况可能对系 统操作具有负面影响。该方法继之以将所述警报状况归类为若干种不 同警报状况之一,其中所述不同警报状况包括警告、不可动作(non-actionable)警报、可动作警报以及影响系统的警报。此外,设 备及与警报状况相关联的资源池内部的它的相关对等设备的状况被确 定,以便本发明了解所述设备处发生了什么以及可用的相关对等设备
来满足资源要求。由此,本发明得知该设备是可操作的、不可操作的, 或者警报状况怎样影响设备和系统。然后,通过将警报状况的类别与报告所述警报的设备以及处于相 同资源组或池中的设备的状态进行比较,来作出对警报状况的评定。 由此,警报状况的影响可以被理解。
一旦作出对警报状况的评定,就 可以对照已被评定的其他警报状况来对该警报状况分级。举个例子, 如果某个警报状况具有用于表明显著影响系统的评定,那么该警报状 况的级别将高于对系统的显著影响较小的警报状况。继续,通过重复用于确定当前在所述设备及其在可用资源池中的 相关对等设备上需要的资源要求的步骤,本发明将继续地重新评估警 报状况的分级,并且评定警报状况。 一旦重复了这些步骤,接下来, 该方法对照其他警报状况来对重新评估的警报状况进行分级。可以理 解,警报状况的分级和重新分级是针对每一个警报状况而动态执行的, 因此,所有警报状况的分级都可以不断改变。该方法还可以包括确定 过去的系统和设备性能并与之进行比较的步骤。这提供某个警报状况 关于整个系统以及关于其他警报状况的更好理解。本发明还提供了一种动态警报管理系统。该警报系统包括接收机, 其中该接收机获取包含于该警报管理系统所监视的系统中的至少一个 设备的警报状况。还提供了处理器,该处理器与接收机耦合,并且在 接收到警报状况以及接收到附加警报状况的时候对警报状况进行处 理,并且在初始接收到警报状况之后对其执行周期性处理。为了动态 处理每一个警报状况,处理器将警报状况分类为若干个不同类别之一。 该类别可以包括警报的严重性级别,由此可以将网络设备停机分类为 高影响状况,而将数据传输中的错误分类为不可动作的警报状况。处理器还将确定设备以及报告该警报的资源组内部的对等设备的 状态。该状态可以包括设备是可操作的还是不可操作的,并且还可以
顾及设备的过去性能。 一旦确定了设备状态,处理器就通过将该警报 状况的类别与设备以及资源组内部的对等设备的状态进行比较,来对 警报状况进行评定。这个评定通过考虑不同因素来为该警报状况的初 始分类提供附加值。这些因素可以包括设备上的在先警报状况、当前 和过去的网络状况和使用情况等等。然后,对照已被处理或是正被处 理的其他警报状况来对警报状况的评定进行分级。由于处理器操作的动态评估警报状况,因此,通过重复以下步骤 来重新评估已评定的警报状况确定设备以及资源组内部的对等设备 上的所需资源要求,以及通过将可用资源与具有警报状况类别的设备 所需要的资源进行比较来对警报状况进行评定。然后,处理器对照经 重新评估的警报状况彼此来对其进行重新分级。在本发明的实施例中, 其中还包含了显示器,其中该显示器可以向网络操作人员呈现已分级 的以及重新分级的警报状况,以便该警报状况能够被解决。参考图1,该图显示的是使用本发明的动态警报管理系统的系统 100的框图。虽然本发明适用于任何一个具有通过彼此协作来创建系统 的多个设备的系统,但本发明是在诸如码分多址(CDMA)、全球移 动通信系统(GSM)或通用移动电信系统(UMTS)蜂窝通信系统之类 的无线通信系统的上下文中描述的。系统100包括多个基站102,这些 基站通过无线信道与多个移动站104进行通信。该系统还可以包括多 个网络设备,并且这些网络设备通过与基站102协作来实现移动通信。 这些网络设备包括耦合到基站的移动交换中心108,用于控制基站102 与移动站104之间的通信。此外,还可以提供网关IIO,其用于将系统 100与受控于不同网络设备的其他通信系统链接。该系统还包括用于监视整体系统性能的设备112。设备112可以包 括本发明的警报管理系统114。该警报管理系统114可以包括接收机 116,该接收机116接收与网络内部的设备性能相关的数据,其中该数 据包括由设备或警报管理系统114的部件检测的警报状况。此外,该
警报管理系统包括处理器118,该处理器118耦合到接收机116,以便处理通过系统接收的警报状况。图2提供了关于本发明的警报管理系 统114以及在系统100中提供动态监视警报状况的功能的部件的框图。 该警报管理系统可以包括多个不同的监视系统,包括但不局限于故障 管理系统202、性能管理系统204、配置管理系统206以及问题管理系 统208。由监视系统IOO并且检测和解决警报状况的网络工程师、计划 者、管理者以及技术人员来使用这些系统。该警报管理系统还包括数 据储存库210,并且该数据储存库210存储由警报管理系统接收、使用 和创建的数据。图3描述的是根据本发明原理、由警报管理系统114使用的过程 300的流程图。警报管理系统通过接收机116来接收302已在系统100 内检测到的警报状况。该警报状况可以由遍及整个系统100部署的任 何不同监视系统来检测,包括故障管理系统202、性能管理系统204、 配置管理系统206、问题管理系统208或在系统100内使用的其他任何 系统。此外,警报状况可以由网络设备来检测,其中该网络设备包括 但不局限于基站102、移动站104以及移动交换中心106。由警报管理 系统114接收的警报状况可以包括但不局限于设备停机、由此类设备 创建的错误、传输错误、性能数据和配置数据。然后,由处理器118 处理接收到的各种警报状况。为了开始处理警报状况,该方法对警报状况进行分类304。为了对 警报状况进行分类,处理器将接收到的警报状况归类到多个不同的警 报状况类别中,例如不可动作和可动作警报状况。该分类过程可以包 括节流和阈值过滤过程,并且在下文中将对其进行更详细的论述。在 本发明的实施例中,被分类为不可动作的警报状况既可以被丢弃,也 可以作为将要作为警报管理系统使用的数据储存库的一部分被存储 306。不可动作警报可以被认为是向监视系统之一告知这样的网络状况 的警报,该网络状况未必会对系统或设备的操作产生不利影响,而是 出于统计等目的被监视。不可动作警报还可以是无法通过解决设备以 及可供警报管理系统114使用的方法来解决的警报。此外,不可动作 警报可以是系统114因为其他情况而无法在某个时间点解决的以及将 被解决的或因为时间流逝而变得没有实际意义的那些警报。当不可动作警报作为数据储存库的一部分被存储时,被分类为可 动作警报的警报状况受到可动作警报监视进程的进一步监视。该可动作警报监视将可动作警报排序308成用于动作的实际警报状况以及在排序时未被作用的可动作警报。对可动作警报进行排序的一个例子包括根据警报状况系统114中的可变设置或是根据系统100或系统设 备内的状况来临时抑制某些类型的警报状况。此外,某些警报状况可 以具有自动恢复选项,而警报调节系统100则可以在不需要警告网络 操作人员的情况下启动这些选项。排序步骤308的结果是警报管理系 统有可能需要对其采取行动的警报状况。这些可动作警报还可以与已 被存储的那些不可动作警报一起被存储309在数据储存库210中。这 些已存储的警报状况既可以用于统计目的,也可以在下文更详细描述 的本发明的其他部分中使用。作为上述的分类和排序的结果,警报管理系统114创建了一组潜 在的可动作的意外情况或系统114可以作用的意外情况。然后执行进 一步的排序,作为意外情况鉴定310的一部分。如下文中更详细描述 的那样,意外情况鉴定借助系统100以及系统内的设备的配置和状态 来确定312可动作警报是否有可能影响到服务。类似的不可动作警报、 不影响服务的警报作为数据储存库的一部分被存储。由于当其他影响 服务的警报被解决或正处于被解决的过程中时,可以对不影响服务的 警报采取动作,也可以不对其采取动作,因此,这些不影响服务的警 报是作为可动作警报来存储的。影响服务的警报也作为数据储存库210 的一部分被存储,并且根据类别被记录。这些影响服务的警报可以被 存储且被称为意外情况。由此,作为警报状况分类的一部分,根据各 种参数来确定警报的不同类型,并且在数据储存库中存储关于已分类 警报状况的记录,以供系统在继续进行的警报状况分类中使用,以及
用于对这些警报状况进行评定和分级。可以理解的是,需要在其他可动作和不可动作警报之前解决影响 系统100的服务的意外情况。无论警报状况具有怎样的类别,该警报 状况都需要被评定和分级。在本发明的实施例中,对影响服务的警报 状况进行评定。应该理解的是,同样可以对可动作和不可动作警报进行评定。根据本发明的原理,对警报状况进行评定314将会注意到(lookto)许多因素,包括但不限于将已分类警报状况与服务质量影响进行比较。服务质量影响可以包括确定316报告警报状况的设备以及与报告警报状况的设备一起工作或受其影响的设备的当前状况。这些当前状 况可以包括设备上的负载。例如,报告警报状况的基站可能在高峰时 间位于高速公路附近,或该基站可能在午夜位于农夫的田地中。同一 警报状况对这些基站中的每一个的影响非常不同。此外,在高峰时间 和夜间时间期间对高速公路基站的影响也可能非常不同。因此,为了评定警报状况的影响,设备的状况或状态被确定。在 一个实施例中,警报管理系统向发出报告的设备发送消息,以便将服务质量数据发送给系统114。可以向其他设备发送类似的消息,以便更 完整地理解警报状况对系统100或系统的部分的影响。在另一个实施 例中,报告意外情况的管理系统202~208获取当时的设备状况和状态。 然后,警报状况和设备状态被同时共同发送到警报管理系统114。可以 通过检查数据储存库210而将报告警报状况的设备的历史包含在该过 程中。这种检查将确定设备是否在过去在相似的环境中经历了相似的 警报状况,而这将会表明该警报状况是慢性的,并且无论其严重性怎 样都应该尝试解决该警报状况,或者确定设备已经具有数量过多的警 报,而这将会表明设备存在一般性问题。数据储存库210具有与指定 时段上的设备和警报状况相关的详细信息。如所述,本发明确定具有警报状况的设备的状态。此外,本发明 还可以确定在系统100内共同操作的设备的资源池或资源组的状态。
由于资源池或组中的其他资源和设备可以补偿或者进一步加强警报状 况,因此,这可能影响到设备状态的判定。例如,处于具有多个基站102的小区内的基站102可以经历警报状况。如果小区内的其他基站可 以补偿报告警报的基站102,资源池状态的严重性有可能低于孤立的基 站102的状态。作为替换,如果影响到多个基站102的警报状态被报 告给交换中心106,那么资源池的状态有可能比孤立的交换中心106的 状态更为严重。然后,警报管理系统114通过将警报状况的类别与设备的状态和 状况进行比较来评定该警报状况。由此,举例来说,与设备上的业务 量相对较低的其他时间相比,当设备上的业务量较高时,基站102的 同一警报状况将具有较高的评定。然后,警报管理系统可以对经过评定的警报状况进行分级318。分 级是通过将一个警报状况的评定与其他警报状况进行比较来执行的。 对系统影响最大的警报状况将被给予反映该影响的等级。当以上述方 式评定了每一个新的警报状况时,将对照其他已被评定和分级的警报 状况对其进行分级。具有最高等级的警报状况即为影响最大的警报状 况,可以将所述警报状况显示320给系统100以及管理系统202-208 的操作人员。此外,可以显示任何指定数量的已分级警报状况。为了增加本发明的功能并且使分级动态化,本发明重复执行上述 步骤,以便确保初始评价仍旧恰当。相应地,本发明的实施例再次确 定322报告警报状况的设备的状态,并且通过比较警报状况的类别与 设备状态来重新评定324警报状况,由此对每一个警报状况进行动态 分级。借助重新确定和重新评定的警报状况,可以对照其他警报状况 对它进行重新分级326。可以在警报状况的影响未必明显不利于设备或 系统的时候报告一次该警报状况,如在日间的低使用时间被报告的警 报状况。但是随着警报状况所影响的设备上的使用增加,该影响有可 能会增大,而对其他设备的影响则有可能减小。例如,在清晨高峰时
间期间,随着警报状况对通向城市的高速公路的边远区域的影响的减 小,该警报状况对城市商业区的影响增加。由此,由于增加的业务量,在上午5:00为低评定的警报状况有可能在上午9:00为高评定的警报状 况。当接收到新的警报状况,可以调度本发明的动态特性来操作,或 是周期性地进行操作,例如以指定时间间隔进行操作。系统100和管理系统202~208的操作人员可以选择最恰当的警报 状况来加以解决。所选择的警报状况既可以是最高级别的警报状况, 也可以是已被分级的别的警报状况。然后,操作人员执行必要的步骤 来解决328该警报状况。随着警报状况被解决,将这些警报状况从显 示中移除330,并且将其从分级中移除。在警报管理系统114的操作期 间,周期性地产生332报告。此类报告可以是经过整理的信息报告, 该信息报告具有与意外情况相关的所有历史信息,包括但不局限于相 关设备的实时状态。另一个报告可以是问题解决报告,其中该报告是 获取问题解决管理系统的拨号(dialing)活动的概要报告。也可以由其 他管理系统202~208来产生类似的报告。图4是用于对呈现给本发明的警报管理系统114的警报状况进行 分类400的步骤的流程图。如所述,在将警报状况报告给警报管理系 统114时,该警报状况被分类402为可动作警报状况和不可动作警报 状况。然后,可动作警报状况被节流404,以便减少重复警报的数量。 因此,初始警报状况被表示为警报状况,而重复的警报状况则被注释 成是不可动作的警报。此外,可动作警报还可以被阈值化406,对指定 警报状况在所设置的时间范围中在特定设备上发生的次数进行计数, 以便确定该警报状况的数量是否证明该警报到可动作警报的升级。在 不满足该阈值时,那么警报状况是不可动作的。还可以通过挑选出多 警报意外情况中的主要警报来关联407警报状况。由此,多警报意外 情况中的次级警报可以被抑制,而主要警报则可以被解决。警报还可 以在未经任何处理的情况下被立即分类为可动作警报状况408。可动作 警报状况可以被进一步升级,以便成为意外情况410并且由意外情况 ,这一点将会在下文中被描述。对未被进一步升级的可动作警报来说,可动作警报状况然后可以 作为可动作警报来处理。警报管理系统114可以将警报属性设置412成动作,并且创建414性能管理(PMS)警报事件,以便进行存储416。 然后,警报管理系统为特定网络元件更新418可动作警报列表,其中 所述设备是该特定网络元件的成员。对不可动作的警报以及通过节流、阈值化和关联机制而被确定成 是不可动作的那些警报来说,这些警报首先根据其类别以及其他相关 信息而被记录420到数据储存库210中。该警报管理系统114可以将 警报属性设置422成无动作,并且创建424性能管理系统(PMS)警 报事件,以便进行存储。对于在节流、阈值化和关联了警报状况之后被注释成是可动作的 那些警报来说,由增强型警报处理系统(EAP)对这些警报进行进一步 分类,增强型警报处理系统(EAP)是警报管理系统114的一部分,并 且其方法示于图5中。EAP是以检査502可动作警报的警报状态而开 始的。如果警报状态设置是清除,那么EAP检查504警报管理系统114 的可动作警报监视的任何未完成的自动恢复意外情况。如所述,自动 恢复警报是在没有警报管理系统114或操作人员的帮助下被解决的警 报状况,并且它是由管理系统或设备自动解决的。如果这样,那么如 结合图6所描述的那样,这些警报被继续监视506。如果没有未完成的 自动恢复意外情况,那么EAP将警报属性设置成508无动作,并且创 建510PMS警报事件,以便进行存储。由此,对警报状况的处理结束。对那些被确定成警报状态为置位(set)的警报状态来说,EAP确 定512是否为该警报设置了自动恢复。如果设置了警报恢复,那么EAP 检查514用于报告警报状况的设备的恢复计数器,并且确定是否超出 该恢复计数器。恢复计数器指示的是特定警报状况已经发生的次数。
如果尚未超出恢复计数器,那么EAP为设备启动518自动恢复。自动 恢复是可供设备和警报管理系统114在没有系统内部或外部的其他资 源介入的情况下解决警报状况的处理。为警报状况创建520设备复位 请求,并且创建522 PMS警报事件。如果超出了恢复计数器,则创建 524 PMS恢复超出事件,并且设置526该动作的警报属性,以便创建 528 PMS警报事件。然后,EAP继续以执行如下所述的意外情况鉴定。返回到确定自动恢复被设置的步骤512,如果没有设置自动恢复, 那么确定530网络元件是否可以执行自动恢复。如果网络元件或设备 可以执行自动恢复,那么EAP检查532恢复计数器,并且确定是否超 出534 了该恢复计数器。如果超出了该计数器,那么EAP创建PMS恢 复超出事件524,并且在启动下文描述的意外情况鉴定处理之前执行步 骤526和528。如果没有超出该恢复计数器,那么EAP创建536 PMS 恢复启动事件,并且设置538恢复定时器以及递增该恢复计数器。然 后,EAP继续以将警报属性设置成540动作。然后创建542警报事件, 并且EAP创建544PMS恢复未成功事件。然后,该过程可以继续执行 如下所述的意外情况鉴定。在步骤530,如果设备无法执行自动恢复,则确定550该设备是否 受EAP管理,凭借该EAP警报管理系统114有能力解决该警报状况。 如果该设备不是受到管理的设备,那么用于可动作警报的警报属性被 设置成552动作,并且创建554 PMS警报事件,且该例程结束。如果 设备是受到管理的设备,则设置556用于可动作警报的警报属性,并 且创建558 PMS警报事件。然后,不是结束例程,而是该例程继续执 行如下所述的意外情况鉴定。如上所述,由于所描述的增强型警报处理例程对警报进行临时性 抑制并且发起其自身的自动恢复序列,因此,较为理想的是用非警报 事件来替换警报。通过这样做,可以警告操作人员系统正处于自动 恢复任务的过程中,并且该系统提供可以回溯(roll up)到概要报告以
及在对警报状况进行评定和分级的过程中使用的记录。至少存在四种 不同的恢复事件,包括系统恢复动作启动、系统恢复动作成功、系统 恢复动作未成功以及系统动作恢复尝试超出。当EAP接收到服务终止 警报时,动作启动事件产生并且展示给操作人员。由于警报管理系统 114将监视警报直到恢复成功或不成功地结束,因此,这样做允许操作 人员实时看到恢复过程。当恢复尝试成功结束时,产生动作成功事件。当设备断定恢复未成功时,产生动作未成功事件。当警报管理系统114确定设备超出其恢复尝试并且警报也升级为可动作来跳过恢复定时器 超时的时候,产生恢复尝试超出。图6示出警报管理系统114的步骤600,其中所述步骤是在警报状 态为清除时,可动作警报监视确定是否存在未完成的自动恢复处理的 情况下执行。首先,EAP清除602恢复定时器。然后,EAP继续以将 警报属性设置成604不可动作,随后创建606警报事件。在结束例程 之前,EAP创建608 PMS恢复成功事件。转到图7,该图示出本发明的意外情况鉴定例程700。这里,警报 被分类为可动作,并且它是对照系统100中的被管理设备被分类的。 步骤702检查警报来源。如果警报源自性能管理(PM)服务器,那么 该警报在理论上必定具有服务影响。由此,创建意外情况事件(incident event),并且该过程识别和获取704在提供受服务影响事件影响的相 同系统服务的同一资源池内的每一个设备。创建706 PMS效用意外情 况事件。如果警报并非源自PM服务器,则需要査询708来获取配置,以 便识别在具有提供的备份功能的系统100内的其他冗余设备。如果关 于其他设备的确定710是肯定的,则使例程返回到步骤704。如果该确 定710是否定的,则确定712意外情况(incidence)冗余度。如果没有 设置冗余度选项,那么该例程结束。如果存在冗余意外情况选项,则 创建意外情况事件,并且该过程识别和获取714受服务影响事件影响
的设备。创建716PMS效用意外情况事件。当容量降级或完全故障有可能对系统100产生某种程度的服务影响时,警报状况是"意外情况"警报。此外,在没有附加数据的情况 下通过查看孤立的警报事件不容易辨别服务影响的相对程度。通过应 用加权或成本模型来评定警报状况,以及将其从高成本(最大使用率 损耗)到低成本进行分级,可以保持简单的报告,该报告为操作人员 提供高级报告,该高级报告强调了那些对整体服务使用率具有最大影 响并且由此需要操作人员近期处理和解决的警报。一旦接收到意外情况事件,意外情况分级模块将根据先前存储的 与设备相关的测量来运行评定算法。然后,该意外情况被记入日志, 并且评定被附加到所述意外情况事件,用于可能的参考。这些是在周 期性间隔期间获取的测量或统计,并且警报状况被报告。 一旦确定评 定,该评定与其他意外情况的评定比较。取决于由所述比较创建的分 级,可以将所述警报状况作为评定和分级机制的一部分来加以显示。图8示出的是在PMS接收到802意外情况事件以及确定804所述 意外情况是置位还是清除的时候、对意外情况或警报状况进行分级的 过程。如果PMS接收到其状况为意外情况置位的意外情况事件,那么 PMS评定806该意外情况,并且将该意外情况记入日志808。还创建 810关于所述评定的记录。然后,PMS将该意外情况添加到812有效 意外情况列表中,并且系统114更新814如下所述的适当用户界面。 如果PMS系统接收到其状况为意外情况清除的意外情况事件,那么该 例程创建816 PMS清除意外情况事件、将该意外情况记入日志818, 以及将该意外情况820从活动列表移动到历史列表,并且更新814适 当用户界面。使用率意外情况算法(utilization incident algorithm)也作为本发 明的一部分被开发。该算法可以表述为(AW+BX+CY+DZ) +VIP,其
中VIP是代表多个级别的状态的固定数量的一个选择组。对于VIP, 每一个系统可以具有不同集合的值。W代表第一时段(例如警报状况 发生之后的第一个小时)中的总体损耗使用率单元,其中如果系统ioo 内需要的资源少于或等于可用资源,那么损耗使用率将被计算为零。否则,损耗使用率等于所有累积(pooled)资源总和的总测量使用率减 去所累积的所有已配置资源的总体可能使用率。X代表另一个时段(例 如警报状况发生之后的前24小时)中的总的损耗使用率,其中如果所 需要的资源少于或等于可用资源,那么损耗使用率被计算为零。否则, 该损耗使用率等于所有累积资源总和的总测量使用率减去所累积的所 有已配置资源的总体可能使用率。Y代表在指定间隔以内的指定时段 的使用率。Z代表在指定时段中用于累积资源总和的总体使用率损耗。 还开发了可用性意外情况评定算法,该算法可以表述为 (AW+BX+CY+DZ) *AGE,其中AGE是计数器,该计数器每隔一个 指定时段便递增。例如,每隔24小时的时段,AGE可以递增大小为.25 的值。当然,根据系统需求以及所监视的警报状况,也可以使用不同 的算法。图9示出的是作为本发明一部分的、显示可动作警报和意外情况 的用户界面900。该用户界面由系统100和管理系统202-208的操作人 员使用,以针对和解决警报状况和意外情况。该用户界面900包括由 网络元件(诸如基站或其他网络设备)产生的警报列表902,以及警报 分级列表卯4。此外,还可以提供意外情况报告部分906,该部分将那些已被评定的警报状况作为影响服务的意外情况来加以报告。提供了 表格菜单卯8,以便允许操作人员根据所起到的作用或操作人员的偏好来改变用户界面900的视图。由此,可以依照不同的警报状况来为基 站102或其他网络设备提供显示。警报列表902可以具有众多不同的配置,并且列举出报告给警报 管理系统的警报状况。在一个实施例中,警报列表902包括最近的警 报,而在另一个实施例中,该警报列表依照网络元件和设备将相同的 警报分类在一起,或者将具有类似严重性级别或分级的警报状况分类 在一起。可以理解,可以根据需要、需求以及偏好、以警报管理系统 114的每一个不同操作人员所特有的方式来配置警报列表902。警报分级列表904是警报列表的子集,其中该列表获取警报或意外情况分级,并且按照分级顺序来显示指定数量的警报。这为操作人 员提供了查看最为突出的警报状况以及确定需要解决这些警报状况的能力。如上所述,警报分级列表904可以是动态地,以便它根据网络 状况而发生周期性变化。这样一来,已分级事件可以根据状况而不仅 仅是因为问题已被解决而在列表中上下移动。在本发明的实施例中,警报分级列表904可以链接到警报列表 卯2。由此,如果操作人员选择了警报分级列表上的警报,那么该操作 人员可以通过警报列表902来访问关于该警报的可用信息。警报列表 902和警报分级列表904可以显示警报状况以及系统114所具有的关于 该警报的信息。此类信息可以包括受警报状况影响的一个或多个设备 以及这些设备的状态。从报告警报状况时起的时间间隔,警报状况作 用于系统100的警报状况影响,以及其他相关信息。如上所述,数据储存库210可以是用于本发明的警报管理系统114 的存储器位置。该数据储存库存储了关于警报管理系统所了解的不同 警报状况的数据。此外,它还存储了系统100和设备在某个时段中与 设备呈现的当前和过去警报状况无关的状况的数据。当警报管理系统 114开始操作时,它可以轮询设备并且获取与设备状况相关的初始信 息。每一个附加数据点都可以被添加。当存储器位置全满时,可以使 用已知方法来合并数据点或删除较早的数据。在本发明的实施例中,警报管理系统114和操作人员界面卯0可 以与用于确定警报状况的管理系统202~208链接。这些与管理系统 202-208的连接可以用于解决警报状况。由此,当选择了要解决的警报
状况时,警报管理系统114访问管理系统202-208的组件和例程,以 便解决警报状况。在以上说明书中,描述了本发明的具体实施例。但是,本领域技 术人员应该了解,在不脱离下列权利要求所属的本发明范围的情况下, 各种修改和变更都是可行的。相应地,本说明书和附图应该被视为说 明性而不是限制性的,并且所有这些修改都应该包含在本发明的范围 以内。这些益处、优点、问题解决方案以及可能导致产生任何益处、 优点或解决方案或者使之更为显著的一个或多个任何元素不应该被解 释成是所有或任何权利要求的关键、必要或必需的特征或元素。本发 明仅仅由附加权利要求限定,所述权利要求包括在本申请的未决期间 做出的任何修正以及所发布的权利要求的所有等价物。
权利要求
1. 一种动态地区分通信系统网络状况的优先次序的方法,该方法包括接收用于指示所述通信系统内的设备故障的多个警报状况之一;对所述警报状况进行分类;确定所述设备的状态;通过将所述警报状况的类别与所述设备的状态进行比较来评定所述警报;通过对照所述多个警报中的其他警报来对所述评定的警报状况进行分级;通过重复所述确定和评定步骤来重新评估所述警报状况的分级;以及对照所述多个警报中的其他警报来对重新评估的评定的警报状况进行分级。
2. 根据权利要求l所述的方法,其中确定所述设备的状态的步骤 包括将所述设备的状态与所述设备的至少一个先前状态进行比较。
3. 根据权利要求l所述的方法,其中对所述警报状况进行分类的 步骤包括将所述警报状况分类为下述各项中的一个不可动作的状 况、可动作状况、以及影响服务的状况。
4. 根据权利要求l所述的方法,其中所述确定步骤包括确定系 统容量的配置。
5. 根据权利要求l所述的方法,还包括计算所述设备的使用率 估计。
6. —种用于多设备系统的动态警报管理系统,该警报管理系统包括接收机,用于接收至少一个所述设备的警报状况以及与所述系统 中所述多个设备的状态相关的数据,以及与所述接收机耦合的处理器,其中所述处理器对所述警报状况 进行分类;确定所述设备的状态;通过将所述警报状况的类别与所述 设备的状态进行比较来评定所述警报状况;通过将已评定的警报状况 与其他警报状况进行比较来对所述警报状况进行分级;通过重复确定 所述设备状态的步骤以及通过将所述警报状况的类别与所述设备的状 态进行比较来评定所述警报状况的步骤,来重新评估已评定的警报状 况;以及,通过将重新评估的警报状况与其他警报状况进行比较来对 已评定的警报状况进行重新分级。
7. 根据权利要求6所述的系统,还包括显示器,用于显示所述 分级的警报状况以及所述重新分级的警报状况。
8. 根据权利要求6所述的系统,其中所述处理器还监视网络状况 并且将所监视的网络状况存储在存储器中。
9. 根据权利要求6所述的系统,其中所述处理器通过将所述设备 的实际使用率与所述设备的历史使用情况进行比较来进行分级。
10. 根据权利要求6所述的系统,其中所述处理器还比较用于为 所述警报状况区分优先次序的加权因数。
全文摘要
本发明公开的是一种用于动态区分通信系统(100)的网络状态的优先次序的警报管理系统(114)的方法和装置。该警报管理系统包括接收机(116)和处理器(118),用于接收指示通信系统内的设备故障的多个警报状况之一,并且用于对警报状况进行分类。该警报管理系统还确定设备状态,并且通过将警报状态类别与设备状态进行比较来评定所述警报。然后,可以对照所述多个警报中的其他警报来对经过评定的警报状况进行分级。之后,警报管理系统通过重复确定和评定步骤来重新评估警报状态的分级,并且随后对照其他警报状况来对重新评估的评定的警报状况进行分级。
文档编号G08B29/00GK101401135SQ200780009171
公开日2009年4月1日 申请日期2007年2月22日 优先权日2006年3月14日
发明者戴维·J·内斯·科恩, 杰西·M·基勒, 法兰克·D·米勒 申请人:摩托罗拉公司