用于在云网络中进行快速灾难恢复准备的方法和设备的利记博彩app
【专利摘要】各种实施方式提供了一种用于在云网络中提供快速灾难恢复准备的方法和设备,所述方法和设备主动检测灾难事件并快速分配云资源。快速灾难恢复准备可以通过在恢复业务的激增冲击恢复应用/资源之前主动增加恢复应用/资源的性能来缩短恢复时间目标(RTO)。而且,快速灾难恢复准备可以通过比在“正常操作”期间更快地增加性能来缩短RTO,在“正常操作”中在负载超过使用阈值后通过一段时间的适度增加来提高性能。
【专利说明】用于在云网络中进行快速灾难恢复准备的方法和设备
【技术领域】
[0001] 本发明总体上涉及一种用于提供云网络中的灾难恢复的方法和设备。
【背景技术】
[0002] 本部分介绍有助于促进对本发明更好地理解的方面。因此,要从这个角度阅读本 部分的描述,而不应该将本部分的描述理解为承认什么是现有技术,什么不是现有技术。对 地理冗余数据中心的服务恢复可以保证使主数据中心站点对服务不可用的不可抗力或灾 难事件后的业务连续性。在一些已知的云网络灾难恢复方案中,用于应用的云资源基于传 统的资源分配方案被分配。这些方案通常增大和缩小分配的应用资源以响应由灾难事件造 成的新模式的进入的应用请求。
[0003] 在一些其他的已知的灾难恢复方案中,系统的某些部分可以包括过剩的资源,从 而满足预计的灾难恢复资源需求。
【发明内容】
[0004] 各种实施方式提供了一种用于在云网络中提供快速灾难恢复准备的方法和设备, 所述方法和设备主动检测灾难事件并快速分配云资源。快速灾难恢复准备可以通过在恢复 业务的激增冲击恢复应用/资源之前主动增加恢复应用/资源的性能来缩短恢复时间目标 (RT0)--需要在灾难事件之后还原恢复数据中心中的用户服务的时间。而且,快速灾难恢 复准备可以通过比在"正常操作"期间更快地增加性能来缩短RT0,在"正常操作"中在负 载超过使用阈值后通过一段时间的适度增加来提高性能。有利地,检测灾难事件并安排快 速扩大云网络资源到恢复站点降低了网络阻塞、饱和或超载的风险而不需要保留过剩的资 源,从而加速了对受影响用户的服务恢复。
[0005] 在一个实施方式中,提供了一种用于提供快速灾难恢复准备的设备。该设备包括 数据存储器和通信耦合到所述数据存储器的处理器。所述处理器被配置成监测来自第一网 络资源的网络度量,基于接收的网络度量确定已经发生了影响第二网络资源的可用性的灾 难条件,并发送灾害预警警报消息到第三网络资源。其中第一、第二和第三网络资源是不同 的资源。
[0006] 在上述一些实施方式中,监测的网络度量包括监测的业务流量。监测的业务流量 包括一个或多个流量值。
[0007] 在上述一些实施方式中,对灾难条件发生的所述确定是基于检测到监测的业务流 量被中断而做出的。
[0008] 在上述一些实施方式中,对灾难条件发生的所述确定是基于检测到监测的业务流 量具有异常的流量模式而做出的。
[0009] 在上述一些实施方式中,监测的网络度量包括预警机制信息。
[0010] 在上述一些实施方式中,所述预警机制信息为外部的传感器信息。
[0011] 在上述一些实施方式中,对灾难条件发生的所述确定是基于置信水平而做出的。
[0012] 在上述一些实施方式中,对灾难条件发生的所述确定还包括处理器被编程以确定 灾难严重等级。
[0013] 在上述一些实施方式中,处理器还被编程以:分析多个网络资源,基于多个网络资 源确定灾难恢复建议,和基于灾难恢复建议选择第三网络资源。
[0014] 在上述一些实施方式中,处理器还被编程以基于灾难恢复建议选择第三网络资 源。
[0015] 在上述一些实施方式中,处理器还被编程以基于灾难恢复建议创建灾难预警警报 消息。
[0016] 在第二实施方式中,提供了一种用于提供快速灾难恢复准备的设备。该设备包括 数据存储器和通信耦合到所述数据存储器的处理器。所述处理器被编程以:接收灾难预警 警报消息和执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使用阈值之前增 加网络资源。
[0017] 在上述一些实施方式中,所述快速弹性增加操作还包括当超过使用阈值时大于分 配的资源的正常增加速率的两倍的增加速率。
[0018] 在上述一些实施方式中,所述快速弹性增加操作还包括基于接收的灾难预警警报 消息的增加速率。
[0019] 在上述一些实施方式中,处理器还被编程以:监测业务负载,基于监测的业务负载 确定灾难条件不存在,以及响应于灾难条件不存在的确定,而执行弹性缩小操作,所述弹性 缩小操作释放至少一部分网络资源的增加。
[0020] 在第三实施方式中,提供了一种用于提供快速灾难恢复准备的系统。该系统包括: 至少一个网络资源,多个数据中心,和通信耦合到所述至少一个网络资源和所述多个数据 中心的资源监视器。所述多个数据中心包括灾难影响的数据中心和恢复数据中心。资源监 视器被编程为:从至少一个网络资源接收网络度量,基于接收的网络度量确定发生了影响 灾难影响的数据中心的可用性的灾难条件,并发送灾害预警警报消息到恢复数据中心。所 述恢复数据中心被编程为:接收所述灾难预警警报消息并执行快速弹性增加操作,所述快 速弹性增加操作包括:在超过使用阈值之前增加网络资源。
[0021] 在上述一些实施方式中,所述快速弹性增加操作还包括当超过使用阈值时大于分 配的资源的正常增加速率的两倍的增加速率。
[0022] 在上述一些实施方式中,所述快速弹性增加操作还包括基于接收的灾难预警警报 消息的增加速率。
[0023] 在第四实施方式中,提供了一种用于提供快速灾难恢复准备的方法。该方法包括: 从第一网络资源接收网络度量,基于接收的网络度量确定发生了影响第二网络资源的可用 性的灾难条件,并发送灾害预警警报消息到第三网络资源。其中第一、第二和第三网络资源 是不同的资源。
[0024] 在上述一些实施方式中,所述接收的网络度量包括监测的业务流量,所述监测的 业务流量包括一个或多个流量值。
[0025] 在上述一些实施方式中,对灾难条件发生的确定步骤是基于检测到监测的业务流 量被中断而做出的。
[0026] 在上述一些实施方式中,对灾难条件发生的确定步骤是基于置信水平而做出的。
[0027] 在上述一些实施方式中,该方法还包括:接收灾难预警警报消息并执行快速弹性 增加操作,所述快速弹性增加操作包括:在超过使用阈值之前增加网络资源。
【专利附图】
【附图说明】
[0028] 附图中示出了各种实施方式,其中:
[0029] 图1示出了包括快速灾难恢复准备架构110的云网络;
[0030] 图2描绘了示出用于在云网络中提供快速灾难恢复准备的方法200的实施方式的 流程图;
[0031] 图3描绘了示出如图2的步骤230所示的用于资源监视器(例如,图1的资源监 视器150)基于云网络度量检测灾难的方法300的实施方式的流程图;
[0032] 图4描绘了示出如图2的步骤240所示用于恢复资源(例如,图1的数据中心180 中的应用或网络130中的资源)执行快速灾难恢复准备的方法400的实施方式的流程图; 以及
[0033] 图5图示了诸如图1的资源监视器150、图1的数据中心180的一个数据中心或网 络130的资源中的一个资源的虚拟机的各种设备500的实施方式。
[0034] 为了便于理解,相同的参考标记用于指示具有基本相同或相似结构或基本相同或 相似功能的元件。
【具体实施方式】
[0035] 说明书和附图仅示出本发明的原理。从而可以理解,本领域的技术人员能够想出 虽然在此没有明确地描述或者显示但是可以实现本发明的原理并包括在本发明的范围内 的各种安排。而且,在此列出的所有示例主要旨在仅特别用于教导的目的,以帮助读者理解 本发明的原理和发明人所贡献的用来促进本领域的概念,并应解释为不限于这些具体引用 的示例和条件。另外,这里使用的术语"或"除非另有说明,否则指的是非排他的或。而且, 这里所述的各种实施方式不必要互相排斥,因为一些实施方式可以与一个或多个其他实施 方式结合起来形成新的实施方式。
[0036] 各种实施方式提供了一种在云网络中提供快速灾难恢复准备的方法和设备,所述 方法和设备主动检测灾难事件并快速分配云资源。快速灾难恢复准备可以通过在恢复业务 的激增冲击恢复应用/资源之前主动增加恢复应用/资源上的性能来缩短RT0。而且,快 速灾难恢复准备可以通过比在"正常操作"期间更快地增加性能来缩短RT0,在"正常操作" 中在负载超过使用阈值后通过一段时间的适度增加来提高性能。
[0037] 图1示出了云网络100,该云网络100包括快速灾难恢复准备架构的一个实施方 式。云网络100包括一个或多个客户端120-a - 120-c(统称为客户端120),该客户端经由 通信路径向数据中心180-a - 180-c (统称为数据中心180)中的应用发送应用请求。通信路 径可以包括客户通信信道125-a、125-b和125-c (统称为客户端通信信道125)中的一者、 网络130、和数据中心通信信道185-a、185-b和185-c (统称为数据中心通信信道185)中的 一者。云网络100还包括资源监视器150,该资源监视器150监测云网络资源,并通过资源 监测通信信道155发送灾难预警警报消息。
[0038] 这里所用的术语"云网络"应该被理解为广泛地包括任何分配的资源。例如,云网 络资源可以包括设备(例如,路由器和无线基站)或设施(例如,光纤和同轴电缆)。
[0039] 客户端120可以为任何类型或任何数量的发起专用于在数据中心180上实例化的 一个应用实例的应用请求的客户机。例如,客户端可以为:服务器、移动电话、平板电脑、计 算机、个人数字助理(PDA)、电子阅读器、网络设备(如交换机或路由器)等等。
[0040] 通信信道125和185可以支持在一个或多个通信信道上获取或响应应用请求,所 述通信信道诸如:无线通信(例如,LTE、GSM、CDMA、蓝牙);毫微微蜂窝基站通信(例如, WiFi);分组网络的通信(例如,IP);宽带通信(例如,DOCSIS和DSL);存储通信(例如,光 纤信道、iSCSI)等等。应该理解,虽然示出为单个连接,但是通信信道125和185可以为任 何数量的支持客户端120与在数据中心180上实例化的应用实例之间的通信的通信信道或 其组合。
[0041] 网络130可以为任何合适的便于在客户端120与在数据中心180上实例化的应 用实例之间的通信的网络。例如,网络130可以为以下的结合:局域网(LAN)、无线局域网 (WLAN)、广域网(WAN)、城域网(MAN)等等。
[0042] 资源监视器150监测云网络资源或预警机制。特别地,当资源监视器150检测到 指示影响数据中心(例如,数据中心180-a)的灾难的条件时,资源监视器150发送灾难预 警警报消息到恢复应用/资源(例如,在数据中心180-b上实例化的应用实例或网络130 中的路由器)。应该理解,虽然资源监视器150画在网络130的外部,但是资源监视器150 也可以位于网络130内。
[0043] 资源监测通信信道155可以支持通过一个或多个通信信道接收消息或向客户端 120、网络130的资源(未示出)或数据中心180中的应用传送消息,所述通信信道诸如: 无线通信(例如,LTE、GSM、CDMA、蓝牙);毫微微蜂窝基站通信(例如,WiFi);分组网络的 通信(例如,IP);宽带通信(例如,DOCSIS和DSL);存储通信(例如,光纤信道、iSCSI)等 等。应该理解,虽然示出为单个连接,但是资源监测通信信道155可以为任何数量的支持资 源监视器150与客户端120、网络130的资源(未示出)或数据中心180上的应用之间的通 信的通信信道或其组合。
[0044] 数据中心180在地理上分散,并可以具有任何配置。数据中心180包括具有被创 建以便为来自客户端120的应用请求提供服务的虚拟机运行的应用的资源。特别地,数据 中心180中的至少一个应用被配置为从资源监视器150接收灾难预警警报消息。响应于接 收的灾难预警警报消息,数据中心180主动分配恢复应用/资源,以加速受影响客户端120 的服务恢复。
[0045] 应该理解,通过主动和快速分配恢复应用/资源,在大多数需要恢复的客户端120 启动恢复动作之前性能的弹性激增在线。例如,灾难事件可能使得大量的客户端120尝试 恢复到简要窗口中的恢复站点(例如,连接、登录和被验证、和创建会话),这可能会使恢复 数据中心超载。从而,可以有效为快速增加的负载服务,而不需要用拥塞控制触发超载(这 可能降低客户服务质量)。
[0046] 在资源监视器150的一些实施方式中,指示灾难的条件(S卩,灾难条件)可以包括 业务流量的显著改变、异常的业务模式或明确的警报/故障指示(如信号丢失指示符)。在 进一步的实施方式中,资源监视器150在接收到阈值数的信号丢失指示符后将确定存在灾 难条件。应该理解,多个信号丢失指示符可以指示传输介质(诸如光纤)的损坏。
[0047] 在资源监视器150的一些实施方式中,警报机制可以包括外部的传感器或来自监 测数据馈送的输入。在这些实施方式中的一些实施方式中,外部的传感器是地震仪监视器。 在这些实施方式中的一些实施方式中,监测数据馈送是到国内/国际海啸或其他灾难预警 机构的互联网连接。
[0048] 在一些实施方式中,数据中心180可以包括诸如处理器/CPU核心、网络接口、存储 器装置或数据存储装置的资源。而且,数据中心180可以为任何合适的物理硬件配置,诸 如:一个或多个服务器、包括诸如处理器的组件的刀片、存储器、网络接口或存储装置。在这 些实施方式中的一些实施方式中,数据中心可以包括彼此远离的云网络资源。应该理解,通 过分配诸如处理器、网络接口、存储设备或数据存储器的资源,数据中心可以调整(scale) 应用实例或虚拟机的处理、带宽、RAM和永久存储性能。
[0049] 图2描绘了示出用于在云网络中提供快速灾难恢复准备的方法200的实施方式的 流程图。
[0050] 在方法200中,步骤220包括监测来自云网络资源(例如通过图1的网络130的 资源(未示出)或图1的数据中心180中的应用)或预警机构的云网络度量。云网络度量 可以为任何合适的可以用来确定灾难条件的存在或用来确定便于从灾难条件恢复的网络 条件的度量。例如,云网络度量可以包括:业务流量值、负载/性能值、网络配置、健康消息 (例如,心跳消息)、网络警报(如,多个断纤)、外部的警报、数据馈送等等。
[0051] 在方法200中,步骤230包括基于云网络度量(例如通过图1的资源监视器150) 检测灾难条件。特别地,分析云网络度量以确定收集到的云网络指示符的特征是否指示灾 难条件已经发生。如果已经发生了灾难条件,则执行方法的设备发送灾难预警警报消息到 恢复应用/资源,并进行到步骤240,否则,设备返回步骤220。应该理解,对灾难条件的检 测不需要实际灾难已经或将要发生。而是,灾难条件检测仅指示监测的云网络度量指示可 能发生了灾难。有利地,通过在完全确定灾难之前发送灾难预警警报消息,可以给恢复应用 /资源提供增加的时间间隔以在潜在的恢复业务激增之前完成恢复准备。
[0052] 在方法200中,步骤240包括执行快速灾难恢复准备(例如,通过图1的网络130 的资源(未示出)或在图1的数据中心180上执行的应用实例)。特别地,恢复应用/资源 接收灾难预警警报消息并主动分配云网络资源,从而处理预计的恢复业务的激增,所述恢 复业务预计从灾难影响的应用/资源转移。
[0053] 在一些实施方式中,通过图1的资源监视器150执行步骤220。
[0054] 图3描绘了示出如图2的步骤230所示的用于资源监视器(例如,图1的资源监 视器150)基于云网络度量检测灾难的方法300的实施方式的流程图。该方法包括监测诸 如在图2的步骤220期间捕获的云网络度量(步骤320)。执行该方法的设备然后确定接 收的云网络度量是否指示灾难事件(步骤330),如果是,则可选择地确定缓解策略(步骤 340),并创建(步骤350)和发送一个或多个灾难预警警报消息(步骤360)到诸如图2和 图4的步骤240中所述的恢复应用/资源。
[0055] 在方法300中,步骤320包括(例如,通过资源监测通信信道155或直接从资源监 视器150)监测来自一个或多个资源的一个或多个云网络度量。在一些实施方式中,资源监 视器可以选择或提供要被监视的云网络度量。例如,资源监视器可以监测到一个或多个数 据中心或来自一个或多个数据中心(例如,图1的数据中心180)的业务流量。
[0056] 在方法300中,步骤330包括基于接收的云度量检测灾难。特别地,分析云网络度 量以确定搜集的云网络度量的特征是否指示发生了灾难条件。
[0057] 方法300可选择地包括步骤340。步骤340包括确定缓解策略。特别地,资源监视 器可以了解网络配置、状态、性能、或云网络资源(例如,网络130或图1的数据中心180中 的应用)的损害。基于该了解,资源管理器可以做出灾难恢复建议。
[0058] 在方法300中,步骤350包括创建灾难预警警报消息。特别地,所述消息包括表明 灾难条件被检测到的指示符或提供恢复配置信息。
[0059] 在方法300中,步骤360包括向恢复应用/资源发送一个或多个灾难预警警报消 息。特别地,一个或多个灾难预警警报消息将针对执行该方法的设备确定将会使用灾难预 警警报消息执行快速灾难恢复准备的如图2和图4的步骤240中所述的恢复应用/资源。
[0060] 方法300可选择地包括步骤370。步骤370包括发送灾难释放消息。特别地,在灾 难预警或事件结束后,向恢复应用/资源发送消息以释放被保留用来处理签字的灾难的恢 复云网络资源。
[0061] 在一些实施方式中,步骤320包括资源监视器(例如,图1的资源监视器150)从 自身采集云网络度量。例如,如果资源监视器被定位为网络运营商的网络和数据中心之间 的路由器/IP网络连接。
[0062] 在一些实施方式中,步骤320包括监测从网络中的资源(例如,是图1的网络130 的一部分的网络运营商的网络(未示出)中的路由器)到数据中心(例如,图1的数据中 心180-b)的IP网络连接。在这些实施方式中的一些实施方式中,步骤330包括当IP业务 流量立即下降或到数据中心的访问连接故障或中断时检测到所监测的数据中心可能正经 历灾难。应该理解,可以监测任何业务流量,而不只是IP业务流量。
[0063] 在一些实施方式中,步骤330包括,采集多个云网络度量以确定灾难条件是否存 在。
[0064] 在一些事实方式中,步骤330包括,基于灾难发生的"置信水平"确定灾难条件存 在。在这些实施方式中的一些实施方式中,置信水平可能是积极的(aggressive)。例如,当 实际灾难的"置信水平"小于等于百分之五十(50%)时可以触发灾难条件。应该理解,月艮 务供应商可能比起误报(false positive)(即,为从来未发生的灾难做准备)更关心的是 漏报(false negative)(即,没有为实际灾难积极做准备)。
[0065] 在步骤330的第一实施方式中,使用基于规则的模型检测在步骤320中接收到的 云网络度量是否指示灾难事件。例如,如果被监测的业务流量的通信水平在一段时间阈值 期间降到或低于业务阈值(例如,持续一分钟业务流量降到〇),则检测到灾难。
[0066] 在步骤330的第二实施方式中,使用传统的预测分析程序检测在步骤320中接收 到的云网络度量是否指示灾难事件。例如,如果被监测的业务流量可以输入到传统的预测 分析程序。然后该预测分析程序可以相对于存储的培训业务流量模式对输入的业务流量模 式进行分类,以确定是否检测到灾难。在这些实施方式中的一些实施方式中,可以将预测分 析程序训练为基于置信水平做出灾难检测分类。
[0067] 在一些实施方式中,步骤340包括基于网络状态/性能/损害信息确定缓解策略。 在这些实施方式中的一些实施方式中,缓解策略的确定包括以下一个或多个步骤:
[0068] 1)推导哪个或哪些数据中心(S)/应用实例⑶可能会受到影响(例如,圣何塞的 地震可能会影响硅谷地区的数据中心);
[0069] 2)确定灾难预警警报消息要指向的恢复应用/资源(例如,网络130中的路由器 或图1的数据中心180-b中的应用);
[0070] 3)确定恢复准备,诸如使恢复资源或恢复策略激增,从而在确定的恢复应用/资 源处准备有效恢复受影响用户的服务(例如,改变网络130的路由器的QoS策略或激增图 1的数据中心180-b中的应用的资源)。
[0071] 在一些实施方式中,步骤340包括建立多个灾难严重等级。在这些实施方式中的 一些实施方式中,灾难严重等级基于灾难条件的置信水平。在这些实施方式中的一些实施 方式中,灾难严重等级基于灾难的潜在影响。例如,断纤可能只影响一个数据中心,而地震 或海啸可能影响包括多个数据中心的整个地区。应该理解,对影响一个数据中心的灾难的 响应跟对影响多个数据中心的灾难的响应相比可以不同。例如,可以应用不同的QoS策略 或可以将资源在分配给不重要的消费者服务之前分配给紧急服务。在这些实施方式中的一 些实施方式中,灾难预警警报消息将基于灾难严重等级。
[0072] 在一些实施方式中,步骤340包括建立多个对对应的多个灾难严重等级的灾难响 应。例如,如果创建红色、黄色、和绿色的灾难严重等级,则针对每个灾难级要应用的QoS策 略或要保留的资源数量的建议可以不同。
[0073] 在一些实施方式中,步骤340包括确定用于恢复应用/资源的地理信息,和进一步 将缓解策略基于地理信息。例如,如果确定在地理区域检测到了受灾难影响的数据中心的 阈值,则资源监视器可以选择在受影响的地理区域外的恢复数据中心。
[0074] 在步骤340的一些实施方式中,缓解策略包括确定将恢复负载分布到恢复应用/ 资源。例如,来自受影响的数据中心(例如,图1的数据中心180-a)的负载将被分布到恢 复数据中心(例如,图1的数据中心180-a和180-b)并进行负载平衡。
[0075] 在一些实施方式中,步骤340包括将消息与一个或多个云网络资源(例如,图1的 数据中心180的一个或多个应用或网络130的一个或多个资源(未示出))交换。例如,资 源监视器(例如,图1的资源监视器150)可以发送消息到潜在的恢复数据中心(例如,数 据中心180-b)上的应用,要么推荐资源能力要么请求恢复数据中心是否可以处理包含在 消息请求中的指定的资源能力。在这些实施方式中,缓解策略建议可以基于该消息交换。
[0076] 在一些实施方式中,步骤340包括自动将业务重新定向(例如,自动改变DNS来使 业务离开受灾难影响的数据中心并转移到恢复数据中心)。
[0077] 在一些实施方式中,步骤340包括采集运行在受灾难影响的数据中心上的应用的 需求。特别地,可以采集应用的需求和应用的各种资源的布局,包括诸如存在多少虚拟机、 虚拟机如何连接、应用的数据访问模式和应用的服务需求的信息。例如,如果资源监视器 150知道在检测到灾难之前就使用数据中心180-a的资源,则资源监视器150可以基于至 少所述需求的子集建立恢复建议(例如,预计的负载值)并将其传到恢复数据中心(例如, 180-b)。
[0078] 在步骤340的一些实施方式中,可以确定对于一个或多个恢复应用/资源的恢复 建议。在这些实施方式的进一步的实施方式中,灾难预警警报消息包括灾难恢复建议。
[0079] 在步骤340的一些实施方式中,恢复建议可以包括:资源分配建议、资源需求或恢 复参数(例如,预计的负载或RT0需求)。
[0080] 在一些实施方式中,步骤350包括基于网络状态/性能/损坏/建议信息或来自 步骤340的应用需求在一个或多个灾难预警警报消息中合并信息。
[0081] 在一些实施方式中,步骤370包括基于随后接收的云网络度量确定灾难预警或事 件到期。例如,如果基于监测的来自数据中心(例如,数据中心180-a)的下降的业务流量确 定灾难预警,如果随后接收的云网络度量指示监测的业务流量复原则灾难预警可以到期。
[0082] 在一些实施方式中,步骤370包括基于时间阈值确定灾难预警或时间到期。例如, 如果在三十(30)分钟内未记录到实际灾难,则系统可以使灾难预警到期。
[0083] 在进一步的实施方式中,步骤370可以包括修改步骤330的灾难条件确定。例如, 如果系统基于监测的在11:30PM下降的业务流量反复发送灾难预警,但当业务恢复时灾难 预警在12:00PM永远到期,可以修改步骤330来尝试减轻这些误报。在另一个示例中,如果 基于时间阈值的到期灾难预警到期,则可以将步骤330修改为包括更严格的确定特性,以 免在灾害预警到期后迅速触发其他报警。
[0084] 在步骤350中,应该理解,基于来自任何其他方法步骤的信息创建灾难预警消息 可以包括以任何形式包含信息,并不需要"复制"灾害预警警报消息中的信息。
[0085] 图4描绘了示出如图2的步骤240所示用于恢复资源(例如,图1的数据中心 180中的应用或网络130中的资源)执行快速灾难恢复准备的方法400的实施方式的流程 图。方法包括接收一个或多个灾难预警警报消息(步骤420),诸如在图3中的步骤360期 间发送的灾难预警警报消息。然后执行该方法的设备解析接收的灾难预警警报消息(步 骤430),并然后:(i)快速执行弹性(步骤440) ; (ii)对操作恢复策略进行预处理(步骤 450);或(iii)对网络进行预处理(步骤460)。最后,方法包括使设备回到正常操作(步 骤 470)。
[0086] 在方法400中,步骤420包括(例如,通过数据中心通信信道185、通过网络130中 的通信信道(未示出)或直接由自己)接收一个或多个灾难预警警报消息。
[0087] 在方法400中,步骤430包括解析接收到的灾难预警警报消息。特别地,解析灾难 预警警报消息以确定是否应该执行步骤440、450或460中的任何步骤。应该理解,设备可 以只执行一个步骤(例如,步骤440),以及灾难预警警报消息可以简化为灾难预警指示符。
[0088] 方法400可选地包括步骤440。步骤440包括执行快速弹性。特别地,执行该方法 的设备基于接收灾难预警警报消息启动快速弹性增加,即使设备没有检测到拥塞条件。快 速弹性增加与正常弹性增加不同。在正常弹性增加中,负载超过使用阈值一段时间期间后 性能以稳定状态增加。在快速弹性增加中,为预测的业务激增做准备来增加性能(即,不基 于负载超过使用阈值的确定)。
[0089] 方法400可选地包括步骤450。步骤450包括对恢复策略进行预处理。特别地, 执行该方法的设备可以基于灾难预警警报消息的接收针对一个或多个其云网络资源修改 其操作策略。修改操作策略可以包括:(1)对服务参数的质量进行配置;(ii)使低优先级/ 离线任务推迟;或(iii)其他。
[0090] 方法400可选地包括步骤460。步骤460包括对网络进行预处理。特别地,执行该 方法的设备可以对业务流量进行预配置,增加恢复应用/资源的带宽等等。
[0091] 方法400可选地包括步骤470。步骤470包括使设备回到正常模式的操作。特别 地,步骤440、450和460中做的准备可以"回退(roll back) "。
[0092] 在一些实施方式中,步骤440包括大量的弹性增加。大量的弹性增加是比常规增 加2倍大的恢复云网络资源的增加。在这些实施方式中的一些实施方式中,大量的弹性增 加是正常增加的10倍大。
[0093] 在一些实施方式中,步骤440基于存储的值启动弹性增加操作。例如,存储的值可 以指示恢复数据中心上的应用为恢复关键路径上的元件(诸如,认证服务器)增加100%或 更多的能力。在进一步的实施方式中,可以基于诸如时间或日期、一周中的日期等等的动态 信息存储多个值。
[0094] 在一些实施方式中,步骤440包括基于设备可用的信息启动弹性增加操作。特别 地,设备可以分配足够的资源/启动足够的应用实例,以满足一个或多个单独的应用程序 的预期负载或RT0需求。例如,如果信息指定15分钟RT0用于应用,托管用户证书的恢复 设备上的认证数据库可以基于在小于15分钟的时间帧内为每个用户(例如,图1中的客户 端120)验证证书的能力来进行弹性增加操作。应该理解,弹性增加操作可以比正常操作所 需的更积极地增加能力,从而适应用户对灾难事件后的恢复数据中心的认证请求的激增。
[0095] 在一些实施方式中,步骤440包括基于灾难预警警报消息中包括的信息来启动弹 性增加操作。灾难预警警报消息可以包括任何合适的信息,以基于诸如以下各项进行弹性 增加操作:(i)预计要承受的负载;(ii) RT0需求;(iii) QoS策略;(iv)网络配置;或(v) 其他。预计的负载可以包括任何合适的信息,以基于诸如以下各项进行弹性增加操作:负 载、资源需求、受影响的用户数量或任何其他相关的次要信息,所述次要信息诸如受影响的 数据中心的大小。例如,如果灾难预警警报消息包括关于受灾难影响的数据中心的大小的 信息,则恢复数据中心中(例如,图1的数据中心180-b)的应用可以为小的受灾难影响的 数据中心增加百分之五十(50%)的资源,和为大的受灾难影响的数据中心增加百分之百 (100% )资源。
[0096] 在一些实施方式中,步骤440包括启动"刚好的"弹性增加操作。"刚好的"弹性增 加操作使性能激增到大约到预计的瞬时业务增加。例如,如果灾难预警警报消息包括对要 传输的负载的估计,执行该方法的设备可以使能力充分激增以处理预测的负载。在这些实 施方式的进一步的实施方式中,应用可以使得能力激增到预测的负载之上,以提供缓冲区。 在一些实施方式中,安全区可以小于等于百分之十(10%)。
[0097] 在一些实施方式中,步骤450包括修改操作策略。在这些实施方式的进一步的实 施方式中,执行该方法的设备可以使低优先级或离线任务推迟。在这些实施方式的进一步 的实施方式中,执行该方法的设备可以修改QoS以使更多的资源可用于服务受影响的用 户。
[0098] 在一些实施方式中,步骤450包括基于灾难预警警报消息中包含的信息设置自适 应比特率(例如,使用HTTP自适应比特率流)。例如,可以向诸如视频传输设备的恢复资源 发送带有建议在某时间期间减少视频的比特率的信息的灾难预警警报消息。该视频带宽的 减少可以使系统在灾难后迅速处理业务(例如,认证业务)激增。
[0099] 在一些实施方式中,步骤450包括设置QoS业务管理策略。在一个进一步的实施 方式中,可以向诸如路由器的恢复资源发送带有建议在时间期间将排队策略设置为严格的 优先级队列的信息的灾难预警警报消息。例如,为了帮助便于传输高优先级分组或实时分 组--以牺牲其他分组类型为代价。在第二个进一步的实施方式中,可以向诸如路由器的 恢复资源发送带有建议减少某类型的分组(例如,视频)的信息的灾难预警警报消息。在 第三个进一步的实施方式中,可以向诸如数据中心中的应用的恢复应用发送带有建议在时 间期间减缓备份策略以减缓处理开销或强制进行即时备份(例如,如果资源监视器确定数 据中心在危险区域中,可以强制进行到远程位置的备份,以保护数据存储的完整性)的信 息的灾难预警警报消息。
[0100] 在一些实施方式中,步骤470包括如果在时间间隔期间不产生业务高峰则进行回 退。在一些实施方式中,回退间隔可以小于等于30分钟。在这些实施方式的进一步的实施 方式中,回退间隔基于如何对作为基础设施的服务进行收费。例如,可以按小时对服务提供 商对服务提供商用于其应用的资源量进行收费。在该示例中,服务提供商可以按小时设置 回退间隔。
[0101] 在一些实施方式中,步骤470包括如果设备接收随后的"清除所有(all clear)" 则回退。例如,资源监视器(例如,图10的资源监视器150)可以确定由于误报的条件或由 于灾难已过去而灾难条件过期。在该实施方式中,资源监视器可以发送随后的消息到设备, 通知设备灾难条件过期。
[0102] 虽然主要以特定顺序进行了描述和绘示,但是应当理解的是,方法200中、300和 400中所示的步骤可以以任何适当的顺序来执行。而且,由一个步骤识别的步骤可以按顺序 在一个或多个其他步骤中执行,或者可以只一次就执行多个步骤的普通操作。
[0103] 应该理解,可以有可编程计算机执行各种上述方法的步骤。这里,一些实施方式还 旨在覆盖程序存储装置,例如数据存储介质,该数据存储介质为机器或计算机可读的,并对 机器可执行或计算机可执行的指令程序进行编码,其中所述指令执行上述方法的步骤中的 一些或所有步骤。程序存储装置例如可以为数字存储器、磁存储介质(诸如磁盘和磁带)、 硬盘驱动器或光可读数据存储介质。实施方式还旨在覆盖被编程为执行上述方法的所述步 骤的计算机。
[0104] 图5图示了诸如图1的资源监视器150、图1的数据中心180的数据中心180中的 一个数据中心的虚拟机或网络130的资源中的一个资源的各种设备500的实施方式。设备 500包括处理器、数据存储器511和I/O接口 530。
[0105] 处理器510控制设备500的操作。处理器510与数据存储器511相配合。
[0106] 数据存储器511可以视情况而存储诸如云网络度量(例如,来自图3的步骤320) 的程序数据、采集的云网络资源特征(例如,来自图3的步骤340)、Q 〇S需求(例如,来自图 4的步骤450)、或新的数据(例如,来自图3的步骤460)。数据存储511还存储处理器510 可执行的程序520。
[0107] 处理器可执行的程序520可以包括I/O接口程序521、灾难条件检测程序523、或 快速灾难恢复准备程序525。处理器510与处理器可执行程序520相配合。
[0108] I/O接口 530与处理器510和I/O接口程序521相配合,以支持如上所述的通过图 1的通信信道125U55或185的通信(例如,在图3的步骤320中监测云网络度量、在图3 的步骤360中发送灾难预警警报消息和在图4的步骤420中接收灾难预警警报消息的过程 中)。
[0109] 灾难条件检测程序523执行如上所述的图2的步骤230和图3的方法300的步骤。
[0110] 快速灾难恢复准备程序525执行如上所述的图2的步骤240和图4的方法400的 步骤。
[0111] 在一些实施方式中,设备500可以为虚拟机。在这些实施方式的一些实施方式中, 虚拟机可以包括来自不同机器的组件,或者可以在地理上分散。例如,数据存储器511和处 理器510可以在两个不同的物理机中。
[0112] 当在处理器510上实施处理器可执行的程序520时,程序代码段与处理器结合以 提供和特定逻辑电路进行类似操作的独特装置。
[0113] 虽然关于实施方式在此进行了绘示和描述,其中,例如在数据存储器和存储器中 存储的程序和逻辑通信连接到处理器,应该理解,可以以任何其他合适的方式(例如使用 合适数目的存储器、存储单元或数据库),使用通信耦合到任何合适布置的装置的任何合适 布置的存储器、存储单元或数据库;将信息存储在存储器、存储单元或内部或外部数据库的 任何合适的组合中;或使用任何合适数量的可访问外部存储器、存储单元或数据库来存储 该信息。这样,这里提到的术语数据存储指的是包括存储器、存储单元和数据库的所有合适 的组合。
[0114] 说明书和附图仅示出了本发明的原理。从而可以理解,虽然这里没有明确说明和 示出,但是本领域的技术人员能够做出各种实施本发明的原理的安排,这些安排可以包括 在本发明的实质和范围内。而且,这里所述的所有示例主要旨在为了教导的目的,以帮助读 者理解本发明的原理和发明人贡献的用于促进本领域技术的概念,应该被解释为不限制于 这些特别引用的示例和条件。而且,这里说明本发明的原理、方面和实施方式的所有陈述及 其特定示例旨在包括其等价变化方式。
[0115] 可以通过使用专用硬件和能够执行与合适的软件相关的软件的硬件来提供图中 所述的各种元件的功能,包括标为"处理器"的任何功能块。当由处理器提供功能时,该功 能可以由单个专用处理器、单个共享处理器或多个单独个处理器(其中一些处理器可以共 享)提供。而且,明确使用的术语"处理器"或"控制器"应该被解释为仅指的是能够执行 软件的硬件,并且可以暗中包括但不限于数字信号处理器(DSP)硬件、网络处理器、专用集 成电路(ASIC)、场可编程门阵列(FPGA)、存储软件的只读存储器(ROM)、随机存取存储器 (RAM)和非易失性存储单元。也可以包括其他传统或定制的硬件。类似的,如图中所述的任 何开关仅是概念性的。可以通过程序逻辑的操作,通过专用逻辑、通过程序控制和专用逻辑 的交互或甚至手动来执行其功能,可以由实施者根据更具体地理解上下文来选择特定的技 术。
[0116] 应该理解,这里的任何框图表示实现本发明原理的示例电路的概念视图。类似的, 应该理解,任何流程表、流程图、状态转换图、伪码等表示实质上可以在计算机可读介质上 表示从而由计算机或处理器执行(无论是否明确示出该计算机或处理器)的各种过程。
【权利要求】
1. 一种用于提供快速灾难恢复准备的设备,该设备包括: 数据存储器;以及 通信耦合到所述数据存储器的处理器,该处理器被配置成: 监测来自第一网络资源的网络度量; 基于接收到的网络度量确定已经发生了影响第二网络资源的可用性的灾难条件;以及 发送灾害预警警报消息到第三网络资源; 其中所述第一网络资源、第二网络资源和第三网络资源是不同的资源。
2. 根据权利要求1所述的设备,其中监测的网络度量包括监测的业务流量,所监测的 业务流量包括一个或多个流量值;并且其中对灾难条件已经发生的确定是基于以下至少一 者做出的:检测到所监测的业务流量已经被中断、或者检测到所监测的业务流量具有异常 的流量模式。
3. 根据权利要求1所述的设备,其中所监测的网络度量包括外部的传感器信息。
4. 根据权利要求1所述的设备,其中对灾难条件发生的确定是基于置信水平作出的。
5. 根据权利要求1所述的设备,其中所述处理器还被配置成: 分析多个网络资源; 基于所述多个网络资源确定灾难恢复建议;以及 基于所述灾难恢复建议选择第三网络资源。
6. -种用于提供快速灾难恢复准备的设备,该设备包括: 数据存储器;以及 通信耦合到所述数据存储器的处理器,所述处理器被配置成: 接收灾难预警警报消息;以及 执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使 用阈值之前增加网络资源。
7. 根据权利要求6所述的设备,其中所述快速弹性增加操作还包括基于所接收到的灾 难预警警报消息的增加速率。
8. 根据权利要求6所述的设备,其中所述处理器还被配置成: 监测业务负载; 基于所监测的业务负载确定灾难条件不存在;以及 响应于确定灾难条件不存在,而执行弹性缩小操作,所述弹性缩小操作释放至少一部 分网络资源的增加。
9. 一种用于提供快速灾难恢复准备的方法,该方法包括: 在通信耦合到数据存储器的处理器上,从第一网络资源接收网络度量; 通过与所述数据存储器合作的所述处理器,基于所接收到的网络度量确定已经发生了 影响第二网络资源的可用性的灾难条件;以及 通过与所述数据存储器合作的所述处理器,发送灾害预警警报消息到第三网络资源; 其中所述第一网络资源、第二网络资源和第三网络资源是不同的资源。
10. 根据权利要求9所述的方法,该方法还包括: 通过所述第三网络资源,接收灾难预警警报消息;以及 通过所述第三网络资源,执行快速弹性增加操作,所述快速弹性增加操作包括:在超过 使用阈值之前增加网络资源。
【文档编号】H04L12/26GK104126285SQ201380009523
【公开日】2014年10月29日 申请日期:2013年2月1日 优先权日:2012年2月14日
【发明者】E·J·鲍尔, R·S·亚当斯, D·W·尤斯塔斯 申请人:阿尔卡特朗讯公司