一种故障检测、恢复方法及装置制造方法
【专利摘要】本发明实施例提供了一种故障检测、恢复方法及装置,用以在网管系统中,针对数据库的应用类故障进行自动检测、上报告警及故障恢复,降低了网管系统的复杂度。所述一种故障检测方法,针对预设的每一类型的故障检测,该方法包括:在该类型的故障检测周期内,确定该类型预设的所有检测对象的相关信息;针对该类型的每一检测对象:根据该检测对象的相关信息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障;对于发生该类型的故障的检测对象,确定该检测对象的故障告警信息,并上报给管理站。
【专利说明】-种故障检测、恢复方法及装置
【技术领域】
[0001] 本发明涉及通信【技术领域】,尤其涉及一种故障检测、恢复方法及装置。
【背景技术】
[0002] 故障管理作为现代通信网络管理系统中的一个重要组成部分,能够保证网络的正 常运行。由于通信网络的迅速发展,网络结构越来越复杂,网络出现故障的可能性也越来越 大。
[0003] 在大型的网管系统中一般均使用数据库作为系统底层应用的数据库系统,为系 统提供数据的存储、计算等数据的基础服务,同时数据库本身从业务角度分析,是作为系 统的被管理元素存在。所W管理站要实时关注数据库的运行情况,尤其是出现"表空间不 足"、"挂死进程"、"锁定对象"、"任务执行失败"、"低效结构化查询语言(Struc化red Query Language, SQL)"该五类问题时,管理站需要及时发现并处理W保证系统的正常高效运行。
[0004] 在现有技术中,网管系统中的管理站与被管元素之间均采用简单网络管理协议 (Simple Network Management Protocol, SNMP)进行通信,被管兀素通过 SNMP 陷阱(SNMP Trap)消息来主动上报告警信息给管理站。现有技术中,如图1所示,在管理站一侧的边界 上会部署一个协议代理子系统或者子模块用W完成"管理站内部协议"到"SNMP协议"的双 向配置工作。从图1中可W看出管理站与被管理元素之间是使用SNMP消息完成业务交互 的,并由"SNMP协议代理"来完成边界内外的协议转换W及适配。但是在网管系统中内部数 据库是作为内部元素存在,"SNMP协议代理"并不负责直接与数据库进行协议交互。该样需 要使用数据库系统自带的SNMP服务网管通过化ap消息上报告警。
[0005] 然而,实际网管系统中每类网管产品均针对特定的网络元素W及管理特性进行针 对性的管理和实现,例如,如果系统中应用化acle数据库作为系统底层应用的数据库系 统,则需要针对化acle数据库实现一套标准的管理机制,对网管系统自身而言需要增加很 多额外的功能,而影响网管对于本职业务的实现和关注。具体表现在:1、对于化acle数据 库而言还需要打开数据库的SNMP服务,W及获取SNMP消息的格式来才能使用网管所需的 业务;2、化acle数据库只能上报告警信息,而对于故障的恢复或者是如何恢复还必须根据 系统的物理硬件配置环境人工进行干预处理;3、化acle数据库上报告警信息时,相应告警 的级别W及告警所包含内容必须是使用化acle数据库预设置的值,无法在上报时就根据 实际的影响性来定义级别W及设置内容的取舍。
[0006] 总之,在网管系统中,现有技术不能针对数据库的应用类故障进行自动检测、上报 告警及故障恢复,增加了网管系统的复杂度。
【发明内容】
[0007] 本发明实施例提供了一种故障检测、恢复方法及装置,用W在网管系统中,针对数 据库的应用类故障进行自动检测、上报告警及故障恢复,降低了网管系统的复杂度。
[0008] 本发明实施例提供的一种故障检测方法,针对预设的每一类型的故障检测,该方 法包括:
[0009] 在该类型的故障检测周期内,确定该类型预定义的所有检测对象的相关信息;
[0010] 针对该类型的每一检测对象:根据该检测对象的相关信息,W及预设的该类型的 故障条件,判断该检测对象是否发生该类型的故障;对于发生该类型的故障的检测对象,确 定该检测对象的故障告警信息,并上报给管理站。
[0011] 本发明实施例中,预设的每一类型的故障,包括:表空间不足故障、挂死进程故障、 锁定对象故障、任务执行失败故障W及低效S化故障。通过该故障检测方法,使得在网管 系统中,不用依赖SNMP方式和数据库的自身网管特性,利用网管系统内部的业务接口 W及 数据库脚本和任务方式来实现针对该五类故障,甚至类似故障进行自动检测W及上报管理 站。其中,故障告警信息中携带该故障的相关信息,为工作人员提供方便,降低了网管系统 的复杂度。
[0012] 较佳地,该方法还包括:
[0013] 对于没有发生该类型的故障的检测对象,则查询该检测对象上一次是否有告警记 录,若有,则生成该检测对象的清除告警信息,并上报给管理站。
[0014] 较佳地,
[0015] 当故障检测的类型为预设的表空间不足的故障检测,预定义的所有检测对象为所 有表空间时,该类型的所有检测对象的相关信息包括:每一表空间名称,该表空间中的数据 文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小;
[0016] 当故障检测的类型为预设的挂死进程的故障检测,预定义的所有检测对象为所有 进程时,该类型的所有检测对象的相关信息包括:每一进程的进程号和该进程执行时长;
[0017] 当故障检测的类型为预设的锁定对象的故障检测,预定义的所有检测对象为所有 对象时,该类型的所有检测对象的相关信息包括:每一对象的对象名和锁定该对象的用户 名;
[0018] 当故障检测的类型为预设的任务执行失败的故障检测,预定义的所有检测对象为 所有任务时,该类型的所有检测对象的相关信息包括;每一任务执行失败的次数和每一次 的执行时长;
[0019] 当故障检测的类型为预设的低效结构化查询语言S化的故障检测,预定义的所有 检测对象为所有S化时,该类型的所有检测对象的相关信息包括:每一 S化的执行时长、输 入输出消耗、CPU消耗W及该S化的物理磁盘消耗。
[0020] 较佳地,当故障检测的类型为预设的表空间不足的故障检测时,针对该类型的每 一检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件,判断该检测对象 是否发生该类型的故障,包括:
[0021] 针对该类型的每一表空间,根据该表空间中的数据文件个数、每一数据文件大小 和该表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率,当该表空间的占用率 大于或等于预设的表空间占用率故障口限值时,确定该表空间发生表空间不足故障。
[0022] 较佳地,对于发生表空间不足故障的表空间,该表空间的故障告警信息包括;该表 空间的故障级别、告警类型、该表空间所在数据库的IP地址、对该表空间进行故障检测的 开始时间、确定该表空间发生表空间不足故障的时间、该表空间的故障告警信息的上报时 间、该表空间的名称和该表空间的相关信息。
[0023] 较佳地,当故障检测的类型为预设的挂死进程的故障检测时,针对该类型的每一 检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件,判断该检测对象是 否发生该类型的故障,包括:
[0024] 针对该类型的每一进程,当进程执行时长大于或等于预设的进程执行时长故障口 限值时,确定该进程发生挂死进程故障。
[0025] 较佳地,对于发生挂死进程故障的进程,该进程的故障告警信息包括;该进程的故 障级别、告警类型、该进程所在数据库的IP地址、对该进程进行故障检测的开始时间、确定 该进程发生挂死进程故障的时间、该进程的故障告警信息的上报时间、该进程的进程号和 该进程的相关信息。
[0026] 较佳地,当故障检测的类型为预设的锁定对象的故障检测时,针对该类型的每一 检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件,判断该检测对象是 否发生该类型的故障,包括:
[0027] 针对该类型的每一对象,根据该对象的对象名和锁定该对象的用户名,查询上一 次和本次该对象被同一用户名锁定的时间,并根据所述时间计算该对象的锁定时长,当该 对象的锁定时长大于或等于预设的锁定时长故障口限值时,确定该对象发生锁定对象故 障。
[0028] 较佳地,对于发生锁定对象故障的对象,该对象的故障告警信息包括;该对象的故 障级别、告警类型、该对象所在数据库的IP地址、对该对象进行故障检测的开始时间、确定 该对象发生锁定对象故障的时间、该对象的故障告警信息的上报时间、该对象的对象名、锁 定该对象的用户名和该对象的相关信息。
[0029] 较佳地,当故障检测的类型为预设的任务执行失败的故障检测时,针对该类型的 每一检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件,判断该检测对 象是否发生该类型的故障,包括:
[0030] 针对该类型的每一任务,当该任务的执行失败次数大于或等于预设的任务执行失 败次数故障口限值时,确定该任务发生任务执行失败故障。
[0031] 较佳地,对于发生任务执行失败故障的任务,该任务的故障告警信息包括;该任务 的故障级别、告警类型、该任务所在数据库的IP地址、对该任务进行故障检测的开始时间、 确定该任务发生任务执行失败故障的时间、该任务的故障告警信息的上报时间、该任务的 任务标识、该任务的开始时间、该任务的结束时间和该任务的相关信息。
[0032] 较佳地,当故障检测的类型为预设的低效SQL的故障检测时,针对该类型的每一 检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件,判断该检测对象是 否发生该类型的故障,包括:
[0033] 针对该类型的每一 SQL,当该S化的执行时长大于或等于预设的S化的执行时长故 障口限值时,确定该S化发生低效S化故障。
[0034] 较佳地,对于发生低效S化故障的SQL,该S化的故障告警信息包括:该S化的故 障级别、告警类型、该S化所在数据库的IP地址、对该S化进行故障检测的开始时间、确定 该S化发生低效S化故障的时间、该S化的故障告警信息的上报时间、该S化的内容、该SQL 占用资源类型、该SQL占用比率和该SQL的相关信息。
[00巧]本发明实施例提供的一种与上述所述的任一故障检测方法相对应的故障恢复方 法,该方法包括:
[0036] 获取服务器上报的检测对象的故障告警信息;
[0037] 根据所述故障告警信息对该检测对象进行故障恢复处理。
[0038] 本发明实施例中,针对预设的故障类型为表空间不足的故障、挂死进程的故障或 锁定对象的故障,根据获取服务器上报的检测对象的故障告警,判断所述故障告警信息的 告警类型W及该故障告警信息的故障类型,确定该检测对象的告警类型为上报告警,并且 该检测对象发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障 时,查询该检测对象发生的故障所属类型对应的故障恢复配置参数;根据查询到的故障恢 复配置参数W及所述故障告警信息,判断是否对该检测对象进行故障恢复。使得在网管系 统中,针对数据库的应用类故障完成故障恢复,降低了网管系统的复杂度。
[0039] 较佳地,根据所述故障告警信息对该检测对象进行故障恢复处理包括:
[0040] 当根据所述故障告警信息,确定该检测对象的告警类型为上报告警,并且该检测 对象发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障时,查 询该检测对象发生的故障所属类型对应的故障恢复配置参数;
[0041] 根据查询到的故障恢复配置参数W及所述故障告警信息,判断是否对该检测对象 进行故障恢复。
[0042] 较佳地,当该检测对象发生的故障所属类型为表空间不足的故障时,所述故障恢 复配置参数包括;发生表空间不足故障的表空间所在服务器剩余的物理磁盘空间大小;所 述故障告警信息包括该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物 理磁盘空间大小;
[0043] 根据查询到的故障恢复配置参数W及所述故障告警信息,判断是否对该检测对象 进行故障恢复包括:
[0044] 根据该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘 空间大小计算该表空间的表空间占用率;
[0045] 当根据该表空间所在服务器剩余的物理磁盘空间大小,该表空间的表空间占用 率,W及预设的表空间占用率恢复口限值,确定能够对该表空间进行故障恢复时,向所述服 务器发送该检测对象的故障恢复指令。
[0046] 较佳地,当该检测对象发生的故障所属类型为挂死进程的故障时,所述故障恢复 配置参数包括:发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息; 所述故障告警信息包括该挂死进程的进程号;
[0047] 根据查询到的故障恢复配置参数W及所述故障告警信息,判断是否对该检测对象 进行故障恢复包括:
[0048] 当收到发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息 后,向所述服务器发送该检测对象的故障恢复指令。
[0049] 较佳地,当该检测对象发生的故障所属类型为锁定对象的故障时,所述故障恢复 配置参数包括:发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息; 所述故障告警信息包括该锁定对象的对象名和锁定此对象的进程号;
[0050] 根据查询到的故障恢复配置参数W及所述故障告警信息,判断是否对该检测对象 进行故障恢复包括:
[0051] 当收到发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息 后,向所述服务器发送该检测对象的故障恢复指令。
[0052] 本发明实施例提供的一种故障检测装置,该装置包括:
[0053] 数据字典表模块,用于存储每一类型预定义的所有检测对象的相关信息;
[0054] 检测任务模块,用于针对预设的每一类型的故障检测,从数据字典表模块中获取 该检测对象的相关信息,并根据该检测对象的相关信息,W及预设的该类型的故障条件,判 断该检测对象是否发生该类型的故障;对于发生该类型的故障的检测对象,确定该检测对 象的故障告警信息,并上报给上报处理模块;
[00巧]上报处理模块,用于将所述该检测对象的故障告警信息上报给管理站。
[0056] 本发明实施例中,预设的每一类型的故障,包括:表空间不足故障、挂死进程故障、 锁定对象故障、任务执行失败故障W及低效S化故障。通过该故障检测方法,使得在网管 系统中,不用依赖SNMP方式和数据库的自身网管特性,利用网管系统内部的业务接口 W及 数据库脚本和任务方式来实现针对该五类故障,甚至类似故障进行自动检测W及上报管理 站。其中,故障告警信息中携带该故障的相关信息,为工作人员提供方便,降低了网管系统 的复杂度。
[0057] 较佳地,所述检测任务模块,还用于:
[0058] 对于没有发生该类型的故障的检测对象,则查询该检测对象上一次是否有告警记 录,若有,则生成该检测对象的清除告警信息,并上报给上报处理模块。
[0059] 当故障检测的类型为预设的表空间不足的故障检测,预定义的所有检测对象为所 有表空间时,该类型的所有检测对象的相关信息包括:每一表空间名称,该表空间中的数据 文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小;
[0060] 当故障检测的类型为预设的挂死进程的故障检测,预定义的所有检测对象为所有 进程时,该类型的所有检测对象的相关信息包括:每一进程的进程号和该进程执行时长;
[0061] 当故障检测的类型为预设的锁定对象的故障检测,预定义的所有检测对象为所有 对象时,该类型的所有检测对象的相关信息包括:每一对象的对象名和锁定该对象的用户 名;
[0062] 当故障检测的类型为预设的任务执行失败的故障检测,预定义的所有检测对象为 所有任务时,该类型的所有检测对象的相关信息包括;每一任务执行失败的次数和每一次 的执行时长;
[0063] 当故障检测的类型为预设的低效结构化查询语言S化的故障检测,预定义的所有 检测对象为所有S化时,该类型的所有检测对象的相关信息包括:每一 S化的执行时长、输 入输出消耗、CPU消耗W及该S化的物理磁盘消耗。较佳地,当故障检测的类型为预设的表 空间不足的故障检测时,所述检测任务模块,针对该类型的每一检测对象,根据该检测对象 的相关信息,W及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障时,具 体用于:
[0064] 针对该类型的每一表空间,根据该表空间中的数据文件个数、每一数据文件大小 和该表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率,当该表空间的占用率 大于或等于预设的表空间占用率故障口限值时,确定该表空间发生表空间不足故障。
[0065] 较佳地,对于发生表空间不足故障的表空间,该表空间的故障告警信息包括;该表 空间的故障级别、告警类型、该表空间所在数据库的IP地址、对该表空间进行故障检测的 开始时间、确定该表空间发生表空间不足故障的时间、该表空间的故障告警信息的上报时 间、该表空间的名称和该表空间的相关信息。
[0066] 较佳地,当故障检测的类型为预设的挂死进程的故障检测时,所述检测任务模块, 针对该类型的每一检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件, 判断该检测对象是否发生该类型的故障,具体用于:
[0067] 针对该类型的每一进程,当进程执行时长大于或等于预设的进程执行时长故障口 限值时,确定该进程发生挂死进程故障。
[0068] 较佳地,对于发生挂死进程故障的进程,该进程的故障告警信息包括;该进程的故 障级别、告警类型、该进程所在数据库的IP地址、对该进程进行故障检测的开始时间、确定 该进程发生挂死进程故障的时间、该进程的故障告警信息的上报时间、该进程的进程号和 该进程的相关信息。
[0069] 较佳地,当故障检测的类型为预设的锁定对象的故障检测时,所述检测任务模块, 针对该类型的每一检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件, 判断该检测对象是否发生该类型的故障,具体用于:
[0070] 针对该类型的每一对象,根据该对象的对象名和锁定该对象的用户名,查询上一 次和本次该对象被同一用户名锁定的时间,并根据所述时间计算该对象的锁定时长,当该 对象的锁定时长大于或等于预设的锁定时长故障口限值时,确定该对象发生锁定对象故 障。
[0071] 较佳地,对于发生锁定对象故障的对象,该对象的故障告警信息包括;该对象的故 障级别、告警类型、该对象所在数据库的IP地址、对该对象进行故障检测的开始时间、确定 该对象发生锁定对象故障的时间、该对象的故障告警信息的上报时间、该对象的对象名、锁 定该对象的用户名和该对象的相关信息。
[0072] 较佳地,当故障检测的类型为预设的任务执行失败的故障检测时,所述检测任务 模块,针对该类型的每一检测对象,根据该检测对象的相关信息,W及预设的该类型的故障 条件,判断该检测对象是否发生该类型的故障,具体用于:
[0073] 针对该类型的每一任务,当该任务的执行失败次数大于或等于预设的任务执行失 败次数故障口限值时,确定该任务发生任务执行失败故障。
[0074] 较佳地,对于发生任务执行失败故障的任务,该任务的故障告警信息包括;该任务 的故障级别、告警类型、该任务所在数据库的IP地址、对该任务进行故障检测的开始时间、 确定该任务发生任务执行失败故障的时间、该任务的故障告警信息的上报时间、该任务的 任务标识、该任务的开始时间、该任务的结束时间和该任务的相关信息。
[00巧]较佳地,当故障检测的类型为预设的低效SQL的故障检测时,所述检测任务模块, 针对该类型的每一检测对象,根据该检测对象的相关信息,W及预设的该类型的故障条件, 判断该检测对象是否发生该类型的故障,具体用于:
[0076] 针对该类型的每一 SQL,当该S化的执行时长大于或等于预设的S化的执行时长故 障口限值时,确定该S化发生低效S化故障。
[0077] 较佳地,对于发生低效S化故障的SQL,该S化的故障告警信息包括:该S化的故 障级别、告警类型、该S化所在数据库的IP地址、对该S化进行故障检测的开始时间、确定 该S化发生低效S化故障的时间、该S化的故障告警信息的上报时间、该S化的内容、该SQL 占用资源类型、该SQL占用比率和该SQL的相关信息。
【专利附图】
【附图说明】
[007引图1为现有技术中故障检测方法的示意图;
[0079] 图2为本发明实施例提供的一种故障检测方法的流程示意图;
[0080] 图3为本发明实施例提供的一种故障恢复方法的流程示意图;
[0081] 图4为本发明实施例提供的一种故障检测装置的结构示意图;
[0082] 图5为本发明实施例提供的一种故障恢复装置的结构示意图。
【具体实施方式】
[0083] 本发明实施例提供了一种故障检测、恢复方法及装置,用W在网管系统中,针对数 据库的应用类故障进行自动检测、上报告警及故障恢复,降低了网管系统的复杂度。
[0084] 本发明实施例中提供了一种故障告警的定义,具体地,故障类型可W分别是"表空 间不足"、"挂死进程"、"锁定对象"、"任务执行失败"和"低效SQL"该五类故障,或者其他类 型的故障也可W类似地定义。本发明实施例仅W "表空间不足"、"挂死进程"、"锁定对象"、 "任务执行失败"和"低效SQL"该五种故障告警为例,说明故障检测及故障恢复的技术方案。
[0085] W下首先介绍本发明实施例预设的每一类型的故障告警信息列表。
[0086] 关于"表空间不足"类型故障告警信息列表,参见下面的表一。
[0087] 表一
[0088]
【权利要求】
1. 一种故障检测方法,其特征在于,针对预设的每一类型的故障检测,该方法包括: 在该类型的故障检测周期内,确定该类型预定义的所有检测对象的相关信息; 针对该类型的每一检测对象:根据该检测对象的相关信息,以及预设的该类型的故障 条件,判断该检测对象是否发生该类型的故障;对于发生该类型的故障的检测对象,确定该 检测对象的故障告警信息,并上报给管理站。
2. 根据权利要求1所述方法,其特征在于,该方法还包括: 对于没有发生该类型的故障的检测对象,则查询该检测对象上一次是否有告警记录, 若有,则生成该检测对象的清除告警信息,并上报给管理站。
3. 根据权利要求1所述方法,其特征在于, 当故障检测的类型为预设的表空间不足的故障检测,预定义的所有检测对象为所有表 空间时,该类型的所有检测对象的相关信息包括:每一表空间名称,该表空间中的数据文件 个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小; 当故障检测的类型为预设的挂死进程的故障检测,预定义的所有检测对象为所有进程 时,该类型的所有检测对象的相关信息包括:每一进程的进程号和该进程执行时长; 当故障检测的类型为预设的锁定对象的故障检测,预定义的所有检测对象为所有对象 时,该类型的所有检测对象的相关信息包括:每一对象的对象名和锁定该对象的用户名; 当故障检测的类型为预设的任务执行失败的故障检测,预定义的所有检测对象为所有 任务时,该类型的所有检测对象的相关信息包括:每一任务执行失败的次数和每一次的执 行时长; 当故障检测的类型为预设的低效结构化查询语言SQL的故障检测,预定义的所有检测 对象为所有SQL时,该类型的所有检测对象的相关信息包括:每一 SQL的执行时长、输入输 出消耗、CPU消耗以及该SQL的物理磁盘消耗。
4. 根据权利要求3所述方法,其特征在于,当故障检测的类型为预设的表空间不足的 故障检测时,针对该类型的每一检测对象,根据该检测对象的相关信息,以及预设的该类型 的故障条件,判断该检测对象是否发生该类型的故障,包括: 针对该类型的每一表空间,根据该表空间中的数据文件个数、每一数据文件大小和该 表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率,当该表空间的占用率大于 或等于预设的表空间占用率故障门限值时,确定该表空间发生表空间不足故障。
5. 根据权利要求4所述方法,其特征在于,对于发生表空间不足故障的表空间,该表空 间的故障告警信息包括:该表空间的故障级别、告警类型、该表空间所在数据库的IP地址、 对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、该表空 间的故障告警信息的上报时间、该表空间的名称和该表空间的相关信息。
6. 根据权利要求3所述方法,其特征在于,当故障检测的类型为预设的挂死进程的故 障检测时,针对该类型的每一检测对象,根据该检测对象的相关信息,以及预设的该类型的 故障条件,判断该检测对象是否发生该类型的故障,包括: 针对该类型的每一进程,当进程执行时长大于或等于预设的进程执行时长故障门限值 时,确定该进程发生挂死进程故障。
7. 根据权利要求6所述方法,其特征在于,对于发生挂死进程故障的进程,该进程的故 障告警信息包括:该进程的故障级别、告警类型、该进程所在数据库的IP地址、对该进程进 行故障检测的开始时间、确定该进程发生挂死进程故障的时间、该进程的故障告警信息的 上报时间、该进程的进程号和该进程的相关信息。
8. 根据权利要求3所述方法,其特征在于,当故障检测的类型为预设的锁定对象的故 障检测时,针对该类型的每一检测对象,根据该检测对象的相关信息,以及预设的该类型的 故障条件,判断该检测对象是否发生该类型的故障,包括: 针对该类型的每一对象,根据该对象的对象名和锁定该对象的用户名,查询上一次和 本次该对象被同一用户名锁定的时间,并根据所述时间计算该对象的锁定时长,当该对象 的锁定时长大于或等于预设的锁定时长故障门限值时,确定该对象发生锁定对象故障。
9. 根据权利要求8所述方法,其特征在于,对于发生锁定对象故障的对象,该对象的故 障告警信息包括:该对象的故障级别、告警类型、该对象所在数据库的IP地址、对该对象进 行故障检测的开始时间、确定该对象发生锁定对象故障的时间、该对象的故障告警信息的 上报时间、该对象的对象名、锁定该对象的用户名和该对象的相关信息。
10. 根据权利要求3所述方法,其特征在于,当故障检测的类型为预设的任务执行失败 的故障检测时,针对该类型的每一检测对象,根据该检测对象的相关信息,以及预设的该类 型的故障条件,判断该检测对象是否发生该类型的故障,包括: 针对该类型的每一任务,当该任务的执行失败次数大于或等于预设的任务执行失败次 数故障门限值时,确定该任务发生任务执行失败故障。
11. 根据权利要求10所述的方法,其特征在于,对于发生任务执行失败故障的任务,该 任务的故障告警信息包括:该任务的故障级别、告警类型、该任务所在数据库的IP地址、对 该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、该任务的故 障告警信息的上报时间、该任务的任务标识、该任务的开始时间、该任务的结束时间和该任 务的相关彳目息。
12. 根据权利要求3所述方法,其特征在于,当故障检测的类型为预设的低效SQL的故 障检测时,针对该类型的每一检测对象,根据该检测对象的相关信息,以及预设的该类型的 故障条件,判断该检测对象是否发生该类型的故障,包括: 针对该类型的每一 SQL,当该SQL的执行时长大于或等于预设的SQL的执行时长故障门 限值时,确定该SQL发生低效SQL故障。
13. 根据权利要求12所述的方法,其特征在于,对于发生低效SQL故障的SQL,该SQL 的故障告警信息包括:该SQL的故障级别、告警类型、该SQL所在数据库的IP地址、对该SQL 进行故障检测的开始时间、确定该SQL发生低效SQL故障的时间、该SQL的故障告警信息的 上报时间、该SQL的内容、该SQL占用资源类型、该SQL占用比率和该SQL的相关信息。
14. 一种与上述权利要求1-13任一权项所述的故障检测方法相对应的故障恢复方法, 其特征在于,该方法包括: 获取服务器上报的检测对象的故障告警信息; 根据所述故障告警信息对该检测对象进行故障恢复处理。
15. 根据权利要求14所述的方法,其特征在于,根据所述故障告警信息对该检测对象 进行故障恢复处理包括: 当根据所述故障告警信息,确定该检测对象的告警类型为上报告警,并且该检测对象 发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障时,查询该 检测对象发生的故障所属类型对应的故障恢复配置参数; 根据查询到的故障恢复配置参数以及所述故障告警信息,判断是否对该检测对象进行 故障恢复。
16. 根据权利要求15所述的方法,其特征在于,当该检测对象发生的故障所属类型为 表空间不足的故障时,所述故障恢复配置参数包括:发生表空间不足的故障的表空间所在 服务器剩余的物理磁盘空间大小;所述故障告警信息包括该表空间中的数据文件个数、每 一数据文件大小和该表空间的剩余物理磁盘空间大小; 根据查询到的故障恢复配置参数以及所述故障告警信息,判断是否对该检测对象进行 故障恢复包括: 根据该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间 大小计算该表空间的表空间占用率; 当根据该表空间所在服务器剩余的物理磁盘空间大小,该表空间的表空间占用率,以 及预设的表空间占用率恢复门限值,确定能够对该表空间进行故障恢复时,向所述服务器 发送该检测对象的故障恢复指令。
17. 根据权利要求15所述的方法,其特征在于,当该检测对象发生的故障所属类型为 挂死进程的故障时,所述故障恢复配置参数包括:发生挂死进程故障的进程在所述服务器 中仍然处于挂死状态的确认信息;所述故障告警信息包括该挂死进程的进程号; 根据查询到的故障恢复配置参数以及所述故障告警信息,判断是否对该检测对象进行 故障恢复包括: 当收到发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息后,向 所述服务器发送该检测对象的故障恢复指令。
18. 根据权利要求15所述的方法,其特征在于,当该检测对象发生的故障所属类型为 锁定对象的故障时,所述故障恢复配置参数包括:发生锁定对象故障的对象在所述服务器 中仍然处于锁定状态的确认信息;所述故障告警信息包括该锁定对象的对象名和锁定此对 象的进程号; 根据查询到的故障恢复配置参数以及所述故障告警信息,判断是否对该检测对象进行 故障恢复包括: 当收到发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息后,向 所述服务器发送该检测对象的故障恢复指令。
19. 一种故障检测装置,其特征在于,该装置包括: 数据字典表模块,用于存储每一类型预定义的所有检测对象的相关信息; 检测任务模块,用于针对预设的每一类型的故障检测,从数据字典表模块中获取该检 测对象的相关信息,并根据该检测对象的相关信息,以及预设的该类型的故障条件,判断该 检测对象是否发生该类型的故障;对于发生该类型的故障的检测对象,确定该检测对象的 故障告警信息,并上报给上报处理模块; 上报处理模块,用于将所述该检测对象的故障告警信息上报给管理站。
20. 根据权利要求19所述的装置,其特征在于,所述检测任务模块,还用于: 对于没有发生该类型的故障的检测对象,则查询该检测对象上一次是否有告警记录, 若有,则生成该检测对象的清除告警信息,并上报给上报处理模块。
21. 根据权利要求19所述的装置,其特征在于, 当故障检测的类型为预设的表空间不足的故障检测时,预定义的所有检测对象为所有 表空间时,该类型的所有检测对象的相关彳目息包括:每一表空间名称,该表空间中的数据文 件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小; 当故障检测的类型为预设的挂死进程的故障检测,预定义的所有检测对象为所有进程 时,该类型的所有检测对象的相关信息包括:每一进程的进程号和执行时长; 当故障检测的类型为预设的锁定对象的故障检测,预定义的所有检测对象为所有对象 时,该类型的所有检测对象的相关信息包括:每一对象的对象名和锁定该对象的用户名; 当故障检测的类型为预设的任务执行失败的故障检测,预定义的所有检测对象为所有 任务时,该类型的所有检测对象的相关信息包括:每一任务执行失败的次数和每一次的执 行时长; 当故障检测的类型为预设的低效结构化查询语言SQL的故障检测,预定义的所有检测 对象为所有SQL时,该类型的所有检测对象的相关信息包括:每一 SQL的执行时长、输入输 出消耗、CPU消耗以及该SQL的物理磁盘消耗。
22. 根据权利要求21所述的装置,其特征在于,当故障检测的类型为预设的表空间不 足的故障检测时,所述检测任务模块,针对该类型的每一检测对象,根据该检测对象的相关 信息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障时,具体用 于: 针对该类型的每一表空间,根据该表空间中的数据文件个数、每一数据文件大小和该 表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率,当该表空间的占用率大于 或等于预设的表空间占用率故障门限值时,确定该表空间发生表空间不足故障。
23. 根据权利要求22所述的装置,其特征在于,对于发生表空间不足故障的表空间,该 表空间的故障告警信息包括:该表空间的故障级别、告警类型、该表空间所在数据库的IP 地址、对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、该 表空间的故障告警信息的上报时间、该表空间的名称和该表空间的相关信息。
24. 根据权利要求21所述的装置,其特征在于,当故障检测的类型为预设的挂死进程 的故障检测时,所述检测任务模块中,针对该类型的每一检测对象,根据该检测对象的相关 信息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障,具体用于: 针对该类型的每一进程,当进程执行时长大于或等于预设的进程执行时长故障门限值 时,确定该进程发生挂死进程故障。
25. 根据权利要求24所述的装置,其特征在于,对于发生挂死进程故障的进程,该进程 的故障告警信息包括:该进程的故障级别、告警类型、该进程所在数据库的IP地址、对该进 程进行故障检测的开始时间、确定该进程发生挂死进程故障的时间、该进程的故障告警信 息的上报时间、该进程的进程号和该进程的相关信息。
26. 根据权利要求21所述的装置,其特征在于,当故障检测的类型为预设的锁定对象 的故障检测时,所述检测任务模块中,针对该类型的每一检测对象,根据该检测对象的相关 信息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障,具体用于: 针对该类型的每一对象,根据该对象的对象名和锁定该对象的用户名,查询上一次和 本次该对象被同一用户名锁定的时间,并根据所述时间计算该对象的锁定时长,当该对象 的锁定时长大于或等于预设的锁定时长故障门限值时,确定该对象发生锁定对象故障。
27. 根据权利要求26所述的装置,其特征在于,对于发生锁定对象故障的对象,该对象 的故障告警信息包括:该对象的故障级别、告警类型、该对象所在数据库的IP地址、对该对 象进行故障检测的开始时间、确定该对象发生锁定对象故障的时间、该对象的故障告警信 息的上报时间、该对象的对象名、锁定该对象的用户名和该对象的相关信息。
28. 根据权利要求21所述的装置,其特征在于,当故障检测的类型为预设的任务执行 失败的故障检测时,所述检测任务模块,针对该类型的每一检测对象,根据该检测对象的相 关信息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障,具体用 于: 针对该类型的每一任务,当该任务的执行失败次数大于或等于预设的任务执行失败次 数故障门限值时,确定该任务发生任务执行失败故障。
29. 根据权利要求28所述的装置,其特征在于,对于发生任务执行失败故障的任务,该 任务的故障告警信息包括:该任务的故障级别、告警类型、该任务所在数据库的IP地址、对 该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、该任务的故 障告警信息的上报时间、该任务的任务标识、该任务的开始时间、该任务的结束时间和该任 务的相关彳目息。
30. 根据权利要求21所述的装置,其特征在于,当故障检测的类型为预设的低效SQL 的故障检测时,所述检测任务模块,针对该类型的每一检测对象,根据该检测对象的相关信 息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障,具体用于: 针对该类型的每一 SQL,当该SQL的执行时长大于或等于预设的SQL的执行时长故障门 限值时,确定该SQL发生低效SQL故障。
31. 根据权利要求30所述的装置,其特征在于,对于发生低效SQL故障的SQL,该SQL 的故障告警信息包括:该SQL的故障级别、告警类型、该SQL所在数据库的IP地址、对该SQL 进行故障检测的开始时间、确定该SQL发生低效SQL故障的时间、该SQL的故障告警信息的 上报时间、该SQL的内容、该SQL占用资源类型、该SQL占用比率和该SQL的相关信息。
【文档编号】H04L12/26GK104486109SQ201410748994
【公开日】2015年4月1日 申请日期:2014年12月9日 优先权日:2014年12月9日
【发明者】陈怡 , 赵晗 申请人:大唐移动通信设备有限公司