一种内存预警的方法及装置的制造方法

文档序号:9396767阅读:316来源:国知局
一种内存预警的方法及装置的制造方法
【技术领域】
[0001 ] 本发明涉及服务器技术领域,特别涉及一种内存预警的方法及装置。
【背景技术】
[0002]随着服务器技术的发展,服务器中配置的内存容量越来越大,内存运行的速度越来越高,这些大容量告诉运行的内存成为最影响系统稳定性的故障高发地带,如何在内存发生严重故障前提前判断并处理掉成为系统稳定性可靠性的一个重要诉求与技术难点。
[0003]目前,在服务器中设置有漏斗计数器,该漏斗计数器会记录每条内存发生的可纠正错误的次数。BMC会定时轮询漏斗计数器,当监控到可纠正错误的次数达到预设阈值时,则会触发预警,以提示服务器管理人员进行故障处理。
[0004]发明人发现现有技术至少存在以下问题:
[0005]某些内存故障属于软故障(例如:宇宙射线导致的比特翻转等),这类故障会在一定时间内恢复正常,并非不可纠正错误。这种以纯计数的方式进行预警,未考虑时间维度的因素,造成预警误报,进而造成服务器的运行维护效率低下。

【发明内容】

[0006]为了解决现有技术中的问题,本发明实施例提供了一种内存预警的方法及装置。所述技术方案如下:
[0007]第一方面,本发明实施例提供的一种内存预警的方法,所述方法包括:
[0008]获取当前设定的预警模式,并获取所述预警模式对应的漏斗频率以及预警阈值,所述漏斗频率为预设的漏斗计数器中每秒进行减法操作的数值;
[0009]将当前监控的内存中发生可纠正错误的次数记录在所述漏斗计数器中,并根据所述漏斗频率对所述漏斗计数器进行减法操作;
[0010]当监控到所述漏斗计数器中记录的次数达到所述预警阈值且各修复方式已使用完时,向基板管理控制器BMC发出预警。
[0011]在第一方面的第一种可能的实现方式中,所述获取所述预警模式对应的预警阈值,包括:
[0012]获取预警模式对应的持续时间参数以及倍数参数;
[0013]根据所述持续时间参数,所述倍数参数以及所述漏斗参数,计算所述预警模式对应的预警阈值。
[0014]结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述计算所述预警模式对应的预警阈值之后,所述方法还包括:
[0015]如果计算的所述预警阈值超过了上限值,则将所述预警阈值设置为所述上限值。
[0016]结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述预警模式包括:准确性模式以及覆盖率模式;
[0017]所述准确性模式对应的漏斗频率大于所述覆盖率模式对应的漏斗频率;
[0018]所述准确性模式对应的持续时间参数大于所述覆盖率模式对应的持续时间参数。
[0019]结合第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述漏斗频率为I个/秒至100个/秒之间;所述持续时间参数为3秒至60秒之间;所述倍数参数为10至100之间。
[0020]在第一方面的第五种可能的实现方式中,所述当监控到所述漏斗计数器中记录的次数达到所述预警阈值且各修复方式已使用完时,向BMC发出预警,包括:
[0021]当监控到所述漏斗计数器中记录的次数达到所述预警阈值时,触发系统管理中断SMI中断;
[0022]当所述SMI终端处理程序检测到各修复方式已使用完时,向BMC发送预警通知消息。
[0023]第二方面,本发明实施例提供的一种内存预警的装置,所述装置包括:
[0024]获取模块,用于获取当前设定的预警模式,并获取所述预警模式对应的漏斗频率以及预警阈值,所述漏斗频率为预设的漏斗计数器中每秒进行减法操作的数值;
[0025]处理模块,用于将当前监控的内存中发生可纠正错误的次数记录在所述漏斗计数器中,并根据所述漏斗频率对所述漏斗计数器进行减法操作;
[0026]预警模块,用于当监控到所述漏斗计数器中记录的次数达到所述预警阈值且各修复方式已使用完时,向基板管理控制器BMC发出预警。
[0027]在第二方面的第一种可能的实现方式中,所述获取模块,包括:
[0028]获取单元,用于获取预警模式对应的持续时间参数以及倍数参数;
[0029]计算单元,用于根据所述持续时间参数,所述倍数参数以及所述漏斗参数,计算所述预警模式对应的预警阈值。
[0030]结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述获取模块还包括:
[0031]设置单元,用于如果计算的所述预警阈值超过了上限值,则将所述预警阈值设置为所述上限值。
[0032]结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述预警模式包括:准确性模式以及覆盖率模式;
[0033]所述准确性模式对应的漏斗频率大于所述覆盖率模式对应的漏斗频率;
[0034]所述准确性模式对应的持续时间参数大于所述覆盖率模式对应的持续时间参数。
[0035]结合第二方面的第一种可能的实现方式,在第二方面的第四种可能的实现方式中,所述漏斗频率为I个/秒至100个/秒之间;所述持续时间参数为3秒至60秒之间;所述倍数参数为10至100之间。
[0036]在第二方面的第五种可能的实现方式中,所述预警模块,包括:
[0037]中断单元,用于当监控到所述漏斗计数器中记录的次数达到所述预警阈值时,触发系统管理中断SMI中断;
[0038]发送单元,用于当所述SMI终端处理程序检测到各修复方式已使用完时,向BMC发送预警通知消息。
[0039]本发明实施例提供的技术方案带来的有益效果是:
[0040]通过获取当前的预警模式中的漏斗频率和预警阈值,在漏斗计数器对每条内存的可纠正错误进行计数时,通过漏斗频率对漏斗计数器进行减法操作,并在漏斗计数器达到预警阈值且各修复方式已使用完时,向BMC发出预警。实现了在时间维度上对内存的可纠正错误的预警方式,提高了预警的准确性和实效性。
【附图说明】
[0041]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本发明实施例1提供的内存预警的方法流程图;
[0043]图2是本发明实施例1提供的内存预警的方法中内存故障预警数学模型的示意图;
[0044]图3是本发明实施例2提供的内存预警的方法流程图;
[0045]图4是本发明实施例3提供的内存预警的装置结构示意图;
[0046]图5是本发明实施例4提供的服务器的结构示意图。
【具体实施方式】
[0047]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0048]实施例1
[0049]本发明实施例提供了一种内存预警的方法,参见图1。
[0050]其中,该方法包括:
[0051]101:获取当前设定的预警模式,并获取预警模式对应的漏斗频率以及预警阈值,漏斗频率为预设的漏斗计数器中每秒进行减法操作的数值;
[0052]102:将当前监控的内存中发生可纠正错误的次数记录在漏斗计数器中,并根据漏斗频率对漏斗计数器进行减法操作;
[0053]103:当监控到漏斗计数器中记录的次数达到预警阈值且各修复方式已使用完时,向BMC (Baseboard Management Controller,基板管理控制器)发出预警。
[0054]如图2所示,该图中示出了内存故障预警数学模型,其中该模型中横轴代表不可纠正错误发生的频率,纵轴代表该ECC频率下系统发生严重故障的可能性;通过该模型可以对内存故障进行定性分析得到如下结论:
[0055]不可纠正错误发生的频率越大系统发生严重故障的可能性也就是越大;
[0056]不可纠正错误发生的频率的漏斗频率阈值选的越大,也就是预警的准确性越大;预警的覆盖率就越低。
[0057]本发明实施例通过获取当前的预警模式中的漏斗频率和预警阈值,在漏斗计数器对每条内存的可纠正错误进行计数时,通过漏斗频率对漏斗计数器进行减法
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1