专利名称::一种性能指标值正常波动范围的动态确定方法及其装置的利记博彩app
技术领域:
:本发明涉及电信网络管理领域,尤其涉及一种电信网络性能的实时监控方法,具体涉及到电信网络性能指标的波动范围预测。
背景技术:
:随着通信市场竟争的日趋激烈,各大电信运营商先后提出了战略转型。传统上,作为电信运营商的支撑部门所运作的运维管理,一直属于业务流程的后台部分,直接面向网络和"i殳备的管理,与市场和客户没有直接的关系。而随着市场竟争的日益激烈,提升客户对网络服务的满意度逐渐成为电信运营商提升市场竟争能力的重要方面,因此运营商将直接面向网络的管理转为面向服务的管理迫在眉睫。未来的运维工作将逐渐走向前台,运维工作与客户感知之间的联系将越来越密切。由于用户在使用网络的过程中,不仅感知终端设备,还体验了各种业务和网络的服务能力,因此,为了改善客户体验,在网络监控上针对以前的被动、事后解决问题方式,目前提出一种新的主动、事前的网络监控技术,即以和用户感知相关的网络性能指标为监控对象,例如监控话务量、来话占用次数、来话应答次数、来话接通率等性能指标,分析该性能指标在某时的实际值是否落在正常范围内,如果溢出正常范围,则会出现业务质量降低和网络性能下降,可能存在网络故障或网络配置数据存在问题等,此时应发出实时性能告警警报,通知运维人员介入相关处理,加快问题的解决或避免问题出现,从而提高业务服务质量,改善用户感知,减少用户投诉。而正常范围的设置一般来源于网络运维经验、网络管理要求或者设备能力限制,设置的精确度决定了发出实时性能告警的准确性。如果设置范围过窄(如上限取值过小、下限取值过大)可能导致误报告警;范围设置过宽(如上限取值过大、下限取值过小)又可能导致漏报告警,加大运维人员的工作量、影响运维人员的积极性,最终都会降低该网络监控技术的作用。因此,在网络性能指标的实时监控过程中,网络性能指标的正常值基准线有效准确预测是一个关键问题。目前在性能监控指标的基准线的确定上,应用的方法一般包括排序法、理统计的方法等。排序法是指l)首先对有效数据进行排序,^暇定共有N*个,分别记为X1-XN*;2)假定有效数据的Y°/(如95%)为可以接受而不用产生告警的指标值,取中间的数字为正常波动区间;3)以其最大值作为基线上限BaseHigh,以其最小值作为基线的下限BaseLow。而数理统计的方法与排序算法类似,区别在于其95%的正常数据不是取正中间的,而是取方差最小的95%的连续数据。这两种方法的优点是简单易算,但对于具有周期性和趋势性特点较强的动态性能指标来说,例如话务量、来话占用次数、来话应答次数、来话接通率等指标,其指标会随着时间的变化发生周期性、趋势性特点,节假日的峰值特点使得在平日的话务量正常值范围和节假日的话务量正常值范围有很大的不同,这样应用以上两种方法确定性能指标预警基线就不够精确,这一方面会导致性能告警的误报,另一方面又存在该报的告警没有报出来的情况,从而降低了主动性能监控技术的可用性。因此,本发明将时间序列的预测方法引入该领域来动态确定性能指标的预警基线和波动范围,具体采用的方法是支持向量机建模及预测方法。目前也有提出将基于统计学习理论的支持向量机预测方法进行话务量的预测,见《科技创新导报》2008No.2中文章"支持向量机在电信话务量预测中的应用分析",其中应用支持向量机对电信话务量的指标进行了预测分析。但其对支持向量机的自由参数的选择并没有给出新的方法,目前普遍采用的是使样本校验集的MSE最小,所述MSE(MeanSquaredError)是一个统计量,其含义是设在某集合中利用训练模型的预测值为乂.(i=l...n),而实际值为i=l...n),则MS五=(凡-y.)2。这种方法存在的问题是,仅仅使已知样本数据训练集上的误差最小,这与支持向量机模型中已得到很好验证的结构风险最小化SRM(StructralRiskMinimization)原则相悖;另一个问题是,这种方法在应用于基于时间序列的性能指标的建模及预测时,对非平稳时间序列的样本数据适用性不是很强。针对这种情况本发明提出一种新的支持向量机的自由参数选择方法,更加适合非平稳时间序列预测的支持向量机模型选取,另外还给出预测值误差的置信范围,从而得到待预测时间点上的正常波动范围。最后,利用该模型选取方法还给出了实时动态建模预测的机制。以下简单介绍本发明一种性能指标波动范围的确定方法及其装置所用到的基本技术理论_支持向量机原理。支持向量机的最大特点是基于结构风险最小化(SRM-StructuralRiskMinimization)原则提出的,因其完备的理论基础,近年来在模式识别(分类)和函数逼近方面得到广泛关注。在函数逼近的应用方面,利用不同的核函数可进行线性、非线性系统的逼近,目前已被引入时间序列预测方面。支持向量机是由Vapnik及其同事在1995年提出的,建立在结构风险最小和VC维理论基础上,解决了神经网络在应用中存在的局部极小问题,网络结构可完全通过计算自动确定;更重要的是为求得由经验风险和置信区间综合确定的期望风险最小为训练目标,支持向量机模型有更好的泛化效果,被3见为替代神经网络的较好方法。所述结构风险最小化(SRM)是统计学习理论中提出的训练原则,与传统统计学中的经验风险最小原则(ERM)相对。传统的统计理论的ERM原则是基于样本容量无穷大的假设的,但在实际中可得到的样本数总是有限的,比如基于ERM的BP神经网络就会因此存在"过拟合,,的现象,因此用有P艮样本数基于ERM原则进行预测的效果并不理想。针对这种情况,Vapnik等人提出新的统计学习理论,即不仅考虑经验风险,还力求假设函数复杂度尽量小,以期获得最小的期望风险上界,而不是单纯的经验风险最小,这一原则称为结构风险最小化原则(SRM)。关于函数逼近的支持向量回归机的原理是这样的,利用训练数据集进行建模,找到输入向量\和输出>^,的一个决策函数>^/"),使得期望风险函数最小,其中,x,.ei",即属于n维的向量空间,/为训练样本点数;即输入参数为n维向量,而输出为一个标量值。综合考虑线性和非线性的所有情况,不妨令/(x)-(w.(D(x))+b,其中,0:i"->",w为特征空间的系数向量。这样,/",本来是输入向量空间上的非线性函数,但经过①(x)的映射后就变成在特征空间H上的线性函数。用支持向量机的方法求解该回归问题,不仅要使经验损失值尽量小,同时还要考虑置信区间尽量小,以期得到最小的期望风险。在该方法中,采用的经验损失函数为s-不敏感损失函数,而置信区间用||||2来衡量,用于表示决策函数模型的复杂度,则求解回归问题就变为求解以下的不等式约束优化问题(以下s.t.代表约束条件)—W(W^)=^|W||24C.;^《)(1)乂-((w-^))+""+。、1,2,…,/i力(《,+^)为S-不敏感条件下的经验损失,参数C为用于调节比重的惩罚参数,其作用是在经验风险和模型复杂度之间取一折衷。为求解该不等式约束优化问题,利用Lagrange对偶原理。先对其Lagrange对偶问题即以下优化问题求aw:w.J(d)=o为了解决不易于确定的问题,以及即使确定出来在特征空间计算时计算量太大以至出现维度灾难等问题,引入了核函数《(x,,x》代替高维空间的内积运算来处理,使《(X,,X》^:("X》.^(X》),解决了高维空间的复杂运算问题。根据Hilbert-Schimidt原理,只要一种运算满足Mercer条件,它就可以作为核函数。用《(x"x》来代替式(2)中的(^(x》—(x》)。求得<formula>formulaseeoriginaldocumentpage0</formula>后,决策函数为<formula>formulaseeoriginaldocumentpage0</formula>(3)以上公式(3)是经过简化的支持向量回归机的回归函数表达式。其中常值偏差b的值可由KKT(Karush-Kuhn—Tucker)条件来求得。因为只有(《-《.)-O时,x^才对/6^有影响,/(x)的值取决于这些输入向量的值,所以这些向量也称为支持向量。所述KKT条件,指的是对于如下约束优化问题min/0),jc-([4,…,[x]"fs.t.Ci(x)=0,i=l...q,其存在解的必要条件是<formula>formulaseeoriginaldocumentpage0</formula>。0O=Gj=l''",该条件称为条件。根据这一条件中的第4式or,("20<formula>formulaseeoriginaldocumentpage0</formula><formula>formulaseeoriginaldocumentpage0</formula>可以知道当<#0时,c,(jc'):O即若Lagrange系数不为O则该点在边界上,从而可求解相关函数参数。
发明内容本发明中将性能监控指标的正常值的基准线称为预警基线。本发明的目的是提供一种性能指标值正常波动范围的动态确定方法及其装置,解决当前对网络性能指标的正常波动范围的动态预测的精准性问题,提出一种新的基于时间序列和支持向量机方法进行的网络性能指标的正常波动范围的动态预测。在选择支持向量机的训练模型时,将残差白噪声作为最优模型的选择依据,可以根据残差是白噪声时符合正态分布的特点,得到预测误差的在给定置信度下的置信区间,从而得到性能指标在待预测时间点上的正常波动范围。本发明采用的技术方案如下一种性能指标值正常波动范围的动态确定方法,包括步骤01)获取网络性能指标的历史值,动态获取最新的历史样本数据;02)对所述最新的历史样本数据进行预处理,获得正常样本数据;03)对所述正常样本数据进行相空间重构,获得训练样本数据;04)对所述训练样本数据进行训练,以残差白噪声为依据来选取基于所述训练样本数据的最优支持向量初4莫型;05)使用所述最优支持向量机模型对待预测时间点上的数据进行预测,并利用残差白噪声符合正态分布的特性来计算置信区间,从而获得所述待预测时间点上的性能指标值正常波动范围。所述的性能指标预警基线的确定方法,还可以包括步骤06)检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则转步骤01)以重新获取样本数据进行重新训练,选取新的最优支持向量机才莫型,若适用则转步骤05)直接进行下一个待预测时间点数据的预测。进一步地,对所述训练样本数据进行训练,以残差白噪声为依据来选取支持向量初4莫型的过程包括A、设置支持向量机模型的自由参数值;B、根据所设置的自由参数值,按照结构风险最小化原则对训练样本数据进行训练,获得一个回归方程式作为建模结果;c、将训练样本数据的实际值与所得回归方程式下的计算值求差,得到拟合残差序列,计算残差序列的自相关函数;D、根据所述残差序列的自相关函数计算结果,检验所述残差序列是否为白噪声序列,如果是,则所获得的支持向量机训练模型最优,保存并输出该模型和对应的自由参数值;否则如果不是白噪声序列,返回步骤A,重新设置自由参数的值,按照以上过程重新训练,直到获得最优的支持向量机模型。进一步地,计算性能指标的预警基线值及置信范围的过程包括用所述最优的支持向量机训练模型和对应的自由参数值进行一步预测,将得到的计算值作为待预测时间点上的预警基线值,计算该基线值在指定置信度下的置信区间,从而获得在待预测时间点上的波动范围。进一步地,检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测过程是,计算下一个待预测时间点上的残差,将其加入原残差序列并更新为新残差序列,若新残差序列仍然是白噪声序列,则所述最优支持向量机模型仍然适用下一个待预测时间点的数据预测,否则所述最优支持向量机模型不适用下一个待预测时间点的数据预测。本发明还提出一种性能指标值正常波动范围的动态确定装置,所述装置包括,样本数据获取单元,用于获取网络性能指标的历史值,动态获取最新的历史样本数据;样本数据预处理单元,用于对所述最新的历史样本数据进行预处理,得到正常样本数据;训练样本数据获取单元,用于对所述正常样本数据进行相空间重构得到训练样本数据;模型选取单元,用于对所述训练样本数据进行训练,用残差白噪声来选取基于所述训练样本lt据的最优支持向量机模型;性能指标波动范围预测单元,使用所述最优支持向量机-漠型对待预测时间点上的数据进行预测,并利用白噪声符合正态分布的特性计算误差的置信区间,从而获得所述待预测时间点上的性能指标值正常波动范围。所述的性能指标值正常波动范围的动态确定装置还可以包括,模型继续适用判断单元,4佥验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则指示样本数据获取单元基于下一个待预测时间点重新获取样本数据以重新建模,若适用则转到性能指标波动范围预测单元预测下一个待预测时间点上的性能指标波动范围。进一步地,所述模型选取单元可以包括,参数设置模块,用于预置或调整支持向量机模型的自由参数值;训练建模模块,用于根据参数设置模块所设置的自由参数值,按照结构风险最小化原则对训练样本数据进行优化训练,获得一个回归方程式作为建模结果;残差计算模块,根据训练建模模块得到的回归方程式计算训练数据在该回归方程式下的计算值,与训练样本数据获取单元得到的样本数据的实际值求差,得到拟合残差序列,计算残差序列的自相关函数;白噪声检验及模型确定模块,用于检验残差计算模块所计算残差序列是否为白噪声序列,如果是,则所确定的支持向量机模型最优,输出设置的自由参数值和最优的支持向量机模型;否则转到参数设置模块,调整支持向量机模型的自由参数值,以重新训练。进一步地,所述性能指标波动范围预测单元可以包括,一步预测模块,用所述最优支持向量机训练模型和对应的自由参数值在待预测时间点进行一步预测,将得到的计算值作为待预测时间点上的性能指标预警基线值;置信区间计算模块,计算所述性能指标预警基线值在指定置信度下的置信区间;波动范围确定模块,根据一步预测模块得到的待预测时间点上的性能指标预警基线值,以及置信区间计算模块得到的置信区间,确定在待预测时间点上的性能指标波动范围。进一步地,所述模型继续适用判断单元可以包括,新残差计算模块,根据模型选取单元得到的最优支持向量机模型的回归方程式,在下一个待预测时间点上计算该回归方程式下的计算值,与训练样本数据获取单元得到的样本数据的实际值求差,将其加入原残差序列并更新为新残差序列,计算新残差序列的自相关函数;白噪声检验及重新建模判断模块,用于检验新残差计算模块所得到的新残差序列是否为白噪声序列,如果是,则所述最优支持向量机模型仍然适用下一个待预测时间点的数据预测,指示性能指标波动范围预测单元预测下一个待预测时间点上的性能指标波动范围,否则所述最优支持向量机模型不适用下一个待预测时间点的数据预测,指示样本数据获取单元基于下一个待预测时间点重新获取样本数据以重新建才莫。采用本发明所述的性能指标值正常波动范围的确定方法,以残差白噪声为支持向量机模型的选择依据进行动态建模,得到较准确的性能指标值正常波动范围预测效果。同时,根据白噪声一般符合正态分布的特点,可以得到性能指标值基线预测值在指定置信度下的置信区间,将预测值和置信区间结合就得到指标值的波动范围,根据该范围就可以判断性能指标的实际值是否正常。在这一过程中,运维人员可以根据实际应用效果来选择合适的置信度,如置信度为95%或97%甚至更大。该方法大大提高了性能监控预警基线预测的准确性,减少了性能告警的误报和漏报。图1为本发明中一种性能指标值正常波动范围的动态确定方法的流程图。图2为本发明技术方案的实施例一所述的一种性能指标值正常波动范围的动态确定方法的详细实现流程图。图3为本发明中一种基于动态建模的性能指标值正常波动范围的动态确定方法流程图。图4为本发明技术方案的实施例二所述的一种基于动态建;f莫的性能指标值正常波动范围的动态确定方法的详细实现流程图。图5为本发明技术方案的实施例三中所述的支持向量机训练建模步骤中计算残差序列的自相关函数的结果示意图。图6为本发明一种性能指标值正常波动范围的确定装置的结构示意图。图7为本发明一种基于动态建模的性能指标值正常波动范围的动态确定装置的结构示意图。图8为本发明技术方案的实施例四所述的一种性能指标值正常波动范围的动态确定装置的一种优化实现结构。图9为本发明技术方案的实施例五所述的一种基于动态建模的性能指标值正常波动范围的动态确定装置的一种优化实现结构。具体实施方式本发明提出一种性能指标正常波动范围的动态确定方法,用基于时间序列的支持向量机方法进行性能指标预警基线及波动范围的预测过程如图1所示,遵从以下步骤步骤S101:获取网络性能指标的历史值,动态获取最新的历史样本数据;步骤S102:对所述最新的历史样本数据进行预处理,获得正常样本数据;步骤S103:对所述正常样本数据进行相空间重构,获得训练样本数据;步骤S104:对所述训练样本数据进行训练,以残差白噪声为依据来选取基于所述训练样本数据的最优支持向量机模型;步骤S105:使用所述最优支持向量机模型对待预测时间点上的数据进行预测,并利用残差白噪声符合正态分布的特性来计算置信区间,从而获得所述^f寺预测时间点上的性能指标值正常波动范围。根据以上步骤,参见图2,给出本发明的实施例一详细说明如下步骤S201:获取网络性能指标的历史值,动态获取最新的历史样本数据。从网络性能指标库中动态获取基于时间点的性能指标历史样本数据,每个时间点最少选取过去一个月以上的历史数据。按照经验,少于一个月的数据一般难以保证统计结果的有效性,因此这一步需要保证获取样本数据的有效性。所述动态获取的实现可以是,根据对性能指标的预测需求,定期或接受指示信息后从网络性能指标库中获取最新历史数据,存储在最新历史数据緩冲区中,保持该緩沖区数据的滚动更新。步骤S202:对所述最新的历史样本数据进行预处理,获得正常样本数据。对获取的网络性能指标最新历史样本数据,可以选择进行以下三种方式的预处理过程,获得正常样本数据方式一,结合运维期间发现的故障、或者节々i日、重大事件等有关情况,确定异常时间点的样本数据,并将异常点排除,保留反映变化规律的典型数据作为正常样本数据。方式二,根据异常时间点的样本数据占整个样本数据的比例,删除最大和最小的数值,其余作为正常样本数据。方式三,基于历史统计数据确定的正常数据比例,按照概率算法自动选出最为集中分布的数据作为正常样本数据。步骤S203:对所述正常样本数据进行相空间重构,获得训练样本数据。对获得的网络性能指标正常样本数据,进行相空间重构得到训练集样本占<formula>formulaseeoriginaldocumentpage0</formula>设基于时间序列的样本数据为"(1」,,…,x(7),其中L../表示时间点,c(7)4示第/个时间点的性能指标值。时间序列预测即根据当前时间点f的历史数据指标值形成的时间序列,,…,1」预测未来,^+y^/t〉o;时刻的{1^/+^,方法是利用xO+W与历史数据,xdx(^-l」,…,xp-m+l」乂之间的关系。这个参数加称为嵌入维数,/z/f直的确定是一个关键问题。这样,当历史数据包含/个样本点数据时,进行相空间重构后得到训练集的容量为(/-m)。<formula>formulaseeoriginaldocumentpage0</formula>x(/—附)相应的丰俞入向量x(/)对应的输出为:KO:W+附),展开如下:<formula>formulaseeoriginaldocumentpage0</formula>少(7—附)—柳.这样,经过这个过程后,训练集样本点为G(/),;KO),卜1…(Z-附)。在进行以上的相空间重构过程中,嵌入维数历的确定是一个关4定要素,对能否达到预测的结果至关重要,嵌入维数的确定目前没有标准的统一的方法,一般采用FPE的方法。FPE(FinalPredictionError)是相空间重构时确定维数的一种常用方法,其方法是设序列长度为/,试验的嵌入维是/,则/+附1ZA^3(附)=《其中《=一乞(刑—x(,))2。计算历在2开始的FPE值,会发现FPE先变小后变大的下凸曲线,该下凸曲线的极小值点的/z值即为最后选定嵌入维维数。步骤S204:对所述训练样本数据空间进行训练,以残差白噪声为依据来选取基于所述训练样本数据的最优支持向量积4莫型;然后针对上一步获得的训练集样本点进行以残差为白噪声为约束条件的SVM建模。这一步是本发明的关键。当支持向量机的参数确定后,支持向量机的模型就可以通过前述的公式(1)至公式(3)计算自动确定。不同的自由参数将自动计算出不同的决策函数模型。从式(1)可知,这些自由参数包括f-不敏感损失函数中的参数e、惩罚(正则)参数C以及核函数的参数。比如我们采用得最多的高斯径向基核核函数《(^^)=^*—x;l1〗〉0,其中参数y就是核函数参数。在这些参数如何选择能达到最好的建模效果问题上,目前没有结构化的方法,普遍采用的是交叉验证法和校验集的误差最小的方法。但交叉验证法是从分类问题借鉴过来的,效果并不好。而在训练集之外提供一个校验集的方法也存在问题,一个问题是,这个方法采用的还是传统的统计思想使已知训练集上的误差最小,这与SVM中已得到很好验证的统计学习理论提出的SRM(StructralRiskMinimization)相悖;另一个问题是,这种方法在应用于时间序列建模及预测时,对非平稳时间序列不是很适用。基于时间序列训练样本的建模和利用普通的训练样本的建模有一个很大的不同普通的训练集中的样本点都是独立的,而在时间序列的训练样本点上通过相空间重构而形成的训练集中,训练样本点的目标值间存在着很大的相关性。筒单地说,训练的目标,就是要找到一个函数,将其中的相关性信息提炼出来,剩余的残差应该是无法进一步提炼相关性信息的白噪声/(JC)=e。其中/0)代表训练样本点的目标值,/(X)代表由相关性信息确定的模型的预测值,f代表残差,是无法进一步提炼相关性信息的白噪声序列。残差是指回归方程式的预测值和实际值的差距6=7,.-^,预测值为样本数据在回归方程式下的计算值,实际值为实际样本数据值。一个时间序列如果是纯随机的,即任意〉0的滞后阶数的相关系数都为0(当然滞后阶数为0时相关系数为1),这个随机序列就是白噪声。因为其谱密度为自相关系数的付氏变换,则此种随机序列谱密度为均匀的,这和白色的光谱一样,故称白噪声。基于这一点,在用支持向量机进行训练样本的拟合时,可以直接以所得训练模型对训练样本的拟合残差是否为白噪声序列来决定回归方程式导出的训练模型是否最优。如果不是白噪声,说明要么拟合不够,原时间序列中还有相关性的信息没有提取出来;要么出现过拟合,一些信息多提取了导致残差出现伪相关。白噪声的验证方法是如果一个时间序列满足Z,,(0,一),则Z,的j阶自相关系数有GA^O,丄)。所以—验证训练集残差为白噪声的方法就是,计算其各阶相关系数是否为零,或者说是否不是显著非零,只有当各阶相关系数都不是显著非零才接受残差为白噪声的假设。一般采用的置信度是95%来检验该阶滞后系数是否显著非零,即若存在自相关系数满足^〉^则r显著非零,表示该残差不是白噪声。当然,当阶数太高,其计算结果可能失去意义,一般认为检查至i或;就可以了。基于这一点,在用支持向量机进行训练样本的数据拟合训练时,可以直接以所得训练模型对训练样本的拟合残差序列是否为白噪声序列来决定模型是否最优。如果不是白噪声,说明要么拟合不够,原时间序列中还有相关性的信息没有提取出来;要么出现过拟合,一些信息多提取了导致残差出现伪相关。因此,通过如下步骤实现对所述训练样本数据空间进行数据拟合,用残差白噪声来选取支持向量才/L^莫型。步骤S2041、设置或调整支持向量初」漠型的自由参数值。步骤S2042、根据所设置的自由参数值,按照结构风险最小化原则对训练样本数据进行训练建模,获得一个回归方程式M(i)作为建模结果。步骤S2043、将训练样本数据的实际值与所得回归方程式M(i)下的计算值求差,得到残差序列,计算残差序列的自相关函数。步骤S2044、根据所述残差序列的自相关函数计算结果,检查所述残差序列是否为白噪声序列,如果是,则所获得的支持向量机训练模型最优,输出该最优的支持向量机模型M(i)和对应的自由参数值,转步骤S205;否则如果不是白噪声序列,返回步骤S2041,重新设置自由参数的值,按照以上过程重新进行训练,直到获得最优的支持向量机训练模型。步骤S205:使用所述最优支持向量机模型对待预测时间点上的数据进行预测,获得所述待预测时间点上的性能指标值正常波动范围。利用得到的最优支持向量机模型对未来待预测时间点的指标值进行一步预测,并计算置信区间。用所述的最优支持向量机训练模型和对应的自由参数进行一步预测,所述一步预测是指,以训练样本中的样本数据粒度间隔为步的单位预测下一个单位的同粒度的数据,如训练样本中的数据是以今天以前的1天为间隔的每天上午9:00的数据,一步预测指预测明天上午9:00的数据。所述一步预测的输入是指待预测时间点之前的m个时间点数据形成的m维输入向量,利用得到的模型进行计算,将得到的计算值作为待预测时间点上的性能指标预警基线值,并计算该基线值在指定置信度下的置信区间和在未来时刻的波动范围。置信区间的估计过程是这样的如果一个时间序列上的样本点满足白噪声序列即z,~肌v(o,a2),则一般认为其符合正态分布,(T为残差的标准差,。根据正态分布表,可计算在支持向量机训练模型下计算出的预测值在指定置信度下的置信区间为(<formula>formulaseeoriginaldocumentpage0</formula>),如若"=0.05,即置信度、/2为95%,则其置信区间为<formula>formulaseeoriginaldocumentpage0</formula>),若"=0.03即置信度为97%,则其置信区间为<formula>formulaseeoriginaldocumentpage0</formula>。根据性能指标的预警基线值和该基线值在指定置信度下的置信区间,即可得到未来时刻的波动范围。另外,本发明还提出了一种基于在线动态训练建模的性能指标值正常波动范围动态确定的方法,可以通过动态建^f莫的方式达到连续地预测待预测时间点上的性能指标值。该方法认为,在一段时间内一个序列是平稳的,这种情况下已有模型可直接用于新的指标值和波动范围的预测。基于此,该在线动态建模方法在重新训练前,首先检查原模型是否可以继续适用,检查方法是将新的误差加入原残差序列,若仍然是白噪声,则认为已有模型仍然适用新的预测。只有当新的残差序列不再满足白噪声的假设时才进行重新训练和重新建模。使用该动态建模方法,可极大减少系统的训练建模负荷,提高预测的效率。所述的基于动态训练建模的性能指标值正常波动范围动态确定方法的实现步骤是,在前述的步骤S101至S105基础上,还包括步骤S106,参见图3所示,描述如下步骤S101:获取网络性能指标的历史值,动态获取最新的历史样本数据;步骤S102:对所述最新的历史样本数据进行预处理,获得正常样本数据;步骤S103:对所述正常样本数据进行相空间重构,获得训练样本数据;步骤S104:对所述训练样本数据进行训练,用残差白噪声来选取基于所述训练样本数据的最优支持向量机模型;步骤S105:使用所述最优支持向量机模型对待预测时间点上的数据进行预测,并利用残差白噪声符合正态分布的特性来计算置信区间,从而获得所述待预测时间点上的性能指标值正常波动范围;步骤S106:检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则转步骤SIOI,重新获取样本数据进行重新训练,选取新的最优支持向量积4莫型,若适用转步骤S105,进行下一个待预测时间点数据的预测。因此,为清楚地说明以上步骤,参见图4,在实施例一的基础上给出本发明的实施例二,实现步骤陈述如下步骤S201至步骤S205的实现过程同实施例一,不再赘述。步骤S206:检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则转步骤S201,重新获取样本数据进行重新训练,选取新的最优支持向量机模型,若适用转步骤S205,进行下一个待预测时间点数据的预测。根据实际应用需求,性能指标的预测需要进行多次,例如今天预测明天的话务量波动范围,明天预测后天的话务量波动范围,理论上应该要用更新的样本数据空间来建模并预测,但从实用角度出发,为了提高预测效率,减少训练次数,也可以在当前的最优模型基础上,先检验当前最优模型是否适用继续预测,如果不适用,才重新建模训练。#企验的方法是,每次根据待预测时间点在当前回归方程式下的计算值与实际值,计算新的残差e,=^-a加入原来的残差序列,进行白噪声检验,若是白噪声序列则表示使用当前回归方程式所约束的模型仍然适用该时间序列,当前的最优支持向量机模型可以继续用于下次预测,如果不是白噪声序列,则转步骤S201。另外,除了一步预测的方法,还可以选择进行多步预测,但支持向量机的模型解析式(见
背景技术:
中式(3))很复杂,是非线性的,所以多步预测时预测误差很难象ARMA算法那样用解析式表达,故本发明采用一步预测方法,以Y更同时计算预测值的置信度为1-"置信区间。所述ARMA(AutoRegressionMovingAverage)算法即自回归滑动平均法,是一种常用时间序列预测方法,但其仅适用于线性平稳时间序列建模及预测。为了达到更好的建模效果,本发明还给出一个更为优化的实施例三来说明,如下所述。本发明实施例三与上述实施例二的实现步骤类似,但S204中采用支持向量机回归算法的一个分支卜sra,在该类支持向量机中不用直接设e的值,而是通过设v的值来自动计算调整f的值,v代表SVR中在f带外的点的份额的上界,或者说是错误样本个数占总样本个数份额的上界,介于0到1之间。这样,需要设定的参数是y、C和v。调整这几个参数的值来使得模型对训练样本的拟合残差为白噪声可编程实现,卜SM和f—sra的算法公式类似,解法基本相同,由于篇幅原因在此不对算法再作进一步介绍,请参见由邓乃扬、田英杰编著的《数据挖掘中的新方法-支持向量机》中关于卜sra的介绍(北京科学出版社,2004.ISBN7-03-013281-5)书中的6.3节。以下是该实施例的具体实现步骤(1)从某省某交换机的管理数据库中,动态获取连续的话务量数据。取2007年3月1日开始的连续160天的运营话务量数据,截取每天上午9:00的数据,原始数据如下列表l所示。表l:某MSC连续160天的每天9:00话务量数据,单位为爱尔兰<table>tableseeoriginaldocumentpage0</column></row><table>间点的话务故障发生信息,因此,这一步不再对以上样本数据进行预处理,这些数据将作为正常样本数据。(3)由于话务量数据具有以一周7天为单位的周期性特点,采用FPE方法计算出嵌入维数111=7,依此对上述数据进行时间序列的相空间重构。前160个数据为训练集,后面的数据是测试集,用于准备测试后面步骤中模型确定之后的模型有效性。(4)对2007-3-19:00到2007-8-79:00形成的样本点数据为7维的训练数据进行支持向量机训练建模,并以残差为白噪声作为模型选择的依据。a)初始化支持向量机模型的自由参数值g=0,c=0,v=0.1;〃c代表惩罚参数,g即为^代表核函数的参数b)设置或调整支持向量枳4莫型的自由参数值g=g+0.1;〃设置参数r的循环递增调整值;c)设置或调整支持向量积4莫型的自由参数值c^+l;〃设置参数C的循环递增调整值;d)在当前的g、c、v值下用SMO算法求解二次优化问题7>式(2),求出自由参数后得到公式(3)的一个支持向量机训练模型M(i);e)用模型M(i)对训练集样本点进行训练拟合,得到计算值;/),/=1...(/-附),将训练样本数据的实际值与回归方程式M(i)下的计算值求差,然后求得各训练集样本点的残差£,.=^-X,i-l…〃-m义得到残差序列;f)计算残差序列的自相关函数,如图5所示,计算阶凄t取20,即为图中的牙黄坐标取值1至20,如果计算自相关系数满足下式;<_^1=^=1...77^,则自V/—附相关系数接近于O,意味着残差序列是白噪声,如图5所示纵坐标为相关系数的计算值,所示计算出的20个自相关系数介于图中两条横线之间;g)根据所述残差序列的自相关函数计算结果,检验所述残差序列是否为白噪声序列,若残差是白噪声,则停止循环,如图5为g-0.7,c-1673时的残差序列自相关系数,首次检验到使残差为白噪声成立的自由参数值g=0.7,c=1673,则所获得的支持向量机训练模型M(i)最优,保存并输出所述最优的支持向量机训练模型M(i)和所对应的自由参数值g-O.7,c=1673。否则,若c^C^(惩罚参数的最大值),则转入c)继续调整参数C,本实施例中c^-2000,若。c皿ig<=Gmax(核函数参数的最大值)则转入b)继续调整参数g。(5)进行一步预测并计算预测值的置信区间和未来^f寺测时间点的波动范围。对第161天的数据即2007-8-89:00的话务量进行一步预测,预测值y(161)为2301.3,残差的标准差为0"=52.9,故在置信度为95%的情况下置信区间为(2301.3-103.68,2301.3+103.68)=(2197.42,2404.98),由表1知,2007-8-89:00的话务量实际值为2228.08,落在置信区间内,说明预测值是比较可信的。(6)检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则转步骤(1),重新取样本数据重新训练,选取新的最优支持向量机模型,若适用转步骤(5),进行下一个待预测时间点数据的预测。计算新的时间点在2007-8-89:00的残差是73.22,加入原残差序列并枱r验新残差序列是否为白噪声,若新残差仍然是白噪声,则表明原模型M(i)仍然适用于下一个待预测时间点2007-8-99:00话务量^b悟的预测,时间序列基本平稳,转入(5)可计算新的预测值及置信区间估计,获得2007-8-99:00话务量数据的正常波动范围。否则需重新训练模型。重复这一过程,直到2007-9-7,利用2007-3-1到2007-8-7所建立的模型一直适用,只是在计算了2007-8-7的误差后再进行新的白噪声检验时才发现此时已不满足白噪声假设,所以需要重新训练。2007-8-8到2007-9-7的预测结果如表2-1至表2-3所示。表2-1白噪声限制支持向量机的预测值与实际值对比表<table>tableseeoriginaldocumentpage0</column></row><table>表2-2白噪声限制支持向量机的预测值与实际值对比表<table>tableseeoriginaldocumentpage26</column></row><table>表2-3白噪声限制支持向量机的预测值与实际值对比表<table>tableseeoriginaldocumentpage26</column></row><table>将2007-9-7的话务量计算的残差加入原残差序列后,发现已不是白噪声序列。所以需要重新训练,训练数据为2007-4-19:00:00到2007-9-79:00:00的160个数据,重复以上过程(4),在g—.7,c=306,n=0.l时残差序列为白噪声,2007-9-8预测值为2188.4,残差标准差o"遞7,实际值2084.79落在置信度为95%的置信范围内。并且该模型在后面的较长时间内适用。由表2可以看出,预测的相对误差在10%以内,预测比较准确,而且因为这段时间网络正常,所以实际值全部落在置信区间内。而且当时间序列出现不平稳特性后,模型会及时被重新训练,实现了高效动态的话务量预测。本发明还提供了一种性能指标值正常波动范围的动态确定装置,以执行上述方法流程。图6示出了该装置结构示意图。该装置主要包括样本数据获取单元101,样本数据预处理单元102,训练样本获取单元103,模型选取单元104和性能指标波动范围预测单元105。同时,本发明还提出了一种基于动态建模的性能指标值正常波动范围的动态确定装置,参见图7,包括样本数据获取单元101,样本数据预处理单元102,训练样本获取单元103,模型选取单元104,性能指标波动范围预测单元105,以及模型继续适用判断单元106。参见图8,作为本发明技术方案的实施例四,说明性能指标值正常波动范围的动态确定装置的一种优化实现结构。样本数据获取单元101,用于获取网络性能指标的历史值,动态获取最新的历史样本数据。该单元^^人网络性能指标库107中动态获取基于待预测时间点的性能指标历史样本数据,每个时间点最少选取过去一个月以上的历史数据,按照经验,少于一个月的数据一般难以保证统计结果的有效性。所述动态获取的实现可以是,根据对性能指标的预测需求,定期或接受指示信息后从网络性能指标库中获取最新历史数据,存储在最新历史数据緩冲区中,保持该緩冲区数据的滚动更新。样本数据预处理单元102,用于对所述最新的历史样本lt据进行预处理,得到正常样本数据。可以选择以下三种方式进行预处理过程方式一,根据运维故障管理系统中所显示的异常时间点,排除异常时间点的样本数据,保留反映变化规律的典型数据作为正常样本数据;方式二,才艮据异常时间点的样本数据占整个样本数据的比例,删除最大和最小的数值,其余作为正常样本数据;方式三,基于历史统计数据确定的正常数据比例,按照概率算法自动选出最为集中分布的数据作为正常样本数据。训练样本获取单元103,用于对所述正常样本数据进行相空间重构得到训练样本数据。可以包括嵌入维数确定模块1031,用于根据FPE方法确定重构相空间的嵌入维数;还包括相空间重构模块1032,用于对所述正常样本数据进行相空间重构,得到训练样本数据。过程同实施例一的步骤203中所述,27不再赘述。模型选取单元104,用于对所述训练样本数据进行训练,用残差白噪声来选取基于所述训练样本数据的最优支持向量机模型。可以进一步包括如下四个;f莫块参数设置模块1041,用于预置或调整支持向量机模型的自由参数值;训练建模模块1042,用于根据参数设置模块所设置的自由参数值,按照结构风险最小化原则对训练样本数据进行优化训练,获得一个回归方程式作为建模结果;残差计算模块1043,根据训练建模模块得到的回归方程式计算该回归方程式下的计算值,与训练样本数据获取单元得到的样本数据的实际值进行比较求差,得到残差序列,计算残差序列的自相关函数;白噪声检验及模型确定模块1044,用于检查残差计算模块所计算残差序列是否为白噪声序列,如果是,则所确定的支持向量机^^莫型最优,输出该最优的支持向量枳4莫型和对应的自由参数值,指示性能指标波动范围预测单元105完成对待预测时间点的数据预测;否则指示参数设置才莫块1041调整支持向量机模型的自由参数值准备重新训练。性能指标波动范围预测单元105,接受指示预测的信息后,使用白噪声检验及模型确定模块1044获得的最优支持向量机模型,在待预测时间点上进行数据预测,并利用残差白噪声符合正态分布的特性来计算置信区间,从而获得所述待预测时间点上的性能指标值正常波动范围。可以通过如下三个模块来实现一步预测模块1051,使用白噪声检验及模型确定模块1044获得的最优支持向量机训练模型和对应的自由参数值,在待预测时间点进行一步预测,将得到的计算值作为待预测时间点上的性能指标预警基线值;置信区间计算模块1052,计算所述性能指标预警基线值在指定置信度下的置信区间;波动范围确定模块1053,根据一步预测模块得到的待预测时间点上的性能指标预警基线值,以及置信区间计算模块得到的置信区间,确定在待预测时间点上的波动范围。参见图9,作为本发明技术方案的实施例五,说明基于动态建模的性能指标值正常波动范围的动态确定装置的基本实现结构。在实施例四的实现技术方案基础上,添加^t型继续适用判断单元106,用于检验所述最优支持向量机是否适用于下一个待预测时间点数据的预测,如果不适用则指示样本数据获取单元101基于下一个待预测时间点重新获取样本数据以重新建^^莫,若适用则指示性能指标波动范围预测单元105继续预测下一个待预测时间点上的性能指标波动范围。所述模型继续适用判断单元106可以进一步包括,新残差计算模块1061,根据模型选取单元得到的最优支持向量机模型的回归方程式,在下一个待预测时间点上计算该回归方程式下的计算值,与训练样本数据获取单元得到的样本数据的实际值求差,将其加入原残差序列并更新为新残差序列,计算新残差序列的自相关函数。白噪声检验及重新建模判断模块1062,用于检验新残差计算模块所得到的新残差序列是否为白噪声序列,如果是,则所述最优支持向量初4莫型仍然适用下一个待预测时间点的凄t据预测,指示性能指标波动范围预测单元105预测下一个待预测时间点上的性能指标波动范围,否则所述最优支持向量机模型不适用下一个待预测时间点的数据预测,指示样本数据获取单元101基于下一个待预测时间点重新获取样本数据以重新建^f莫。需要说明的是,以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域:
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应3见为本发明的保护范围。权利要求1.一种性能指标值正常波动范围的动态确定方法,其特征在于,所述方法包括步骤01)获取网络性能指标的历史值,动态获取最新的历史样本数据;02)对所述最新的历史样本数据进行预处理,获得正常样本数据;03)对所述正常样本数据进行相空间重构,获得训练样本数据;04)对所述训练样本数据进行训练,以残差白噪声为依据来选取基于所述训练样本数据的最优支持向量机模型;05)使用所述最优支持向量机模型对待预测时间点上的数据进行预测,并利用残差白噪声符合正态分布的特性来计算置信区间,从而获得所述待预测时间点上的性能指标值正常波动范围。2、根据权利要求l所述的性能指标值正常波动范围的动态确定方法,其特征在于,还包括步骤06)检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则转步骤01)以重新训练,选取新的最优支持向量积4莫型,若适用则转步骤05)直接进行下一个待预测时间点数据的预测。3、根据权利要求1或2所述的性能指标值正常波动范围的动态确定方法,其特征在于,对所述训练样本数据进行训练,以残差白噪声为依据来选取支持向量枳4莫型的过程包括A)设置支持向量枳4莫型的自由参数值;B)根据所设置的自由参数值,按照结构风险最小化原则对训练样本数据进行训练,获得一个回归方程式作为建模结果;C)将训练样本数据的实际值与所得回归方程式下的计算值求差,得到拟合残差序列,计算残差序列的自相关函数;D)根据所述残差序列的自相关函数计算结果,检验所述残差序列是否为白噪声序列,如果是,则所获得的支持向量机训练模型最优,保存并输出该模型和对应的自由参数值;否则如果不是白噪声序列,返回步骤A,重新设置自由参数的值,按照以上过程重新训练,直到获得最优的支持向量机模型。4、根据权利要求3所述的性能指标值正常波动范围的动态确定方法,其特征在于,获得所述待预测时间点上的性能指标值正常波动范围的过程包括用所述最优的支持向量机训练才莫型和对应的自由参数值进行一步预测,将得到的计算值作为待预测时间点上的性能指标预警基线值,计算该基线值在指定置信度下的置信区间,从而获得在待预测时间点上的波动范围。5、根据权利要求4所述的性能指标值正常波动范围的动态确定方法,其特征在于,检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测过程是,计算下一个待预测时间点上的残差,将其加入原残差序列并更新为新残差序列,若新残差序列仍然是白噪声序列,则所述最优支持向量机模型仍然适用下一个待预测时间点的数据预测,否则所述最优支持向量机模型不适用下一个待预测时间点的数据预测。6、一种性能指标值正常波动范围的动态确定装置,其特征在于,所述装置包括,样本数据获取单元,用于获取网络性能指标的历史值,动态获取最新的历史样本数据;样本数据预处理单元,用于对所述最新的历史样本数据进行预处理,得到正常样本数据;训练样本数据获取单元,用于对所述正常样本数据进行相空间重构得到训练样本数据;模型选取单元,用于对所述训练样本数据进行训练,用残差白噪声来选取基于所述训练样本数据的最优支持向量机模型;性能指标波动范围预测单元,使用所述最优支持向量机模型对待预测时间点上的数据进行预测,并利用白噪声符合正态分布的特性计算误差的置信区间,从而获得所述待预测时间点上的性能指标值正常波动范围。7、根据权利要求6所述的性能指标值正常波动范围的动态确定装置,其特征在于,所述装置还包括,模型继续适用判断单元,检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用则指示样本数据获取单元基于下一个待预测时间点重新获取样本数据以重新建模,若适用则转到性能指标波动范围预测单元预测下一个待预测时间点上的性能指标波动范围。8、根据权利要求6或7所述的性能指标值正常波动范围的动态确定装置,其特征在于,所述才莫型选取单元进一步包括,参数设置模块,用于预置或调整支持向量机模型的自由参数值;训练建模模块,用于根据参数设置模块所设置的自由参数值,按照结构风险最小化原则对训练样本数据进行优化训练,获得一个回归方程式作为建模结果;残差计算模块,根据训练建模模块得到的回归方程式计算训练数据在该回归方程式下的计算值,与训练样本数据获取单元得到的样本数据的实际值求差,得到拟合残差序列,计算残差序列的自相关函数;白噪声检验及模型确定模块,用于检验残差计算模块所计算残差序列是否为白噪声序列,如果是,则所确定的支持向量机模型最优,输出设置的自由参数值和最优的支持向量机模型;否则转到参数设置模块,调整支持向量才;i4莫型的自由参数值,以重新训练。9、根据权利要求8所述的性能指标值正常波动范围的动态确定装置,其特征在于,所述性能指标波动范围预测单元进一步包括,一步预测模块,用所述最优支持向量机训练模型和对应的自由参数值对待预测时间点数据进行一步预测,将得到的计算值作为待预测时间点上的性能指标预警基线值;置信区间计算模块,计算所述性能指标预警基线值在指定置信度下的置信区间;波动范围确定模块,根据一步预测模块得到的待预测时间点上的性能指标预警基线值,以及置信区间计算模块得到的置信区间,确定在待预测时间点上的性能指标波动范围。10、根据权利要求9所述的性能指标值正常波动范围的动态确定装置,其特征在于,所述模型继续适用判断单元进一步包括,新残差计算模块,根据模型选取单元得到的最优支持向量机模型的回归方程式,在下一个待预测时间点上计算该回归方程式下的计算值,与训练样本数据获取单元得到的样本数据的实际值求差,将其加入原残差序列并更新为新残差序列,计算新残差序列的自相关函数;白噪声检验及重新建模判断模块,用于检验新残差计算模块所得到的新残差序列是否为白噪声序列,如果是,则所述最优支持向量机模型仍然适用下一个待预测时间点的数据预测,指示性能指标波动范围预测单元预测下一个待预测时间点上的性能指标波动范围,否则所述最优支持向量机模型不适用下一个待预测时间点的数据预测,指示样本数据获取单元基于下一个待预测时间点重新获取样本数据以重新建冲莫。全文摘要本发明公开了一种性能指标值正常波动范围的动态确定方法,包括步骤获取网络性能指标的历史值,动态获取最新的历史样本数据;进行预处理,获得正常样本数据;进行相空间重构,获得训练样本数据;进行训练建模,以残差白噪声作为选取最优支持向量机模型的条件;使用所述最优支持向量机模型对待预测时间点上的数据进行预测,并计算预测值的置信区间从而获得性能指标值正常波动范围;检验所述最优支持向量机模型是否适用于下一个待预测时间点数据的预测,如果不适用进行重新训练。同时本发明还公开了一种性能指标值正常波动范围的动态确定装置。本发明大大提高了性能动态监控预警的准确性,减少了性能告警的误报和漏报。文档编号H04L12/26GK101267362SQ20081009791公开日2008年9月17日申请日期2008年5月16日优先权日2008年5月16日发明者于艳华申请人:亿阳信通股份有限公司