时序数据分析方法、系统和计算机程序的利记博彩app
【专利摘要】本发明涉及在多维时序预测问题中可靠地和有效地获得时滞和时窗,时滞和时窗根据每个解释变量而不同。对于每一次确定时滞和时窗,在不执行原始条件中的解释变量时序的正则化和最优化的情况下,通过变换到累积时序并执行正则化和最优化,确定最优的时滞和时窗。通过引进正则项到累积时序来调整获得模型的复杂度。而且,通过获得两个估计的累积值(其极性相互反相)的权重(通过正则到该点来简化),能够从这些权重中找到时滞和时窗。
【专利说明】时序数据分析方法、系统和计算机程序
【技术领域】
[0001]本发明涉及时序数据的分析技术,并且具体地涉及在时序预测问题中为每个变量选择最优时滞和时窗的技术。
【背景技术】
[0002]通常,多维时序预测问题(包括恢复问题和类识别问题)是从时序中的D型解释变量预测目标变量时序中的下一时序值的问题。作为具体的例子,提供了从各种经济指数中预测股价的例子,从各种气象学数据中预测气候和天气的例子以及从各种传感器数据中预测机械系统的故障的例子。当求解这样的多维时序预测问题时,必须对该时序中的每一个解释变量设置最优时滞和时窗。在这一方面,时滞L指的是直到某个原始解释变量在目标变量上施加影响的时间延迟。并且,时窗W指的是某个原始解释变量在目标变量上施加影响的时间段长度。在实际的目标系统中,解释变量和目标变量之间存在复杂的因果关系。具体地,并且存在根据解释变量而不同的影响宽度(时窗)、时间延迟(时滞)和影响大小。例如,对于日经指数平均值,纽约道琼斯指数具有直接的(短时滞)和尖锐的(短时窗)影响,但是国内消费信心指数的降低具有延迟的(长时滞)和延长的(长时窗)影响。
[0003]关于这样的时序预测问题,已常规地测试了统计方法。在统计学领域,一维情况的AR(自回归)模型的研究和多维情况的VAR(矢量自回归)模型的研究已有很长的历史。然而,在多维情况下,主要是模型长度检验方法,并且当超过若干维度时,存在方法的可靠性显著下降的问题。还测试了机器学习方法。在机器学习领域,对考虑时滞和时窗主要趋势是滑窗方法。在许多情况中,所有的解释变量由相同的时滞和时窗处理。在存在施加不同影响的解释变量的情况中(当对于每一个解释变量的时滞和时窗不同时),结果是不适宜的。另外,调整迟滞或窗口中的一个来减少计算量,并且这使得发现最优组合变得复杂化。提供下列专利文献作为本主题的文献。
[0004][参考资料]
[0005][专利文献]
[0006][专利文献I]专利申请2007-18216
[0007][专利文献2]专利申请2007-199862
【发明内容】
[0008]技术问题
[0009]统计方法和机器学习方法对于多维时序预测问题的可靠和有效处理仍存在问题。
[0010]本发明已经考虑了该问题,并且其目的在于提供时序数据分析方法、系统和计算机程序,该时序数据分析方法、系统和计算机程序能够通过可靠地和有效地找到对于多维时序预测问题中的每个解释变量不同的时滞和时窗来构造更加精确的预测模型。
[0011]解决问题
[0012]提供以下内容来理解该发明的方法。具体地,该发明是选择时滞和选择时窗的方法,时滞是直到解释变量时序在目标变量时序上施加影响为止的时间延迟,时窗是解释变量时序在目标变量时序上施加影响为止的时间段,并且该发明提供步骤用于基于解释变量时序改变到累积值时序,累积值时序由变量从对应于有限时间的每个时间点的累积值构成;以及提供步骤用于作为引入正则项的优化问题求解累积时序,以从解得的权重获得时滞的值和时窗的值。
[0013]当本发明也被理解为计算机程序或者计算机系统时,其变得清楚并且能够提供与理解本发明为方法时相同的技术特征。
[0014]发明优点
[0015]通过使用本发明,能够可靠地和有效地找到在多维时序预测问题中根据每个解释变量而不同的时滞和时窗。
【专利附图】
【附图说明】
[0016]在附图中:
[0017]图1是示出计算机I功能的方块图。
[0018]图2是示出计算机I运行的流程图。
[0019]图3是解释原始解释变量时序和累积值序列的图。
[0020]图4是将真实模型系数与所提供方法的模型的系数比较的图。
[0021]图5是将所提出方法模型的系数与现有方法模型的系数比较的图。
[0022]图6是将所提出方法模型的系数与现有方法模型的系数比较的图。
[0023]图7是解释所提出模型和现有模型的预测误差及模型构建时间的图。
【具体实施方式】
[0024]图1是根据该实现方式模型示出计算机I的硬件配置的功能方块图。计算机I的硬件结构提供总线10 (低速和高速)、与总线10连接的CPU (中央处理单元)11、RAM(随机存取存储器,存储设备)12、R0M(只读存储器,存储设备)13、HDD (硬盘驱动器,存储设备)14、通信接口 15和输入输出接口 16。此外,与输入输出接口 16连接的有鼠标(指点设备)17、平板显示器(显示设备)18和键盘19。而且,计算机I被解释为采用普通个人计算机结构的设备,但是例如可以执行有CPUll和HDD14的复用来实现更高的数据处理能力和有效性。除了这些台式型计算机,还可以采用任何各种类型的计算机系统,例如笔记本或平板型的个人计算机。
[0025]计算机I内的软件配置提供操作系统(OS)来提供基本功能、使用OS功能的应用软件和用于输入-输出设备的驱动软件。把这些软件应用的每一个连同各个类型的数据加载到RAM12内,并且由CUPll执行,并且计算机I作为完整的单元执行图2所示的处理过程。
[0026]图2是解释由计算机I执行的处理过程的流程图。该处理被广泛的分为两步来构造。而且,图3是代表性地示出了该处理的各阶段的图。
[0027]继续,通过引入正则同时地选择了最优迟滞和最优窗口(S2)。首先,由D(N+M)个累积值序列解释变量和单一目标函数构成的预测问题被返回到用于目标函数的优化问题,并且引入正则项到目标函数内(S21)。此时,该结果使正则项中解释变量的权重趋近于零(间距),并稳定模型结构。在该实现方式模式下,引入了用于使不需要的变量的权重为零的具有较大影响的正则项LI。具体地,当x_i是解释变量矢量时,y_i是目标变量值,并且beta是模型,模型的输出是f(x_i,beta),寻找beta用于最小化下面的目标函数,导致返回到最优化模型。这意味着寻找最小化预测误差的模型。
[0028]Sigma (y_i_f (x—i,beta)) "2
[0029]然后,通过引入正则项(例如,LI正则项)以避免模型的复杂化(在该例子中,增加非零分量),产生了如下的目标函数。而且,beta是beta的每一个元素的绝对值的和。
[0030]Sigma(y_i~f (x_i, beta)) '2+lambda | beta
[0031]其后,通过调整正则参数来调整获得的模型的复杂度(S22)。此时,期望仅对于需要预测的原始解释变量的若干个累积值序列解释变量的权重变成非零,并且相对地,期望不需要预测的原始解释变量的所有权重变成零。
[0032]具体的,在上面的等式中,lambda是正则参数,并且通过调整值(lambda〉= O)的大小,能够最小化与lambda*(beta的非零元素的和)结合的总的预测误差。通常已知,当lambda变得更大时,预测误差增大而beta的非零元素的和变小(非零元素的数量和大小都减小)。
[0033]然后,调整模型的复杂度直到权重是非零的累积值序列解释变量变成两项(S23),并且通过使权重是非零的累积值序列解释变量变成两项,能够解释同时选择最优的L和W的这种情况(S24)。而且,此时为了方便,提出了对所有解释变量都存在最优时窗和时滞的假设,以及假设它们可以由两个或更多个非零累积序列解释变量的权重来表达。另一方面,还假设在实际模型的时窗和时滞内存在对预测没有意义的噪声变量,其权重都是零。在这种情况下,很明显,在图2的S23处,包括通过设置到“不从两项中改变具有非零权重的累积序列解释变量,即使当调整正则参数时也不从零项改变”的自然扩展是明显的。
[0034]继续,通过引入正则同时地选择了最优迟滞和最优窗口(S2)。首先,由D(N+M)个累积值序列解释变量和单一目标函数构成的预测问题返回到对于目标函数的优化问题,并且引入正则项到目标函数内(S21)。此时,该结果使正则项中解释变量的权重趋近于零(间距),并稳定模型结构。在该实现方式模式下,引入了用于使不需要的变量的权重为零的具有较大影响的正则项LI。其后,通过调整正则参数来调整获得的模型的复杂度(S22)。此时,期望仅需要预测的原始解释变量的若干个累积值序列解释变量的权重变成非零,并且相对地,期望不需要预测的原始解释变量的所有权重变成零。
[0035]此外,调整模型的复杂度直到权重是非零的累积值序列解释变量变成两个(S23),并且通过使权重是非零的累积值序列解释变量变成两个,能够解释同时选择最优的L和W(S24)的这种情况。
[0036]具体地,当已经获得了累积序列解释变量c_t~gl和c_t~g2 (gl〈g2)(其权重为非零)时,有最优的L = gl以及W = gl-g2(参考图3(a) (b)左边)。例如,c_t~5(gap g =5)的权重是1.0,并且c_t~ 15 (gap g = 15)的权重是-1.0,导致N+M = 20。通过加权和求和这些累积序列,获得如下值c,_t。
[0037]c / _t = {x_ (t~5) +x_ (t~6) +...x_ (t~20)} - {x_ (t~15) +x_ (t~16) +...+x_(t_20)} = {x_ (t-5) +x_ (t-6) +...+x_ (t-14)}
[0038]这与当迟滞L = 5以及窗宽W = 10时相等,并且这使得能够解释这一组合被选作最优的一组值。[0039]以该种方式解决多维时序问题可提供如下的优点。具体地,与简单的组合两边不同的时滞和不同的时窗并且为每一个解释变量准备N*M种类型的转换(D*M*N个变量)对t匕,通过D(N+M)种类型完成的转换序列使得计算高效并且使得找到的模型稳定。而且,与所有解释变量固定在相同的时滞和相同的时窗对比,由于例如变量变得太多或计算变得不稳定,表达能力变得更大,并且,期望获得在真实模型附近的较高的精确度的模型。此外,仅通过累积序列转换而正则化多重共线性留下的模型计算的不稳定性来使进一步的缓解成为可能。而且,通过使用正则化参数调整正则化的有效条件,抑制不需预测的变量的权重并且调整累积序列变量的权重中的非零元素的比例,并且这能够改变要表达的模型的复杂度。
[0040]在这一点上,可考虑通过滑动窗的方法选择单个迟滞和窗口宽度的情况,但是,在时间影响的更复杂的波动情况下,能够通过调整正则参数来表达(S22)以产生用于累积序列变量的非零权重的数量为三个或更多个(S23)。例如,c_t~5 (gap g = 5)的权重变为2.0,c_t"10 (gap g = 10)的权重变为-1.0, c_t~ 15 (gap g = 15)的权重变为-1.0,导致 N+M =
20。通过加权及求和这些累积序列,获得如下值c’ _t.[0041]c 1 _t = 2* {x_ (t_5)+...x_ (t_20)} - {x_ (t_10)+...+x_ (t_20)} - {x_(t-15) +...+x_ (t-20)} = {x_ (t-5) +...+x_ (t-9)} {x_ (t-5) +...+x_ (t 14)} = 2* {x_(t_5) +...x_ (t_9)} + {x_ (t_10) +...+x_ (t_14)}
[0042]这与当迟滞L = 5以及窗宽W = 10时等效,并且这使得能够解释附加到窗的前半部分的权重对比于窗的后半部分的权重加倍。
[0043]下面的部分通过使用图4-7描述了证实该实现模式的效果的实验的例子。
[0044]实验设置:实验设置如下。
[0045]1.原始解释变量时序:变量
[0046]x_a = sin (2x) +e
[0047]x_b = cos (X)+e
[0048]其中,(e?Ν(0,0.5~2))
[0049]2.目标变量时序:真实模型计算
[0050]真实恢复模型:y= 1.3*sw (x_a,5,2)-0.7*sw (x_b,2,8)+e
[0051]函数sw(x,l,w):用于时滞1、时窗w的滑动窗的移位平均。
[0052]3.时滞和时窗的备选值
[0053]Lagl= {0,1,2,3,4,5}
[0054]窗宽W= {0,1,2,3,4,5,6,7,8,9,10}
[0055]4.方法
[0056]现有方法:
[0057]计算用于所有候选迟滞和窗口宽度的组合的转换序列
[0058]应用LARS(最小角回归)用于LI正则线性恢复。
[0059]提出的方法(实现方式模式):
[0060]计算用于最大化候选迟滞加最大窗宽的累积转换序列
[0061]应用LARS(最小角回归)用于LI正则线性恢复。
[0062]模型选择:正则化参数选择CP统计最小值[0063]训练数据:50,000样本
[0064]5、评估方法
[0065]比较真实模型和假设模型的系数权重
[0066]比较测试数据的预测准确度和计算时间的减少效果。
[0067]图4是将真实模型的x_a系数和x_b系数与所提出方法模型的x_a系数和x_b系数比较的图。对于x_a系数(图4(a))和x_b系数(图4(b)),提出方法模型都与真实模型接近,并且将理解存在间距。图5是将提出模型(图5(a))的x_a系数与现有的模型(图5(b))的1_&系数比较的图。而且。图6是将提出模型(图6(a))的1_13系数与现有的模型(图6(b))的x_b系数比较的图。在任何提出的模型的系数都存在间距,但是,与此相t匕,由于现有模型的任何系数,产生了共线性导致的过度学习,并因此理解了不必要地给许多系数应用了大的权重。
[0068]图7是示出预测误差(图7(a))和模型构建时间(图7 (b))的图,当训练数据数量是{50,100,200,300,400,500,1000}以及测试数据数量是100 (真实模型没有噪声:y =
1.3*sw(x_a,5,2)-0.7*sw (x_b,2,8))。将理解,提出的方法从预测误差角度和从模型构建时间角度相比于现有模型是有优势的。
[0069]参考符号列表
[0070]I个人计算机(计算机系统)
[0071]11 CPU(中央处理单元)
[0072]12 RAM(随机存储内存,存储设备)
[0073]13 ROM (只读存储内存,存储设备)
[0074]14 HDD (硬盘驱动,存储设备)
[0075]17鼠标(指点设备)
[0076]18平板显示器
【权利要求】
1.一种用于使用计算机选择时滞和时窗的方法,时滞是直到解释变量时序在目标变量时序上施加影响为止的时间延迟,时窗是解释变量时序在目标变量时序上施加影响的时间段,所述方法包括如下步骤: 基于解释变量时序变换到累积时序,所述累积时序由每个变量从对应于特定有限时间的每个时间点的累积值构成;以及 作为引入正则项的优化问题求解累积时序,以从解得的权重获得时滞的值和时窗的值。
2.根据权利要求1的方法,其中有限时间是提前设置到计算机的存储值。
3.根据权利要求1的方法,其中有限时间是由用户输入到计算机的。
4.根据权利要求1的方法,其中正则项是LI正则项。
5.根据权利要求1的方法,其中求解步骤包括调整正则参数的步骤。
6.根据权利要求5的方法,其中继续调整步骤直到预测所需的原始解释变量的仅若干个累积序列解释变量的权重变成非零。
7.根据权利要求5的方法,其中继续调整步骤直到预测所需的原始解释变量的仅两个累积序列解释变量的权重变成非零。
8.根据权利要求7的方法,其中累积序列解释变量中的两个的大小在数字上相等并且具有极性相反的关系。
9.一种计算机程序,使得在计算机中执行权利要求1-8的方法。
10.一种计算机,用于选择时滞和时窗,时滞是直到解释变量时序在目标变量时序上施加影响为止的时间延迟,时窗是解释变量时序在目标变量时序上施加影响的时间段,包括: 用于基于解释变量时序变换到累积时序的装置,累积时序由每个变量从对应于特定有限时间的每个时间点的累积值构成;以及 用于作为引入正则项的优化问题求解累积时序,以从解得的权重获得时滞的值和时窗的值的装置。
【文档编号】G06Q10/04GK103930912SQ201280054792
【公开日】2014年7月16日 申请日期:2012年11月2日 优先权日:2011年11月8日
【发明者】比户将平 申请人:国际商业机器公司