集合预测的智能选择方法
【技术领域】
[0001] 本发明一般设及数据统计与数据挖掘处理领域,具体设及集合预测的智能选择方 法。
【背景技术】
[0002] 预测通过对客观事实历史和现状进行科学的调查和分析,由过去和现在去推测未 来,由已知去推测未知,从而掲示客观事实未来发展的趋势和规律。我们不可能不进行预测 而只是等到事情发生时再采取行动,因此,好的预测是非常有必要的。然而,进行预测时,没 有单一一种预测方法会绝对有效。无论使用何种方法进行预测,预测的作用也是有限的,并 不是完美无缺。
[0003] 集合预测方法克服了单一预测的缺点,为真实的数据的预测提供了多个预测数 据,但是集合预测给出的多个预测值有时差异很大,有些预测值对实际值的偏离非常大,我 们需要一个好的方法来判断运些数据中哪些数据比较接近实际的值。本发明就是在运样的 背景下提出了集合预测的智能选择方法,对集合预测数据进行再分析,挖掘出其中有用的 信息。
[0004] 目前集合预测在气象预测领域的应用非常广泛,运用本发明提出的方法,可W对 集合预测的预测数据进行再分析,更加精确的为气象预测工作提供一定的帮助。
【发明内容】
[000引本发明针对集合预测的预测数据进行再分析,应用统计和数据挖掘的分类方法, 对历史数据进行分析,为未来的预测信息的利用提供帮助。本发明的目的在于从集合预测 的多个数据中,选取出可能的与实际值误差最小的预测。具体技术方案如下。
[0006] 集合预测的智能选择方法,其包括W下步骤: (a) 读取集合预测数据和每次对应的实际值; (b) 将预测数据看为一个无序向量,分别将实际值、预测数据的最大值、最小值、平均 数、中位数、25分位点和75分位点运7个数跟预测数据进行7次作差; (C)预先定义(b)中每次作差结果的分布有12种分布类型,得到每次作差对应的12种类 型中的一种; ((1)将山)中减去实际值的类型作为结果,其他6个类型组合成为一个编码,统计编码和 结果的对应情况; (e)验证方法有效性,用已有数据进行验证。
[0007] 进一步地,步骤(a)中,预测数据分时间段给出,一段时间间隔给出一组预测数据; 相对应的实际值为实际发生的情况,能通过测量得到。
[0008] 进一步地,步骤(b)中,将预测数据的最大值、最小值、平均数、中位数、25分位点和 75分位点与预测数据向量作差,因为运6个数能反映一组数据的分布情况;同时,将步骤(a) 读取的实际值也与预测数据作差;作差结果仍为一维向量;所述7次作差得到7个一维向量; 25分位点代表一组数据中的某个数,使得数据总数的25%的数小于运个数,中位数就是50分 位点,75分位点同意义。
[0009] 进一步地,步骤(C)包括W下步骤: k-l)对于作差结果的一维向量假设其维度为l*m,将其按大小排序,无序数据变为有 序,对应到坐标轴上; (C-2)假设一维向量中绝对值最大的为x,W〇为坐标原点,2*x/m为间隔把坐标轴正 负方向分别划分为m/2个区间,总共m个区间; (C-3)若m为奇数,用一个1 *m维的向量记录每个区间内点的个数;1~m/2代表坐标负方 向各个区间落的点数目;m/2+l代表落在坐标原点的点数目;m/2+2~m代表坐标正方向各个 区间落的点数目;若m为偶数,用一个l*(m+l)维的向量记录每个区间内点的个数;1~m/2代 表坐标负方向各个区间落的点数目;m/2+l代表落在坐标原点的点数目;m/2+2~m+1代表坐 标正方向各个区间落的点数目; (C-4)将步骤(C-3)的向量对应到预先定义的12种类型中的一种,7次作差得到7个类型 值。 进一步地,步骤(d)中,对于步骤k)的结果,W减去实际值的类型为作为结果,其他6个 类型组合成为一个编码,统计期间的所有编码和结果的对应情况,记入一个矩阵中。
[0010] 进一步地,对于一组预测数据,实际值未知,执行步骤(b)除了减去实际值的处理, 然后进行编码;查询步骤(d)统计的矩阵的结果,找出可能的减去实际值的分布类型;根据 分布类型,在多个预测数据中找出3个对比实际值如降雨量的误差最小的预测数据;集合预 测中,每组预测数据的个数显著大于3。
[0011] 进一步地,该智能选择方法既能用历史数据进行验证,也能用于处理新的数据;在 已知实际值的历史数据中,找出每次的预测数据中与对应的实际值的误差最小的,验证它 在不在步骤(e)使用本方法找出的3个预测值中;在实际值未知的未来的时间段,用该智能 选择方法找到其中3个可能的对比实际值的误差最小的预测数据。
[001引与现有技术相比,本发明具有如下优点和技术效果: 本发明是集合预测数据的再分析。研究范围不是集合预测模型,而是数据。通过数据统 计和数据挖掘的分类方法刻画数据分布的规律,挖掘分布规律中传达的信息。目前对集合 预测数据的再分析研究主要集中在不同集合预测模型应用的对比上。
【附图说明】
[001引图la~图If为实例中不同类型即不同分布情况的直观示意图。
[0014] 图2实施方式中集合预测的智能选择方法的流程图。
【具体实施方式】
[0015] W下结合附图对本发明的实施方式作进一步说明,但本发明的实施不限于此。
[0016] 如图2,合预测的智能选择方法的主要流程包括W下步骤: (a) 读取集合预测数据和每次对应的实际值; (b) 将预测数据看为一个无序向量,分别将实际值、预测数据的最大值、最小值、平均 数、中位数(即50分位点)、25分位点和75分位点运7个数跟预测数据进行7次作差;25分位点 代表一组数据中的某个数,使得数据总数的25%的数小于运个数,中位数就是50分位点,75 分位点代表代表一组数据中的某个数,使得数据总数的75%的数小于运个数。
[0017] (C)预先定义(b)中每次作差结果的分布有12种分布类型,得到每次作差对应的12 种类型中的一种。
[0018] (d)将(C)中减去实际值的类型作为结果,其他6个类型组合成为一个编码,统计编 码和结果的对应情况; (e)验证方法有效性,用已有数据进行验证。
[0019] 步骤(a)读取了历史的集合预测的预测数据和对应的实际值。
[0020] 步骤(b)对预测数据提取能表示数据分布特征的最大值、最小值、平均数、中位数、 25分位点和75分位点运6个值与自身作差。
[0021] 步骤(C)观察了差值分布情况,将分布情况直观的用12种类型进行表示。
[0022] 运里设置了几个阀值界定了不是严格遵循分布规律的情况。例如在图Ic中,左左 型代表没有数落在右边的数而运里实际有,因为落在右边的个数是1,在阀值的界定约束下 我们忽略它,最终类型判定就为左左型。
[0023] 步骤(C)包括W下步骤: k-l)对于作差结果的一维向量假设其维度为l*m,将其按大小排序,无序数据变为有 序,对应到坐标轴上。 巧024] (C-2)假设向量中,绝对值最大的为x,W〇为坐标原点,2*x/m为间隔把坐标轴正 负方向分别划分为m/2个区间,总共m个区间。
[0025] (C-3)若m为奇数,用一个l*m维的向量记录每个区间内点的个数。1~m/2代表坐标 负方向各个区间落的点数目。m/2+l代表落在坐标原点的点数目。m/2+2~m代表坐标