1,构造数据挖掘样本。
[0034] 具体地,根据当前时间To选取过去最近一段时间内(如前15周)的装置运行状态历 史数据作为总数据样本,然后按每周通信流量数据统计值对每一个计量装置进行数据样本 构造。比如某个计量装置i的数据样本为集合FdDo+Do-s,……,Do- 15),其中Dh为该装置前1 天到前7天的一周通信流量数据统计值向量,Do-2为该装置前8天到前14天的一周通信流量 数据统计值向量,以此类推。
[0035] 对于每周通信流量数据统计值向量D,可根据运行管理经验选取通信流量数据统 计值来构造。比如,选取发送(下行)字节、接收(上行)字节、重连次数、心跳流量四类通信数 据的一周均值、方差、越域次数构造一个12维的数据向量0(1 1,12,~.^12)。其中11到^为该 四类通信数据的一周均值,X5到X8为该四类通信数据在一周内的方差,X9到 X12为该四类通信 数据在一周内超过均值一定范围的次数,范围可根据实际情况进行设置,比如(0.9,1.1)* 均值。
[0036] S402,对数据挖掘样本进行分类以得到待分类样本和训练样本,并对训练样本进 行标记。
[0037] 具体地,将数据挖掘样本分为两类:待分类样本和训练样本。其中将所有计量装置 最近的一周通信流量数据统计值向量(即Do-Ο归为待分类样本,其他归为训练样本。
[0038] 对每一个训练样本,根据现场巡维记录对这段时间装置是否发生故障进行标记。 如在训练样本所在的一周内发现了故障,则将该训练样本标记为故障样本,将该训练样本 前一周的样本标记为注意样本,其他都标记为正常样本。
[0039] 在样本标记完之后,剔除掉所有的故障样本,建立只含注意样本和正常样本的带 标签训练集合X。
[0040] S403,采用KNN算法对,待分类样本进行标记以得到待分类样本的置信度。
[0041 ]具体地,采用KNN算法对待分类样本进行标记的过程如附图4所示,具体说明如下:
[0042] a)对每一个待分类样本,计算其到训练集X的欧氏距离,例如某待分类样本表示为 Χ1=(Χ11,Χ12, · · ·,Χ1η),其到训练集X任意一点的距离为:
[0043]
[0044] 其中η为通信流量数据统计值向量的维数,Xkl表示训练集X第k个样本中第i维属 性;
[0045] b)按照距离从小到大进行排序,得到一个有序的队列集Q;
[0046] c)在有序队列集Q中选取距离最小的K个点,统计其中各分类标签的个数,取个数 最多的类别作为该待分类样本的状态。例如,取K = 5,如果该待分类样本最近的5个邻近点 中有1个正常样本和4个注意样本,则标记该待分类样本为注意样本;
[0047] d)计算样本类型标记的置信度,计算公式为:
[0048]
[0049] 其中,A:,!,…,仏,?分别为待分类样本X1到最近K个训练样本的距离;正负号由 待分类样本与训练样本的标签决定,相同为正,不同为负;若取K = 5,则取C=10。
[0050] S404,将所有注意样本按照置信度从高到低进行排序,根据实际工作情况将前N个 注意样本对应的电能计量装置的运行状态判定为注意状态,剩余的判定为正常状态,其中N 为自然数。
[0051] 具体地,将所有标记为注意的待分类样本按照置信度从高到低进行排序,根据实 际工作情况从中选择前N个(如30个),将此N个样本对应的计量装置的运行状态判定为注意 状态,其他都判定为正常状态。
[0052] S405,根据运行状态分析结果将电能计量装置分别标记为正常状态、注意状态、已 知注意状态和新发现注意状态。
[0053]具体地,如果分析计量装置的运行状态为正常,则将该计量装置标记为正常状态; 否则,结合历史分析结果,判断该计量装置在前段时间是否也确定为注意状态,如果是则标 记为已知注意状态,反之则标记为新发现注意状态。
[0054] 经过上述图2或图4的处理,所有电能计量装置都被自动标记为正常状态、已知注 意状态、新发现注意状态、已知故障状态、新发现故障状态中的一种。电能计量装置管理人 员在正常上班之后(如上午9点),可对发生状态变化的电能计量装置进行人工复核,及时发 现计量装置故障,并可对不同状态的计量装置采用针对性的运维措施,如对故障装置进行 现场检修,对注意状态的装置加强巡检等。
[0055]相应地,请参考图5,本发明还提供了一种电能计量装置运行状态的自动评估系 统,包括:
[0056] 获取模块100,用于从数据主站300获取所有电能计量装置一周期内的所有的最新 计量数据;
[0057] 评估模块200,用于根据所最新计量数据分别对有指导的和无指导的电能计量装 置进行运行状态判定;
[0058] 其中,周期为24小时,最新计量数据包括电能量数据和通信流量数据,其中电能量 数据包括表码、用电功率、电流及电压,通信流量数据包括发送字节、接收字节、重连次数、 数据流量、报警流量、心跳流量及所述电能计量装置的在线时间。
[0059]具体地,如图5所示,评估模块200包括第一评估单元20及第二评估单元22,其中, 第一评估单元20用于根据最新计量数据对有指导的电能计量装置进行运行状态判定,第二 评估单元22用于根据最新计量数据对无指导的电能计量装置进行运行状态判定。
[0000] 具体地,请参考图6,第一评估单元20包括:
[0061 ]模型构造单元201,用于根据判断准则构建有指导的数据挖掘模型,其中判断准则 包括所述电能计量装置发送的表码数在两天内出现连续波动两次、连续不在线超过五天及 连续三天传送至所述数据主站的信息为FFFF的无效数据;
[0062]分析单元202,用于根据有指导的数据挖掘模型、最新历史数据及数据主站300中 的历史计量数据,对每一个电能计量装置进行分析,以判断出发生故障的电能计量装置; [0063]故障确定单元203,用于根据历史分析结果,判断已发生故障的电能计量装置的故 障是否为已知故障。
[0064] 具体地,请参考图7,第二评估单元22包括:
[0065] 样本构造单元221,用于构造数据挖掘样本;
[0066] 分类单元222,用于对数据挖掘样本进行分类以得到待分类样本和训练样本,并对 训练样本进行标记;
[0067]置信度计算单元223,用于采用KNN算法对待分类样本进行标记以得到待分类样本 的置信度;
[0068]状态标记单元224,用于将所有注意样本按照置信度从高到低进行排序、根据实际 工作情况将前N个所述注意样本对应的电能计量装置的运行状态判定为注意状态、剩余的 判定为正常状态以及根据运行状态分析结果将电能计量装置分别标记为正常状态、注意状 态、已知注意状态和新发现注意状态,其中N为自然数。
[0069]需要注意的是,关于第一评估单元20及第二评估单元22中各部件对数据的具体处 理流程已在上述方法中做了具体描述,故在此不再赘述。
[0070] 从以上描述可以看出,本发明的方法及其系统在供电部门已积累的大量电能量数 据及计量装置运行数据基础上,通过引入数据挖掘技术,及时准确地判断电能计量装置的 运行状态,经过该方法及其系统的评估,所有电能计量装置都被自动标记为正常状态、已知 注意状态、新发现注意状态、已知故障状态、新发现故障状态中的一种,使得该方法为制定 针对性的运维措施提供决策依据,可根据不同的运行状态进行针对性的运维管理,减少了 运维资源的浪费,实现更高的经济效益,同时进一步提升了客户服务水平。
[0071] 以上结合最佳实施例对本发明进行了描述,但本发明并不局限于以上揭示的实施 例,而应当涵盖各种根据本发明的