一种基于知识熵的异常数据检测方法

文档序号：6634413阅读：302来源：国知局

一种基于知识熵的异常数据检测方法
【专利摘要】一种基于知识熵的异常数据检测方法，其特征在于包括如下步骤：1)样本集合的属性分析阶段：收集应用程序生成的数据样本集合U及其对应的属性集合A；对数据样本集U中的属性值进行规范化预处理；基于属性全集A对数据样本集U的作聚类处理，并计算A的知识熵；分别计算各个属性的重要度，据此构造属性集合的序列；结束。2)样本集合的数据样本检测阶段：计算每个数据样本的异常因子；根据异常因子输出异常数据集合；结束。本发明在利用聚类效果的同时避免聚类的不确定性，可以有效地保证异常数据的检测准确率。
【专利说明】一种基于知识熵的异常数据检测方法

【技术领域】
[0001] 本发明涉及异常数据检测方法，尤其是在计算机信息系统生成的大量数据集的基础之上探索数据中异常信息的方法，更具体的涉及基于聚类和知识熵的异常数据检测方法。

【背景技术】
[0002] 异常数据检测也称离群点检测和例外挖掘，常见的异常成因是数据来源于不同的类（如欺诈、入侵等）、数据变量自然变异（如基因突变，顾客新的购买模式等）、以及数据测量或收集误差。由于离群点可以发现与众不同的新信息，所以广泛应用于入侵检测、欺诈检测、公共卫生、电商平台中顾客购买行为分析等众多领域。
[0003] 异常数据检测的方法主要包括以下几种：（1)基于统计的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇的集合，则异常是不显著属于任何簇的对象；在使用回归模型时，异常是相对远离预测值的对象。（2)基于邻近度的技术：通常可以在对象之间定义邻近性度量，异常对象是那些远离其他对象的对象。（3)基于密度的技术：仅当一个点的局部密度显著低于它的大部分近邻时将其分类为异常点。（4) 基于聚类的技术：以远离其他簇的小簇作为异常点。
[0004] 异常数据检测的主要难点在于比较难于处理非数值类型的样本、高维数据的数据维度信息评价、非单一维度的数据异常等等。基于统计的技术难以处理高维数据；基于邻近度的技术不能处理具有不同密度区域的数据集；基于密度的技术难以调参；基于聚类的技术难以保证产生的簇的质量，对离群点的质量影响非常大。
[0005] 为了提高异常数据检测的效果，在利用聚类效果的同时避免聚类的不确定性，本发明提出一种基于知识熵的异常数据检测方法，可以有效地保证异常数据的检测准确率。

【发明内容】

[0006] 发明目的：本发明提供了一种检测应用收集的大量数据样本集合中异常数据的方法，该方法首先基于知识熵计算数据样本集合中各个属性的重要程度，然后计算每个数据样本的异常因子，最后输出异常数据集合。
[0007] 本发明的技术方案是：基于知识熵的异常数据点检测方法包括如下步骤：
[0008] 1)数据样本集合的属性分析阶段：
[0009] a)收集应用程序生成的数据样本集合U及其对应的属性集合A ;
[0010] b)对数据样本集U中的属性值进行规范化预处理；
[0011] C)基于属性全集A对数据样本集U的作聚类处理，并计算A的知识熵；
[0012] d)分别计算各个属性的重要度，据此构造属性集合的序列；
[0013] e)结束。
[0014] 2)数据样本集合的数据样本检测阶段：
[0015] a)计算每个数据样本的异常因子；
[0016] b)根据异常因子输出异常数据集合；
[0017] c)结束。
[0018] 其中步骤1-b的具体过程如下：
[0019] 1)遍历数据样本集U的属性全集A ;
[0020] 2)对于属性值为数值类型的属性％，根据所有数据样本该属性的最小值合最大值作规范化处理：规范化属性值V' u = (Vu-Vi^in) AVi^x-VuJ，使规范化后的属性值在〇到1. 〇之间；其中Vu是规范前的属性值，是规范前所有数据样本在％属性上的最小值，是规范前所有数据样本在ai属性上的最大值；
[0021] 3)对于属性值不为数值类型的属性ak，依据非数值属性值出现的频率赋予0到 I. 〇相应的值：V' U =属性ak取值为Vlu的样本数/样本总数。
[0022] 步骤I-C的具体过程如下：
[0023] 1)考虑数据样本集的属性全集A对应的数据集合U ;
[0024] 2)计算集合U的直径L，

【权利要求】
1. 一种基于知识熵的异常数据检测方法，其特征在于包括如下步骤： 1) 数据样本集合的属性分析阶段： a) 收集应用程序生成的数据样本集合U及其对应的属性集合A ; b) 对数据样本集U中的属性值进行规范化预处理； c) 基于属性全集A对数据样本集U的作聚类处理，并计算A的知识熵； d) 分别计算各个属性的重要度，据此构造属性集合的序列； e) 结束。 2) 数据样本集合的数据样本检测阶段： a) 计算每个数据样本的异常因子； b) 根据异常因子输出异常数据集合； c) 结束。其中步骤Ι-b的所述的规范化预处理具体过程如下： 1) 遍历数据样本集U的属性全集A ; 2) 对于属性值为数值类型的属性％，根据所有数据样本在该属性上的最小值和最大值作规范化处理：规范化属性值V' u = (Vu-Vi^in) AVi^x-VuJ，使规范化后的属性值在O 到1. 〇之间；其中Vu是规范前的属性值，\min是规范前所有数据样本在％属性上的最小值，是规范前所有数据样本在 ai属性上的最大值； 3) 对于属性值不为数值类型的属性ak，依据非数值属性值出现的频率赋予O到I. O相应的值u =属性ak取值为Vlu的样本数/样本总数； 4) 结束。
2. 根据权利要求1所述的基于知识熵的异常数据检测方法，其特征在于基于Ι-c所述的基于聚类的知识熵计算方法； 1) 考虑数据样本集的属性全集A对应的数据集合U ; 2) 计算集合U的直径：
，设阈值S = L/10 ; 3) 对U基于参数δ作完全链接聚类，得到聚类结果（E1, E2, E3，…，Ek)，其中E1是一个数据样本集合聚类后的集合，满 fl=l
4) 计算属性全集A的知识熵
5) 结束。步骤Ι-d的具体过程如下： 1) 对属性全集A中每一个属性叫，计算其属性重要度：sig(ai) =E㈧-E(A-{ai}); 2) 对属性全集A根据属性重要度排序得到属性序列S =〈a、a'2,……，a'|A|>，其中满足 sig(a' D 彡 sig(a' i+1); 3) 构造属性集合序列AS =〈A" A2,......，Am>，其中对1彡i彡m，為G A A1 = A, Am = {a' J ,并且满足 Ai+1 = Ai- {a' J。
3. 根据权利要求1所述的基于知识熵的异常数据检测方法，其特征在于基于2-a所述的数据样本异常因子计算算法： 1) 对S中每个属性a' i作步骤I-C的聚类得到>； 2) 对AS中每个属性集合Ai也作步骤1-c的聚类得到<.4 ……，骂.*,. h 3) 对U中每个数据样本X，计算其权重w(x)，
其中IXLi i表示义在81 聚类结果中所属于的聚类；
4) 计算X的异常因子d(x)，其中表示X在 Aj聚类结果中所属于的聚类； 5) 结束；步骤2-b的具体过程如下： 1) /) - 0: 2) 对U中每个数据样本X，若d (X) >0. 85,则D = D U {x}; 3) 输出D ; 4) 结束。
【文档编号】G06F17/30GK104376078SQ201410650726
【公开日】2015年2月25日申请日期:2014年11月14日优先权日:2014年11月14日
【发明者】刘峰, 刘钦, 杨瑞, 吕传耀申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘峰;刘钦;杨瑞;吕传耀;
技术所有人：南京大学;
我是此专利的发明人

上一篇：一种复杂约束条件下多星多任务观测调度优化方法
上一篇：一种西数2.5寸硬盘平推式数据检测设备以及检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。