一种基于知识熵的异常数据检测方法
【专利摘要】一种基于知识熵的异常数据检测方法,其特征在于包括如下步骤:1)样本集合的属性分析阶段:收集应用程序生成的数据样本集合U及其对应的属性集合A;对数据样本集U中的属性值进行规范化预处理;基于属性全集A对数据样本集U的作聚类处理,并计算A的知识熵;分别计算各个属性的重要度,据此构造属性集合的序列;结束。2)样本集合的数据样本检测阶段:计算每个数据样本的异常因子;根据异常因子输出异常数据集合;结束。本发明在利用聚类效果的同时避免聚类的不确定性,可以有效地保证异常数据的检测准确率。
【专利说明】一种基于知识熵的异常数据检测方法
【技术领域】
[0001] 本发明涉及异常数据检测方法,尤其是在计算机信息系统生成的大量数据集的基 础之上探索数据中异常信息的方法,更具体的涉及基于聚类和知识熵的异常数据检测方 法。
【背景技术】
[0002] 异常数据检测也称离群点检测和例外挖掘,常见的异常成因是数据来源于不同的 类(如欺诈、入侵等)、数据变量自然变异(如基因突变,顾客新的购买模式等)、以及数据 测量或收集误差。由于离群点可以发现与众不同的新信息,所以广泛应用于入侵检测、欺诈 检测、公共卫生、电商平台中顾客购买行为分析等众多领域。
[0003] 异常数据检测的方法主要包括以下几种:(1)基于统计的技术:首先建立一个数 据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属 于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象。(2)基于邻近度的技 术:通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。(3)基于 密度的技术:仅当一个点的局部密度显著低于它的大部分近邻时将其分类为异常点。(4) 基于聚类的技术:以远离其他簇的小簇作为异常点。
[0004] 异常数据检测的主要难点在于比较难于处理非数值类型的样本、高维数据的数据 维度信息评价、非单一维度的数据异常等等。基于统计的技术难以处理高维数据;基于邻近 度的技术不能处理具有不同密度区域的数据集;基于密度的技术难以调参;基于聚类的技 术难以保证产生的簇的质量,对离群点的质量影响非常大。
[0005] 为了提高异常数据检测的效果,在利用聚类效果的同时避免聚类的不确定性,本 发明提出一种基于知识熵的异常数据检测方法,可以有效地保证异常数据的检测准确率。
【发明内容】
[0006] 发明目的:本发明提供了一种检测应用收集的大量数据样本集合中异常数据的方 法,该方法首先基于知识熵计算数据样本集合中各个属性的重要程度,然后计算每个数据 样本的异常因子,最后输出异常数据集合。
[0007] 本发明的技术方案是:基于知识熵的异常数据点检测方法包括如下步骤:
[0008] 1)数据样本集合的属性分析阶段:
[0009] a)收集应用程序生成的数据样本集合U及其对应的属性集合A ;
[0010] b)对数据样本集U中的属性值进行规范化预处理;
[0011] C)基于属性全集A对数据样本集U的作聚类处理,并计算A的知识熵;
[0012] d)分别计算各个属性的重要度,据此构造属性集合的序列;
[0013] e)结束。
[0014] 2)数据样本集合的数据样本检测阶段:
[0015] a)计算每个数据样本的异常因子;
[0016] b)根据异常因子输出异常数据集合;
[0017] c)结束。
[0018] 其中步骤1-b的具体过程如下:
[0019] 1)遍历数据样本集U的属性全集A ;
[0020] 2)对于属性值为数值类型的属性%,根据所有数据样本该属性的最小值合最大值 作规范化处理:规范化属性值V' u = (Vu-Vi^in) AVi^x-VuJ,使规范化后的属性值在〇 到1. 〇之间;其中Vu是规范前的属性值,是规范前所有数据样本在%属性上的最小 值,是规范前所有数据样本在ai属性上的最大值;
[0021] 3)对于属性值不为数值类型的属性ak,依据非数值属性值出现的频率赋予0到 I. 〇相应的值:V' U =属性ak取值为Vlu的样本数/样本总数。
[0022] 步骤I-C的具体过程如下:
[0023] 1)考虑数据样本集的属性全集A对应的数据集合U ;
[0024] 2)计算集合U的直径L,
【权利要求】
1. 一种基于知识熵的异常数据检测方法,其特征在于包括如下步骤: 1) 数据样本集合的属性分析阶段: a) 收集应用程序生成的数据样本集合U及其对应的属性集合A ; b) 对数据样本集U中的属性值进行规范化预处理; c) 基于属性全集A对数据样本集U的作聚类处理,并计算A的知识熵; d) 分别计算各个属性的重要度,据此构造属性集合的序列; e) 结束。 2) 数据样本集合的数据样本检测阶段: a) 计算每个数据样本的异常因子; b) 根据异常因子输出异常数据集合; c) 结束。 其中步骤Ι-b的所述的规范化预处理具体过程如下: 1) 遍历数据样本集U的属性全集A ; 2) 对于属性值为数值类型的属性%,根据所有数据样本在该属性上的最小值和最大值 作规范化处理:规范化属性值V' u = (Vu-Vi^in) AVi^x-VuJ,使规范化后的属性值在O 到1. 〇之间;其中Vu是规范前的属性值,\min是规范前所有数据样本在%属性上的最小 值,是规范前所有数据样本在 ai属性上的最大值; 3) 对于属性值不为数值类型的属性ak,依据非数值属性值出现的频率赋予O到I. O相 应的值u =属性ak取值为Vlu的样本数/样本总数; 4) 结束。
2. 根据权利要求1所述的基于知识熵的异常数据检测方法,其特征在于基于Ι-c所述 的基于聚类的知识熵计算方法; 1) 考虑数据样本集的属性全集A对应的数据集合U ; 2) 计算集合U的直径:
,设阈值S = L/10 ; 3) 对U基于参数δ作完全链接聚类,得到聚类结果(E1, E2, E3,…,Ek),其中E1是一个 数据样本集合聚类后的集合,满 fl=l
4) 计算属性全集A的知识熵
5) 结束。 步骤Ι-d的具体过程如下: 1) 对属性全集A中每一个属性叫,计算其属性重要度:sig(ai) =E㈧-E(A-{ai}); 2) 对属性全集A根据属性重要度排序得到属性序列S =〈a、a'2,……,a'|A|>,其中 满足 sig(a' D 彡 sig(a' i+1); 3) 构造属性集合序列AS =〈A" A2,......,Am>,其中对1彡i彡m,為G A A1 = A, Am = {a' J ,并且满足 Ai+1 = Ai- {a' J。
3. 根据权利要求1所述的基于知识熵的异常数据检测方法,其特征在于基于2-a所述 的数据样本异常因子计算算法: 1) 对S中每个属性a' i作步骤I-C的聚类得到>; 2) 对AS中每个属性集合Ai也作步骤1-c的聚类得到<.4 ……,骂.*,. h 3) 对U中每个数据样本X,计算其权重w(x),
其中IXLi i表示义在81 聚类结果中所属于的聚类;
4) 计算X的异常因子d(x), 其中表示X在 Aj聚类结果中所属于的聚类; 5) 结束; 步骤2-b的具体过程如下: 1) /) - 0: 2) 对U中每个数据样本X,若d (X) >0. 85,则D = D U {x}; 3) 输出D ; 4) 结束。
【文档编号】G06F17/30GK104376078SQ201410650726
【公开日】2015年2月25日 申请日期:2014年11月14日 优先权日:2014年11月14日
【发明者】刘峰, 刘钦, 杨瑞, 吕传耀 申请人:南京大学