一种基于信息熵的约简型支持向量数据描述方法

文档序号:10512753阅读:532来源:国知局
一种基于信息熵的约简型支持向量数据描述方法
【专利摘要】本发明提供一种基于信息熵的约简型支持向量数据描述方法,首先利用核函数计算训练样本在核空间中相互之间的距离,然后通过所得的结果计算训练样本的信息熵值并通过信息熵值大小进行训练样本的约简,接着将约简后的训练样本根据支持向量数据描述方法计算得到所需的超球体,之后对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。相较于传统的分类技术,本发明的基于信息熵的支持向量数据描述方法通过尽量保留训练数据集边界附近的样本点的同时约简掉其它的训练样本点进行训练的过程,实现在保持SVDD算法分类精度的同时降低算法训练时间和减少内存消耗的效果。
【专利说明】
一种基于信息熵的约简型支持向量数据描述方法
技术领域
[0001] 本发明属于机器学习领域,特别涉及一种基于信息熵的约简型支持向量数据描述 算法。
【背景技术】
[0002] 模式识别系统中分类器的作用是根据特征提取得到的特征向量来给一个被测试 的对象赋一个类标号。单类分类器是分类器中的一种特殊的情况。单类问题相对两类或多 类问题而言,是指分类器模型在模式识别的训练阶段只有一类数据可用,我们称之为目标 数据。在这种情况下,只能利用该类数据样本进行训练,而另一类样本一般会出现采样难的 情况,通常该类称为非目标类或者说成是异常类。单类分类器比较适合异常检测的问题,其 在各种异常检测应用中有着非常显著地效果。其中,支持向量数据描述(Support Vector Data Description,SVDD)就是单类分类器中广泛使用的一种。
[0003] SVDD算法是一种基于边界的方法,通过几何图形超球体对目标数据进行描述,该 方法是利用边界对数据样本进行描述,从而分开野值点。主要是利用一个超球体去将目标 数据样本包含,并将位于超球体外的数据样本视做异常点。该方法比较实质的面对了单类 分类器描述目标数据的问题,能够适应高维数据样本的分类特点。
[0004] 在单分类问题中存在大量的目标数据以及对应的少数异常数据的不对称问题, SVDD对此有很好的处理能力。但是作为一个有效的分类器,因为核函数的引用从而增加了 SVDD的训练的时间和空间复杂度,使得训练速度非常缓慢,并会消耗设备较多的内存,这导 致了 SVDD在实际应用中有较高的难度。
[0005] 熵(entropy)是德国物理学家克劳修斯在1850年创造的一个术语,在信息熵中,变 量的不确定性越大,熵也就越大,将其弄清楚所需要的信息量也就越大。对于数据样本来 说,样本的熵值越大,则认为其不确定性越大,即该样本进行分类时的不确定性越大。而在 边界分类的方法中,位于边界附近的样本点的不确定性较大。另外,在SVDD方法中,通过保 留边界附近的训练样本点而删除远离边界的训练样本点是一种常用的降低训练时间的方 法。
[0006] 本发明通过将SVDD算法中所用到的训练样本在核空间中的相互距离信息引入信 息熵,得到各个样本的熵值信息,并对训练样本集中的较小作用的样本进行约简,保留有较 大作用的样本,这方法能够在保持SVDD算法分类精度的同时降低算法训练时间和减少内存 消耗的效果,这对SVDD算法的推广能够起到重要的作用。

【发明内容】

[0007] 本发明要解决的技术问题在于针对SVDD算法高时空复杂度的缺点,提供一种基于 信息熵的约简型支持向量数据描述方法,降低SVDD训练时间并减少内存消耗。
[0008] 本发明解决其技术问题所提出一种基于信息熵的约简型支持向量数据描述方法。
[0009] 本算法的目标是尽量保留训练数据集边界附近的样本点的同时约简掉其它的训 练样本点进行训练,步骤如下: 步骤1:利用核函数计算训练样本在核空间中相互之间的距离; 步骤2:通过步骤1所得的结果计算训练样本的信息熵值并通过信息熵值大小进行训练 样本的约简; 步骤3:将约简后的训练样本根据支持向量数据描述方法计算得到所需的超球体; 步骤4:对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则 判为异常类样本。
[0010] 本发明解决的技术问题所采用的技术方案还可以进一步完善和推广。本方法中所 提出的利用样本的相互距离得到信息熵值方法可以在多类样本中进行考虑,利用样本不同 类的信息进行样本熵值的计算,这种熵值的计算能够更好的体现样本的不确定性,对样本 进行约简后训练所得结果更佳。
[0011] 本发明的有益的效果是:基于信息熵的应用,利用信息熵的特征表达训练样本的 不确定性信息,约简训练样本中对支持向量数据描述影响比较小的部分训练样本使得在不 降低训练效果的情况下对训练数据集进行约简,达到降低算法训练时间和减少内存消耗的 目的,并在部分数据集上提高分辨精度的情况,使得SVDD算法能在机器学习的实际应用问 题中有一定的参考价值。
【附图说明】
[0012] 图1是本发明的基于信息熵的约简型支持向量数据描述方法流程图。
【具体实施方式】
[0013] 本发明解决其技术问题具体实施方法如下,总共分为四步。
[0014] 第一步:计算训练样本相互之间的空间距离和聚簇中心样本。
[0015] 根据支持向量数据描述算法,样本通过核函数Kt)映射到高维的特征空间(也称作 核空间)来对数据进行更好的描述,为保证算法的准确度,计算样本的信息熵也在核空间中 进行。设训练样本的数据集为而為 t…Λ},(η为训练样本数目) 首先计算训练集中样本在核空间的距离矩阵繼S, 第i个样本与第j个样本在核空间中的距离计算公式如下
其中表示第i个样本与第j个样本在核空间中的欧式距离,K为核函数。
[0016] 第二步:计算训练样本的信息熵值并对训练样本进行约简。
[0017] 1)第i个样本与第j个样本的概率P为第i个样本与第j个样本的距离除以第i个样 本和所有样本的距离之和,并注意样本与自身的概率都设为1, 通过信息熵的计算公式得到,
其中出表示第i个样本的信息熵的值。
[0018] 2)利用样本之间的熵值大小可得到所需要的训练样本,而对熵值较小的样本进行 约简,在进行训练集的约简之前,先利用样本的信息熵值的大小设定阀值的大小,对小于阈 值的样本熵值,对其进行约简; 通过自定义的觀得到信息熵的阈值|(其中霞仏綱渴),通过公式如下
依次判断训练集中样本的熵值与阈值i的大小,如果A > ^则将第i个样本加入到新 的训练集γ中。
[0019] 3)用Y代替原始的训练集进行SVDD的训练。
[0020] 第三步:将约简后的训练样本进行新的支持向量数据描述方法的训练。
[0021] 1)基于对SVDD进行训练样本的约简的前提下使用了一种对SVDD惩罚因子进行改 进的方法。对惩罚因子进行改进的SVDD目标函数如下,
在目标函数中u表示[0,1]之间的数值,其代表可接受的野值点在目标数据中的比值,η 为训练样本的数目。基于信息熵对样本进行约简的算法,随着训练样本的不断减少,导致支 持向量的数目减少,为了降低训练样本数带来的影响,
,可以弥 补训练集约简所带来的影响,故而保持SVDD的性能不会随着样本数的减少而降低。
[0022] 2)引入拉格朗日因子,构造拉格朗日函数:
上式中拉格朗日因子%之〇,Ys >
[0023] 3)通过拉格朗日求解方法,即使得|对变量和R的偏微分为零,得
[0024] 4)通过(7)式的结果,带入拉格朗日函数可得下面的对偶规划函数
通过如上的对偶规划可以得到拉格朗日因子_的值,其中t满足以下式子
[0025]第四步:对测试样本进行判别 判断样本z是否属于目标类样本可由以下决策函数判断,若样本z到球心的距离小于球 半径,样本Z判为目标类
上式中超球体的球心|可以通过(7)式所得的爾值来确定,其中超球体半径R=|%^_。
[0026] 实验结果 为了验证我们所提方法的有效性,我们选取UCI数据集进行约简并和原始的支持向量 数据描述的性能进行比较。
[0027] 实验环境{卩1]1.806取,861?舰,11^61(1〇父6〇11(1〇,¥預7,]\&^1&匕201013。试验中,选
,其中I取值为原始训练集中所有样本空间距离(即 lh、、、乂/ = uη)的均值。每次的试验中依次讨论了f值取值来自集合[0.1,0.2, 0.3,0.4,0.5,0.6,0.7,0.8,0.9],依次带入取其中每个值的情况。3¥00的目标函数中参数11 从[2 0,2 _1,2 _2,2 _3,2 _4,2 _5,2 _6]中选择。
[0028] 利用UCI数据集进行比较,数据集可以从http://archive. ics.uci .edu/ml/ index.html网站中下载获得,表1给出了实验数据特征属性。
[0029]表1 UCI实验数据集特征
表2 UCI数据集实验结果 其中f为自定义参数,SVs表示支持向量个数,Time为总时间,G-Mean是一种不平衡数 据集的判断标准。
[0030]
实验结果表明,和原始的支持向量数据描述方法比较,该约简方法达到了降低算法训 练时间目的,并在不同的f值上存在提高分辨精度的情况。
【主权项】
1. 一种基于信息熵的约简型支持向量数据描述方法,其特征在于包括以下步骤: 利用核函数计算训练样本在核空间中相互之间的距离,通过所得的结果计算训练样本 的信息熵值并通过信息熵值大小进行训练样本的约简,将约简后的训练样本根据支持向量 数据描述方法计算得到所需的超球体,之后对测试样本进行判别,若测试样本位于超球体 之内则判为目标类样本,反之则判为异常类样本。2. 权利要求1种所描述的训练样本在核空间中相互之间的距离,是指训练样本在通过 核函数进行映射之后的空间中计算样本之间的距离,其特征在于通过核函数求得样本间的 相互距离。3. 权利要求1所述的一种求得样本信息熵的方法,其特征在于通过样本之间的距离求 得样本之间的概率即第i个样本与第k个样本的概率P为第i个样本与第k个样本的距离除 以第i个样本和所有样本的距离之和,并注意样本与自身的概率都设为1;之后根据信息熵 公¥求得每个样本的信息熵值大小。4. 权利要求1所述的一种加权支持向量数据描述方法,其特征在于约简样本后对原始 支持向量数据描述算法进行参数的改进设计,即原始参数C改为5. 权利要求1所述的一种基于信息熵对训练样本进行约简的方法中,其特征在于利用 自定义的f得到信息熵的阈值I,其值为样本最大的熵值减去響与样本最大的熵值减去样 本最小的熵值之差的乘积,即0 = ?
【文档编号】G06K9/62GK105868783SQ201610194127
【公开日】2016年8月17日
【申请日】2016年3月31日
【发明人】李冬冬, 王喆, 刘宇, 高大启
【申请人】华东理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1