一种基于边界样本数据的模糊单类分类器的利记博彩app

文档序号:11865409阅读:321来源:国知局

本发明涉及模式识别单类分类领域,特别涉及一种基于边界样本数据的模糊单类分类器算法。



背景技术:

机器学习领域中,模式的分类问题一直是研究的主流。分类问题主要可以分为两大类:一个是多分类问题包括两类分类问题;另一类是单类分类问题。由于复杂度或代价的原因,在很多情况下只能获取一个类别的数据信息,所以只能用这一类别样本进行训练学习,称之为单类分类问题。基于支持向量数据描述(Support Vector Data Description, SVDD)分类器是一个被广泛应用的单类分类器。

支持向量数据描述把原始空间的数据映射到高维空间,找到一系列支持向量,通过这些支持向量构建能够最大包围正类样本,排除尽量多负类样本的超球面。然而,支持向量数据描述并没有考虑样本分布的情况,所有训练样本对于分类边界的贡献度是相同的,这显然是不合理的。在许多问题中,可以发现那些处于高密度的样本对于分类边界的贡献度较大,而密度较低区域的样本贡献度相对较小。支持向量数据描述关注于那些处于边界上的样本也就是支持向量,因为支持向量对于分类边界的贡献度是最大的。一些训练样本可能是异常值点,这些异常值点会影响分类准确率,所以应该忽略这些异常值点,遗憾的是支持向量数据描述缺乏这种功能。本发明的算法基于支持向量数据描述改进,利用样本的结构化信息进行训练学习,提高了分类的精确度。



技术实现要素:

本发明为了解决现有的技术问题,既考虑到数据的全局结构特征,又考虑到数据的局部分布特性,强调不同样本的贡献性,设计出一种能有效处理单类问题和不平衡问题的基于边界样本数据的模糊单类分类器方法。

本发明的技术方案是:一种基于边界样本数据的模糊单类分类器,包括如下步骤:首先提供训练测试所需要的数据集,通过计算所有样本的均值得到数据集的全局中心;然后选定合适的k值作为每个样本所需要选取的近邻个数,通过计算每个样本和其k个近邻点的均值来得到此样本的局部中心;接着计算样本的局部中心到全局中心的二范式距离可以得到该样本的全局-局部中心距离;之后利用每个样本的全局-局部中心距离,可以得到每个样本的模糊隶属度;通过添加模糊隶属度项到支持向量数据描述的目标函数,重构该目标函数能够得到本发明的算法目标函数;紧接着利用拉格朗日对偶形式对该目标函数求解得到二次规划形式函数,求解得到分类边界的圆心;最后对测试样本进行分类,得到分类精确度。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的基于边界是通过全局-局部中心距离判断样本的位置。所述的模糊隶属度是通过全局-局部中心距离来计算求得,反映的是样本的贡献度。

综上所述,本发明的有益效果是:利用全局-局部中心距离能够快速定位样本在数据空间中所处的位置;利用二范式形式能够准确描述样本间的结构信息;通过拉格朗日对偶形式最优化支持向量数据描述的目标函数;通过添加模糊隶属度来区分不同样本的贡献度,强调边界样本的重要性,提高了分类准确性。

附图说明

图1 是本发明的基于边界样本数据的模糊单类分类器算法流程图。

具体实施方式

利用本发明可进行单类分类和不平衡分类。本发明解决其技术问题具体实施方法如下,总共分为四步。

第一步:计算每个样本的全局-局部中心距离。

1)计算所有的样本的平均值,以此值来当作数据集的全局中心,具体做法: ,其中n为样本的个数。

2)需要求出每个样本的k个最近邻点。首先计算每个样本到其余样本的二范数:,其中j是表示其余样本点。求得每个样本到其他样本的距离后,对这些距离进行排序,取出离最近的k个样本就是的k个最近邻。

3)计算的局部中心位置,就是求和它k个最近邻的平均值当作是局部中心,具体做法是:。

4)计算每个样本的局部中心点到样本中心的二范数,求得每个样本的全局-局部中心距离:。

第二步:计算每个样本的模糊隶属度。

1)对计算所得所有全局-局部中心距离进行冒泡排序求得其中的最大值maxD。

2)通过模糊隶属度公式:计算求得每个样本的模糊隶属度,其中为第i个样本的全局-局部中心距离,其中是一个比例系数,取值范围为0-1,用来控制隶属度的范围。

第三步:重构支持向量数据描述目标函数。

1)原始支持向量数据描述的目标函数是:,

其中表示超球面的半径,是用来平衡超球体积和误差,a为超球面中心。

本发明在松弛因子上乘以样本的模糊隶属度得到新的目标函数:;

约束条件为:。

2)通过拉格朗日函数来优化新的目标函数:

其中拉格朗日因子和都是大于0。

3)对拉格朗日函数求其偏导,得到:

4)把上述求得的值代入到拉格朗日函数,得到误差函数:

其中样本的内积用核函数来替换,核函数有多种选择,例如若选用的核函数是高斯核函数,则,其中表示的是两个样本,为核参数;

这是著名的二次规划问题,优化拉格朗日因子可以得到最优的误差函数。

第四步:测试数据集分类效果.

根据第三步中的第3)小步,已经得到超球面圆心的公式:。假设新来一个未知样本,通过判断它和圆心距离如果小于半径R,判断此样本为正常样本,否则为异常类样本,于是得到决策函数:

其中半径R的公式是:

其中为支持向量,表示的是所有样本。

实验结果

为了验证我们所提方法的有效性,实验选取UCI 数据集进行试验。实验环境为:CPU1.80GHZ,8GRAM,Intel(R) Xeon(R),WIN7,Matlab2010b。试验中,选择高斯核函数,其中取值为原始训练集中所有样本空间距离(即)的均值。SVDD的目标函数中参数C从[10^-4, 10^-3, 10^-2,10^-1,10^0,10^1,10^2,10^3,10^4]中选择。比例系数,其取值范围为,每个值都进行实验,取最优的结果。

实验分别在平衡数据集UCI数据集,以及不平衡数据集上进行。数据集中的多类问题转为成多个单类问题进行建模和验证。实验通过对每个数据集的每一类样本分别进行10轮交叉验证训练学习,用平均正确率AA来评判算法的分类效果。交叉验证是最为普遍的计算推广误差的方法之一。其过程为:将训练样本集随机分为K个集合,通常分为K等份,对其中的K-1个集合进行训练,得到一个决策函数,并用决策函数对剩下的一个集合进行样本测试。该过程重复K次,取K次过程中的测试错误的平均值作为推广误差。平均正确率AA由以下公式计算得到:平均正确率。

为了验证我们所提方法的有效性,我们利用UCI数据集对本发明和原始的支持向量数据描述方法的性能进行分类效果比较。数据集可以从http://archive.ics.uci.edu/ml/index.html网站中下载获得,表1给出了实验数据特征属性,平均正确率如表2所示。

表1 UCI实验数据集特征

表2 UCI数据集上的平均正确率AA

本发明算法在UCI数据集上表现比原始对比算法来的出色。无论目标类样本是数据集中的哪一类,本发明算法的平均正确率表现都较为优异。

此外,我们还在不平衡数据集对本发明和原始支持向量数据描述算法进行分类效果比较。

本发明采用的不平衡数据集具体信息如表3所示,平均正确率如表4所示。

表3 不平衡数据集信息表

表4为不平衡数据集上的平均正确率AA

其中目标类为0表示目标类是多数类,为1表示目标类为少数类。

我们发现在不平衡数据集上,无论目标类样本是哪一个类,同样本发明的算方法平均准确率都优于原始对比算法。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1