基于samme.rcw算法的人脸识别优化方法
【专利摘要】基于SAMME.RCW算法的人脸识别优化方法,首先对人脸图像进行特征提取,用图像特征向量,使用SAMME.RCW算法进行识别分类。针对SAMME.R算法的权值调整过程进行修改,在重采样发生时,保证每一类样本的权值不能过小,其也使重采样后的权值调整更加偏向于少数类样本,保证了这些样本的分类效果。SAMME.R算法对弱分类器性能的要求,在各类中分类正确的样本权值大于任一其他类样本的权值,其针对各个类别单独进行正确率的要求。通过对于在重采样时权值分配的修改,保证了每一类样本被选中的概率基本相同,同时保证了少数类和多数类样本在弱分类器中的分类效果。得到最终的强分类器有效提高了人脸识别的准确率。
【专利说明】
基于SAMME. RCW算法的人脸识别优化方法
技术领域
[0001] 本发明属于机器学习和模式识别技术领域,是利用训练数据集成构建一个具有较 强泛化能力的预测方法,以期对新的未知对象给出精确估计。
【背景技术】
[0002] 人脸识别技术是图像处理方面的重要技术,是生物特征识别中较活跃的研究领 域。采用计算机视觉和图像处理技术,利用人脸的轮廓特征和局部细节特征,进行人脸识 另|J。目前已经在身份鉴别和权限控制等方面得到了应用。然而识别率不高是一直妨碍人脸 识别技术广泛应用的重要原因。研究发现可以通过集成学习的方法来提高准确率。集成学 习是一种新的机器学习范式,它使用多个基分类器来解决同一个问题。由于它能显著提高 一个学习系统的泛化能力,从20世纪90年代开始,对集成学习理论和算法的研究一直是机 器学习领域中的热点问题之一。
[0003] 人脸识别是一个经典的多分类问题,采用传统的分类方法,比如KNN算法,难以得 到满意的分类效果。为此,提出了一个优化的SAMME. R算法SAMME. RCW。该算法是一个集成学 习算法,以KNN算法为基分类器,通过不断地学习以提升分类的准确率。仿真实验表明,该方 法比传统的KNN算法准确率有所提升。
【发明内容】
[0004] 本发明的目的在于针对传统的人脸识别技术(KNN算法)存在的识别率低的问题, 提出一种改进的SAMME. R算法SAMME. RCW应用于人脸识别中。
[0005] 为实现上述目的,本发明采用的技术方案是基于SAMME.R算法的人脸识别优化方 法,具体而目,
[0006] 首先对人脸图像进行直方图均衡化、特征提取和降维,即利用PCA算法对图像进行 特征提取和降维,同时在行与列上对图像矩阵进行降维,进一步降低特征向量的维数,有效 降低问题的时间复杂度。
[0007] 用降维后的矩阵数据,使用SAMME. RCW算法进行识别分类。针对SAMME. R算法的权 值调整过程进行修改,在重采样发生时,保证每一类样本的权值不能过小,同时,也使重采 样后的权值调整更加偏向于少数类样本,保证了这些样本的分类效果。SAMME.R算法对弱分 类器性能的要求,在各类中分类正确的样本权值大于任一其他类样本的权值,其针对各个 类别单独进行正确率的要求。因此,考虑在重采样的权值分配时,应给予每一类别相同的权 值,从而保证各类样本都有相同的概率被选中,多数类样本与少数类样本拥有相同被选中 的概率,因此保证了少数类样本的分类结果。同时,还解决了由于权值调整幅度过大导致的 重采样问题,不至于某一类样本无法被当前弱分类器选中。通过对于在重采样时权值分配 的修改,保证了每一类样本被选中的概率基本相同,同时保证了少数类和多数类样本在弱 分类器中的分类效果。由于其本身依旧以SAMME. R算法作为基础,也对本次弱分类器分类错 误样本加大权值,使下次分类更加关注于本次错分的样本,从而满足SAMME. R算法的基本原 理。
[0008] 流程图见图1,其具体步骤如下:
[0009] 步骤一:数据初始化
[0010] 1.1)对人脸库中的所有图像进行归一化处理,归一化的操作是指先把图像统一大 小为32 X 32灰度值矩阵,得到大小为1024 X 1的灰度值矩阵,用PCA算法降维得到大小为256 X 1的矩阵。初始化权值
_中!!!是图像个数,i是样本标号。
[0011] 步骤二:算法流程
[0012] 1、初始化权僧
[0013] 2、for t = l,...,T执行以下(1)-(6)步。
[0014] (1)根据当前权重训练弱分类器,并进行分类,ht:x-y
[0015] (2)循环计算各类中,分到各类样本的权值和:
[0016] (a)for k = 1, . . . ,Κ
[0017] (b)for j = 1, . . . ,Κ
[0018]
[0019] 其中γ tkj表示第t次迭代中,k类样本被分到j类的比率。
[0020] 判断各类中分类正确的样本权值和是否大于分到其他各类的样本的权值和
。若满足,继续循环。若不满足,则对权值进行类间归一 化
j并返回步骤(1)重新开始计算。
[0021] (3)计算伪错误率:
[0025] (5)计算权值向量:[0026]
[0022]
[0023]
[0024] 12345 (6)归一化nf1 2 步骤三:最终强分类器 3 3、 4
[0030]
5 其中C(x)为最终生成的强分类器,用于人脸识别分类,输出分类结果。X为输入的 人脸头像数据,T为迭代次数,ht(x)为弱分类器,参数。
[0032]本发明的有益效果在于:(1)解决了SAMME.R算法重采样的问题;(2)提高了弱分类 器的质量;(3)利用本发明算法进行分类识别可以提高分类准确率即人脸识别率。
【附图说明】
[0033]图1是算法流程。
[0034] 图2是SAMME图示分析。
[0035] 图3是SAMME.R图示分析。
[0036] 图4是SAMME.RCW图示分析。
【具体实施方式】
[0037] 下面详细给出该发明技术方案中所涉及的各个细节问题的说明:
[0038] SAMME算法要求弱分类器的正确率要大于1/LSAMME.R算法,在SAMME算法的基础 上,还要求各类中正确分类的样本权值要大于任意分到其他类的样本的权值。从而保证每 一个弱分类器中,分类正确的样本占多数,纵向来看,根据大数定理可知,其保证了多次迭 代后,最终集成的强分类器正确率的提升。
[0039] SAMME.R算法对每次得到的弱分类器进行限制,保证各类中正确分类的样本权值 要大于任意分到其他类的样本的权值,如果满足该条件则继续进行权值调整和下一次迭 代。如果不满足,则可能是由于训练出的弱分类器不够好,可以在权值不变的情况下重新训 练弱分类器,然后再次判断新的弱分类器是否满足上边所说的条件,如果满足进入下一次 调整,不满足则重新训练弱分类器。
[0040] 在SAMME.R算法中重新训练弱分类器的方法,主要是利用重采样来进行。影响重采 样所选样本的因素,主要有样本的权值和生成的随机数。SAMME.R算法,通过多次重采样调 整每次迭代的弱分类器,依靠的是每次随机数的不同,从而生成不同的弱分类器。若某一次 恰好满足条件,则可以进入下一次迭代中。SAMME.R方法中,这种通过生成不同的随机数的 方法有很大的偶然性,在权值分配比较极端的情况下,并不能够保证一定能够在有限次的 重采样过程中找到满足条件的弱分类器。因此,在SAMME.R算法中设置了重采样次数限制, 若SAMME.R算法在有限次重采样过程中,还无法找到满足条件的弱分类器,则跳过当次迭代 的重采样过程,进入下一次的迭代中。在某种极限的条件下,若SAMME.R算法多次迭代都无 法找到满足条件的弱分类器,则无法保证最终强分类器效果的提升。
[0041 ]要解决重采样无法成功的情况,首先,分析一下采样的流程,算法会给予每个样本 一定的权值,并进行归一化。归一化后,使每个样本在0-1的区间中,按其归一化后的权值占 一定的区间范围。算法随机生成n(n为样本数)个0-1的随机数,若随机数处于某样本所属范 围内时,则选中该样本。由此,完成了有放回的采样过程。其流程如下表:
[0042]
[0043] 基于有放回的采样过程,通过不同的权值以及生成的随机数完成重采样过程。其 采样后得到的新的样本集合就是本次迭代中弱分类器的训练样本集合。从上边的例子中, 米样后的结果中可以发现,有些例子被重复选中,也有些例子没有被选中。若存在一种可 能,当某一类的样本极少或没有被选中,则该类样本在进行分类时,有很大的可能被分错。 因此其生成的弱分类器将不满足SAMME.R算法的限制,随后发生重采样过程。通过重采样过 程,随机生成不同的随机数,有一定的可能消除某类样本被少量或未被选中的情况。但当此 类样本权值过小时,此类样本被选中的概率仍然很小,很可能无法通过重采样过程满足 SAMME.R算法的限制。
[0044] SAMME.R算法为什么会出现无法通过重采样的情况,其根本原因就在于权值的分 配不均匀,导致某些类样本的权值过小,无法在采样时被选中,从而发生分类错误。
[0045] 由于SAMME.R算法权值调整的基础与SAMME算法相同,首先对比一下Adaboost.Ml 算法与SAMME算法在权值调整时的差异。Adaboost.Ml算法要求每次迭代弱分类器的正确率 必须大于1/2,但寻找这类弱分类器十分困难,SAMME算法为了使每次迭代对弱分类器的正 确率的限制从大于1/2,降低到大于Ι/k,其对权值调整策略进行了修改。SAMME算法通过改 变权值调整策略£it的计算方法,令^ =ln ,从而有别于Adaboost.Ml算法中的权 值分配策略^ = °SAMME算法与Adaboost .Ml算法看上去比较相似,其不同点在于&的 计算公式中多加了 ln(k-l)项。当k为2时(也就是两类问题),其权重分配策略与Adaboost算 法相同。在k(k>2)类别分类问题中,由于加上ln(k-l)项,SAMME算法中的弱分类器正确率 不再要求大于1/2,而是大于Ι/k即可,这使得SAMME算法在解决多分类问题时的适用范围更 广泛。但也正是由于其加大了权值调整因子&,使得在每次迭代中,分类错误的样本权值提 升比Adaboost. Ml算法更大,同时分类正确样本的权值降低的速度也更快。从而造成各次迭 代间,弱分类器的波动性较大。若在某次迭代时的弱分类器的结果中,某类样本分类正确率 较高,则在下一次迭代中势必会降低其样本的权值,由于SAMME算法对权值调整的幅度较 大,该类样本的权值下降的幅度也就更大,因此更容易出现由于权值过小导致的样本无法 被选中的情况,以至于当前弱分类器无法对某些类样本正确分类,从而在本次迭代中所生 成的弱分类器无论如何采样也不能够满足SAMME.R算法的限制。
[0046] 通过对于Vowel及Segmentation等数据库的实验和观察也证实了的猜测。在这两 个数据集上,统计了每一次迭代中,每一类样本被分类正确及分类错误的样本数,同时统计 了每类样本在当次迭代采样中被选到的样本数。
[0047]从实验结果中发现,在出现重米样情况时,多是某一类样本只有很少的一部分被 采样选中,导致在该次迭代中,弱分类器在对该类样本进行分类时无法得到正确的结果。以 至于达不到SAMME.R算法对于弱分类器性能的要求。
[0048]因此,考虑在重采样的权值分配时,应给予每一类别相同的权值,从而保证各类样 本都有相同的概率被选中,多数类样本与少数类样本拥有相同被选中的概率,因此保证了 少数类样本的分类结果。同时,还解决了由于权值调整幅度过大导致的重采样问题,不至于 某一类样本无法被当前弱分类器选中。通过对于在重采样时权值分配的修改,保证了每一 类样本被选中的概率基本相同,同时保证了少数类和多数类样本在弱分类器中的分类效 果。由于其本身依旧以SAMME. R算法作为基础,也对本次弱分类器分类错误样本加大权值, 使下次分类更加关注于本次错分的样本,从而满足SAMME. R算法的基本原理。
[0049] 在Yale人脸库上,使用改进的SAMME.R算法,同传统的KNN算法作对比,实验结果如 下表:
[0050]
[〇〇511在人脸库等数据集上的对比实验表明,提出的SAMME. RCW算法的结果要好于KNN算 法,并且有效的提高了人脸识别准确率。
【主权项】
1.基于SAMME. RCW算法的人脸识别优化方法,其特征在于:具体而言, 首先对人脸图像进行直方图均衡化、特征提取和降维,即利用PCA算法对图像进行特征 提取和降维,同时在行与列上对图像矩阵进行降维,进一步降低特征向量的维数,有效降低 问题的时间复杂度; 用降维后的矩阵数据,使用SAMME. RCW算法进行识别分类;针对SAMME. R算法的权值调 整过程进行修改,在重采样发生时,保证每一类样本的权值不能过小,同时,也使重采样后 的权值调整更加偏向于少数类样本,保证了运些样本的分类效果;SAMME.R算法对弱分类器 性能的要求,在各类中分类正确的样本权值大于任一其他类样本的权值,其针对各个类别 单独进行正确率的要求;因此,考虑在重采样的权值分配时,应给予每一类别相同的权值, 从而保证各类样本都有相同的概率被选中,多数类样本与少数类样本拥有相同被选中的概 率,因此保证了少数类样本的分类结果;同时,还解决了由于权值调整幅度过大导致的重采 样问题,不至于某一类样本无法被当前弱分类器选中;通过对于在重采样时权值分配的修 改,保证了每一类样本被选中的概率基本相同,同时保证了少数类和多数类样本在弱分类 器中的分类效果;由于其本身依旧WSAMME. R算法作为基础,也对本次弱分类器分类错误样 本加大权值,使下次分类更加关注于本次错分的样本,从而满足SAMME. R算法的基本原理; 流程图见图1,其具体步骤如下: 步骤一:数据初始化 1.1)对人脸库中的所有图像进行归一化处理,归一化的操作是指先把图像统一大小为 32 X 32灰度值矩阵,得到大小为1024 X 1的灰度值矩阵,用PCA算法降维得到大小为256 X 1 的矩阵;初始化权值/ = 1,2,…,其中m是图像个数,i是样本标号; 步骤二:算法流程 1、 初始化权值i = l,2,...,m ; 2、 fo;r t = l,...,T执行W下(1)-(6)步; (1) 根据当前权重训练弱分类器,并进行分类,ht: (2) 循环计算各类中,分到各类样本的权值和: (a) for k= 1,. . . ,Κ (b) for j = 1,. . . ,Κ其中γ tw表示第t次迭代中,k类样本被分到j类的比率; 判断各类中分类正确的样本权值和是否大于分到其他各类的样本的权值和 丫4,化(Λ')二A'] > VYa,化〇') * y ;若满足,继续循环;若不满足,则对权值进行类间归一化并返回步骤(1)重新开始计算; (3) 计算伪错误率: ((5) 计算权值向量: wi户wi · exp(a(t) · [[ht(xi)声yi]] (6) 归一化"wfi 步骤Ξ:最终强分类器 3、其中C(x)为最终生成的强分类器,用于人脸识别分类,输出分类结果;X为输入的人脸 头像数据,T为迭代次数,ht(x)为弱分类器,aW为参数。
【文档编号】G06K9/62GK105975902SQ201610219331
【公开日】2016年9月28日
【申请日】2016年4月9日
【发明人】杨新武, 袁顺, 马壮, 王聿铭
【申请人】北京工业大学