基于核函数匹配的空间金字塔物体识别方法

文档序号:9888727阅读:622来源:国知局
基于核函数匹配的空间金字塔物体识别方法
【技术领域】:
[0001] 本发明涉及机器视觉领域,特别涉及一种基于核函数匹配的空间金字塔物体识别 方法。
【背景技术】:
[0002] 随着计算机和多媒体技术的飞速发展,数字图像和视频的规模急剧膨胀。海量的 图像数据虽然方便了人们的生活,但是也给人们的生活带来了很大困扰。如何从海量的图 像数据中快速准确的寻找我们自己感兴趣的物体图像,变得越来越困难。因此,如何充分准 确的理解图像,如何有序、高效、合理的组织图像数据并检索到所需要的图像逐渐成为计算 机视觉研究的热点之一。
[0003] 近年来,以词袋模型(Bag of W〇rds,B〇W)为关键技术的物体识别算法取得的进步 最为突出。近几十年来各国专家学者提出了很多方法,大大促进了该领域的进展。但是高精 度的物体识别仍然是一项极具挑战的任务。原因之一就是物体的图像容易受到光线变化、 视角变化、物体遮挡和背景等因素的影响。另外,同类物体间的差异进一步加剧了物体识别 的难度。
[0004] 本专利针对如何获得具有代表性的视觉单词和如何构建具有判别力的视觉单词 直方图的问题,提出了一种基于核函数匹配的空间金字塔物体识别方法,大大提高了物体 识别的准确率。

【发明内容】

[0005] 本发明为了克服上述现有技术中的缺陷和提高物体识别的准确率,提供了一种基 于核函数匹配的空间金字塔物体识别方法。
[0006] 为了实现上述目的,本发明提供如下技术方案:
[0007]步骤一、采集物体样本图像,将待识别的样本图像数据分为训练样本和测试样本;
[0008] 步骤二、将训练样本和测试样本的图像转换为灰度图像,并将灰度图像的数据类 型转化为双精度浮点类型。然后将图像的尺寸进行缩放处理,使其高度和宽度在[50,200] 之间;
[0009] 步骤三、提取训练样本和测试样本图像的ED-SIFT(Efficient Dense Scale-invariant Feature Transform)描述子;
[0010] 步骤四、使用k-means++聚类算法将训练样本的ED-SIFT描述子聚类,获得视觉单 词。所有的视觉单词构成了视觉词典;
[0011 ]步骤五、引入空间金字塔[1],将训练样本的ED-SIFT描述子、测试样本的ED-SIFT描 述子和视觉词典映射到高维空间,然后使用核函数匹配来获得训练样本和测试样本的视觉 单词直方图;
[0012] 步骤六、将训练样本的视觉单词直方图输入到SVM分类器中进行训练;
[0013] 步骤七、基于训练后的SVM分类器,将测试样本的视觉单词直方图输入SVM分类器, 完成物体的识别。
[0014] 与现有的技术相比,本发明具有以下有益效果:
[0015] 1.通过步骤三提取样本的ED-SIFT描述子的兴趣点多、信息量丰富、均匀采样提取 关键点、计算复杂度低。能够有效提尚视觉单词的代表性,提尚识别的准确度。
[0016] 2.通过步骤五引入空间金字塔,充分利用了图像的空间信息。将训练样本、测试样 本和聚类的视觉单词映射到高维空间,然后使用核函数匹配来获得训练样本和测试样本的 视觉单词直方图,大大提高了匹配精度。
[0017] 3.结合ED-SIFT特征的提取,k-means++聚类算法和空间金字塔核函数匹配共同构 建了一个鲁棒的物体识别算法。通过实验结果表明本专利方法在物体的图像受到噪声、光 照、尺度、视角和遮挡等因素的情况下,具有良好的识别效果。另外,本专利的方法可以在训 练图片较少的情况下仍然保持良好的识别效果。
[0018] 因此,本发明在物体识别、图像分类和图像检索等领域都具有广泛的应用前景。
【附图说明】:
[0019] 图1本发明的方法流程图;
[0020] 图2 ED-SIFT描述子提取方法流程图;
[0021] 图3基于高斯核函数映射的梯度方向三维网格图表示;
[0022]图4空间位置权重的伪彩图表示;
[0023]图5基于空间金字塔匹配的词袋模型表示;
[0024]图6本专利算法在Caltech-101数据集上的混淆矩阵;
[0025]图7本专利算法在Caltech-256数据集上的混淆矩阵。
【具体实施方式】
[0026] 为了更好的说明本发明的目的、具体步骤以及特点,下面结合附图对本发明作进 一步详细的说明:
[0027] 参考图1,本发明提出的一种基于核函数匹配的空间金字塔物体识别方法,主要包 含以下步骤:
[0028] 步骤一、采集待识别物体的样本图像,将采集的样本图像数据分为训练样本和测 试样本;
[0029]步骤二、将训练样本和测试样本的图像转换为灰度图像,并将灰度图像的数据类 型转化为双精度浮点类型;然后对图像的尺寸进行缩放处理,使其高度和宽度在[50,200] 之间;
[0030] 步骤三、提取训练样本和测试样本的ED-SIFT(Efficient Dense Scale-invariant Feature Transform)描述子;
[0031] 步骤四、使用k-means++聚类算法将训练样本的ED-SIFT描述子聚类,获得视觉单 词;所有的视觉单词构成了视觉词典;
[0032]步骤五、引入空间金字塔[1],将训练样本的ED-SIFT描述子、测试样本的ED-SIFT描 述子和视觉词典映射到高维空间,然后使用核函数匹配来获得训练样本和测试样本的视觉 单词直方图;
[0033]步骤六、将训练样本的视觉单词直方图输入到SVM分类器中进行训练;
[0034] 步骤七、基于训练后的SVM分类器,将测试样本的视觉单词直方图输入SVM分类器, 完成物体的识别。
[0035]上述技术方案中,步骤一将物体图像样本分为训练样本和测试样本。对于图像样 本,我们可以自己使用照相机拍摄物体来获得物体的图像,也可以使用计算机视觉中物体 识别的经典的数据集。
[0036]上述技术方案中,步骤三中ED-SIFT描述子的提取过程如图2所示。
[0037]上述技术方案中,步骤三中ED-SIFT描述子的提取方法为:
[0038] 1.将样本图像划分为均匀大小的单元格,每个单元格由4X4个像素组成;
[0039] 2.对样本图像进行高斯滤波,计算每个像素的梯度。本专利中高斯滤波器的尺寸 为5 X 5,标准差为1。然后归一化梯度向量;
[0040] 3.依次从图像中选取4X4个单元格,步长为8个像素,遍历整个图像,使用高斯核 函数
将每个单元格中的像素的梯度方向映射到梯度 方向基向量中。其中
z为图像中的像素点,§(χ;)为梯度 方向基向量。如图3所示,本专利中梯度方向基向量是在平面直角坐标系的水平和垂直方向 分别将区间[_1,1]平均分成九等分,得到的100个点坐标,然后使用高斯核函数 ge(§(Z),§(X))将图像梯度的方向歹(ζ)映射到梯度方向基向量|(χ)中。取α = 5,并使用 梯度的模加权,得到样本图像的梯度方向直方图。对于图像中每个选取的4 X 4大小的单元 格,对其中每一个像素 ζ的梯度模归一化的公式为:
ε为小常量,防 止分母为〇);
[0041] 4.使用高斯核函数(
长增大靠近关键点的像素点的空 间位置权重,减小远离关键点的像素点的空间位置权重。其中α为调节因子,本专利中取α = 5。在4X4大小的单元格中,ρζ为关键点ζ的空间位置,qv为像素点ζ'的空间位置。如图4所 示,关键点p z的空间位置的选择为在直角坐标系中的水平和垂直方向分别将区间[0,1]平 均分成四等分后得到的25个点坐标。像素点w的空间位置的选择为在直角坐标系中将水平 和垂直方向上分别将区间[0,2平均分成十五等分后得到的256个点坐标。通过高斯核函 16. 数&3 (pz,qz )计算每个关键点与所有像素点的欧式距离作为空间位置的权重;
[0042] 5.每隔8个像素遍历整幅图像,计算所有4X4单元格的ED-SIFT向量,最后得到图 像的h)-sift特征;
[0043] 6.使用KPCA(kernel principal component analysis)算法[2]对步骤5中的ED-SIFT特征降维。在一个4 X 4单元格图像块p中,基于高斯核匹配的梯度方向直方图的第k个 分量为:
[0044]
[0045] 其中m为梯度方向基向量的长度,η为空间位置向量的长度。λ!^ΡΗ|·是高斯核矩阵 的第让个特征值和特征向量,高斯核矩阵为[6]1細=80^,口」^(2111,211)-2 2^11^^/,口」^ (Zm,,Ζη)+Σν ymVgeCpi'py )gs(Zm,,ζη,)。本专利中 k = 200。
[0046] 上述技术方案中,步骤四中k_means++算法的实现过程如下:
[0047] 1.从训练样本中的ED-SIFT特征点集合X中随机选择一个特征点(^作为初始"种子 占,,.
[0048] 2.计算下一个特征点Υ被选为"种子点"Cl的概率,概豸
其中V = Ci e X。其中D (X)表示特征点X到已选聚类中心的最短距离;
[0049] 3.重复步骤2和3,到所有的K个"种子点"都被选出来;
[0050] 4.对每个特征点,计算其和K个"种子点"的欧式距离,并将其分配到欧式距离最小 的那个"种子点"中;
[0051 ] 5.对于每一类,重新计算类的中心,以每类的平均值更新原来的"种子点";
[0052] 6.重复步骤4和步骤5,直到"种子点"不再变换或者达到实验迭代的次数为止。 [0053]上述技术方案中,步骤五中引入空间金字塔,通过在多分辨率上计算物体的视觉 单词直方图,从而获得了物体图像的局部信息,可以对物体进行精确的识别。实现过程如 下:
[0054] 1.如图5所示,将物体的图像在不同的层级上划分为相同大小的块,在本专利中, 我们取空间金字塔的层数L = 3。本专利中将物体图像从左到右分解的块数为:1 X 1,2 X 2,4 X4;
[0055] 2.基于步骤四获得的视觉词典,统计每个块中的视觉单词直方图,然后将每层获 得的视觉单词直方图连接起来,并且给不同层分配相应的权重。本专利中从左到右各层分 配的权重分别为=,丄,丄; 21
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1