基于有监督图的直推式数据降维方法

文档序号:9911626阅读:1232来源:国知局
基于有监督图的直推式数据降维方法
【技术领域】
[0001] 本发明属于图像处理技术领域,特别涉及一种高维数据降维方法,可用于数据与 计算机图像识别。
【背景技术】
[0002] 近些年来,随着计算机技术和制造业的发展,智能设备已经全面普及,比如智能手 机,智能手环等等。几乎每台智能设备都有大量的传感器,从而采集各方面的数据。大量智 能设备的普及随之而来的是原始数据的爆炸性增长。当我们获得越来越多的数据,如何充 分利用数据中的信息,已经成为学术界研究的焦点。数据降维就是用于解决这些问题的有 效手段。数据降维旨在利用普及的计算机自动的探索原始数据中的信息,发现潜藏在大量 的混乱数据背后的本质特征。数据降维的主要代表方法有主成分分析PCA,局部保持投影 LPP,线性判别分析LDA等。
[0003] 随着信息技术以及传感器技术的发展,通过传感器可直接获取的大量无标记样 本,相比之下,有标记的样本则难以获得。比如医学图像处理,通过现代化的仪器获取数量 庞大的医学影像是容易的,但是让医生人工标注全部图像,需要耗费昂贵的人力物力。而直 推式降维方法最显著的优点是自动地结合少量的标记样本和大量的未标记样本进行训练 来完成数据降维,明显的提高了效率并且降低了人力成本,具有重要的现实意义。目前,直 推式降维方法已经成功地应用于人脸识别、图像分类、图像检索等领域中。
[0004] 直推式降维方法的基本模型如下:给定一个d维随机向量X,它的η个观察值被记作 xj(j = l,2, · · ·η),构成矩阵Χ=(χι,χ2, · · ·,χη)。其中有标记数据集为V={(xi,ki),(X2, k2), · · · , (Xi,ki)},无标记数据集为υ= {χι+ι,χι+2, · · · ,Χη},并有X = VUU,其中,kj是数据Xj 的类标,1是有标记样本数量。将矩阵X投影到r (r << d)维的子空间中去,并且有Y = XE。其 中降维后的矩阵,EeRd&是投影矩阵。这种方法通过选择合适投影矩阵可以压缩原 始数据的维度,找出数据的本质特征。
[0005] Sugiyama等人于2010年提出了半监督局部费舍尔判别分析SELF方法,SELF的基本 思想是用基于全局分布结构的PCA来惩罚LFDA在标记样本很少的情况下地过度拟合。但是 该方法没有考虑全部样本的局部结构信息。
[0006] 刘威等人提出了一种同时训练标记样本和预测样本的直推式成分分析TCA。该TCA 方法是利用双重优化准则来训练基于几何图框架的特征子空间。但是该方法在投影k近邻 图时没有考虑样本的类标信息。
[0007] 因此,上述SELF和TCA方法降维后数据的分类识别效果均不理想。

【发明内容】

[0008] 本发明的目的在于针对上述已有技术的不足,提出一种基于有监督图的直推式数 据降维方法,以在无标记样本数量较多和有标记样本数量较少的情况下,有效地实现对数 据的特征提取及降维,进而提高后续的数据分类效果。
[0009] 本发明的技术思路是:通过在全部样本上构建一个K近邻图,并利用样本类标信息 构建类间无向图与类内无向图,以Κ近邻图和类内无向图作为约束,将样本投影到新的特征 空间中去,得到具有更好分布结构的有监督投影图,通过在保持有监督图结构信息时加入 类间无向图作为约束,有效地实现对数据的特征提取及降维。其实现方案包括如下:
[0010] (1)输入n = FXP幅原始图像,对这些图像进行校准和对齐,将其裁剪为相同尺寸, 其中F为原始图像类别数,P为每一类图像的张数;
[0011] (2)将每幅图像像素点的灰度特征值按行取出并顺序排列形成一个d维行向量Xj, 组成一个nXd的矩阵,对该矩阵的每一行进行归一化,得到原始矩阵X=(xi,x2,. . .,χη);
[0012] ⑶将每幅图像的类标顺序排列形成一个η维列向量,即类标向量G,其中无标记样 本的类标为〇;
[0013] (4)根据原始矩阵X,计算第一拉普拉斯矩阵L;
[0014] (5)根据类标向量G,计算第二拉普拉斯矩阵L1;
[0015] (6)根据第一拉普拉斯矩阵L和第二拉普拉斯矩阵L1,计算有监督图的相似度矩阵 S:
[0016]
[0017] 其中,I为单位矩阵,α是K近邻图影响因子,β是类内无向图影响因子;
[0018] (7)根据类标向量G,计算类间权重矩阵
[0019] (8)根据有监督图的相似度矩阵S和类间权重矩阵F,计算投影矩阵E:
[0020] 选取特征维数r= {5,10, ...,50},利用下式求解广义特征值:
[0021] XTSXa = AXT(D-yffc)Xa,
[0022] 其中,a是特征向量,λ是特征值,γ是类间无向图影响因子;
[0023] 将求解得到的特征值按绝对值从大到小的顺序排列,选择前r个绝对值大的特征 值对应的特征向量ai,顺序排列得到投影矩阵E=(ai,a2, . . .,ai, . . .ar);
[0024] (9)根据投影矩阵E计算降维后的矩阵Y=XE。
[0025] 本发明与现有技术对比,具有如下优点:
[0026] 第一,本发明利用类标信息构建有监督图,有效地兼顾了样本的分布信息和类标 ?目息,提尚了识别性能。
[0027] 第二,本发明以类间无向图作为约束,使得相邻的不同类样本在分布空间中更加 疏远,提高后续数据分类效果。
【附图说明】
[0028]图1为本发明的实现流程图;
[0029]图2为本发明仿真使用的0RL人脸库的图像样本;
[0030]图3为本发明与现有三种方法在0RL人脸库中选择2个标记样本时分类准确率随维 数变化曲线;
[0031] 图4为本发明与现有三种方法在0RL人脸库中选择3个标记样本时分类准确率随维 数变化曲线;
[0032] 图5为本发明仿真使用的BANCA人脸库的图像样本;
[0033]图6为本发明与现有三种方法在BANCA人脸库中选择3个标记样本时分类准确率随 维数变化曲线;
[0034] 图7为本发明与现有三种方法在BANCA人脸库中选择4个标记样本时分类准确率随 维数变化曲线;
[0035] 图8为本发明仿真使用的雷达辐射源信号模糊函数特征数据库中的样本;
[0036] 图9为本发明与现有三种方法在雷达辐射源信号模糊函数特征数据库中选择4个 标记样本时分类准确率随维数变化曲线;
[0037] 图10为本发明与现有三种方法在雷达辐射源信号模糊函数特征数据库中选择8个 标记样本时分类准确率随维数变化曲线;
【具体实施方式】
[0038]下面结合附图对本发明的具体实施步骤和效果做进一步的详细描述。
[0039]参照图1,本发明的实现步骤如下:
[0040] 步骤1.输入原始图像。
[0041] 输入n = FXP幅原始图像,并对这些图像进行校准和对齐后,裁剪为大小相同的尺 寸,其中F为原始图像类别数,P为每一类图像的张数。
[0042] 步骤2.利用原始图像得到原始矩阵X。
[0043] 将每幅原始图像像素点的灰度特征值按行取出,并顺序排列形成一个d维行向量, 组成一个η X d的矩阵X ',对矩阵X '的每一行进行归一化,使得矩阵X '的每一行各元素的和 等于1即:
其中,V'j是矩阵X'的第j行向量,x'i是行向量V'j第i个元素,Vj是归一 化后矩阵X的第j行,」= 1,2···,η;
[0044] 将归一化后的行向量vj按顺序排列构成原始矩阵X,即X= {vi,···,vj,…,vn}。
[0045] 步骤3.利用原始图像得到类标向量G。
[0046] 每类图像有P个样本,从中随机选择m个样本作为有标记样本,余下的为无标记样 本,其中无标记样本的类标为〇,将每幅图像的类标顺序排列形成一个η维列向量,即类标向 量G。
[0047]步骤4.根据原始矩阵X计算第一拉普拉斯矩阵L。
[0048] (4.1)选取最近邻系数Κ = 5,计算Κ近邻图的权重矩阵
[0049]
[0050]其中w(Xl,Xj)是W中第i行,第j列的元素项,
[0051]
[0052]其中,σ是平滑因子;
[0053] (4.2)根据Κ近邻图的权重矩阵W,计算第一拉普拉斯矩阵L = D-W,D为对角矩阵,该 对角矩阵的第j行第j列元素叫=Σ 1Wjl;
[0054] 步骤5.根据类标向量G计算第二拉普拉斯矩阵L1。
[0055] (5.1)在不同数据库下每类图像随机选取2~10幅作为标记样本,计算类内无向图 的权重矩阵
[0056]其中^(Χι,&)是W1中第i行,第j列的元素项:
[0057]
[0058] 其中,Ci是样本点Xi所在类别;
[0059] (5.2)根据类内无向图的权重矩阵W1,计算第二拉普拉斯矩阵为对角 矩阵,该对角矩阵的第j行第j列元素
[0060] 步骤6.计算有监督图的相似度矩阵S。
[0061] (6.1)由第一拉普拉斯矩阵L和第二拉普拉斯矩阵L1,构建原始矩阵X的有监督投 影目标函数:
[0062] J(h,f)=| |XTh-f| 12+af TLf+0f Vf <1>
[0063] 其中,f是投影函数,a是近邻图影响因子,β是类内无向图影响因子,h是投影向量;
[0064] (6.2)由投影的目标函数推导出相似度矩阵:
[0065] 对〈1>式计算投影函数f的偏导数并令结果等于零,得到:
[0066]
<2>
[0067]根据〈2>式求解得到:
[0068]
_<3_>
[0069] 其中,I为单位矩阵,a是K近邻图影响因子,β是类内无向图影响因子;
[0070] 将f*代入〈1>式中消除f,得到:
[0071] J(h)=J(h,f*) = | | (aL+eL1)^! | ^af^Lf^f^Vf*
[0072] = f*τ (aL) (I +αΙ+β?:) f *+f*τ (PL1) (I +αΙ+β?:) f* <4>
[0073 ] = hTX (I+aL+PL1)-1 (aL+虬1 )XTh = hTXSXTh
[0074] 由〈4>得到相似度矩阵S:
[0075]
[0076] 步骤7.根据类标向量G计算类间权重拓陡W、
[0077] 根据类标向量G,计算类间权重矩P 其中F中第i行,第j列的元素项^Χι,Χι):
[0078]
[0079] 步骤8·计算投影矩阵E=(an,an-l,…a n-r+l)。
[0080] 选取特征维数r= {5,10,...,50},求解广义特征值公式:
[0081] XTSXa = AXT(D-yffc)Xa,
[0082] 其中,a是特征向量,λ是特征值,γ是类间无向图影响因子;
[0
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1