一种基于稀疏和低秩表示图的高光谱数据降维方法
【技术领域】
[0001] 本发明涉及一种基于稀疏和低秩表示图的高光谱数据降维方法,属于数据处理技 术领域,适用于对高光谱数据进行降维与分类,减少波段冗余。
【背景技术】
[0002] 在高光谱图像处理领域,由于高光谱数据的高维特性以及各个波段间的高相关 性,数据降维扮演着重要的作用。数据降维的目的在于通过减少特征维数而减少计算复杂 度同时提高分类的精度。波段选择和降维投影技术是两个主要的用于数据降维的策略。波 段选择是一种根据某些最优准则直接从原有特征中抽取少数特征的技术,而降维投影技术 的策略是通过一些最优准则,找到一种变换映射,把原始数据投影到一个新的低维空间。主 成分分析(PCA)和线性判别分析(LDA)是两个经典的特征提取技术。主成分分析(PCA)是一 种无监督的特征提取技术,将数据映射到由原始空间数据协方差矩阵最大特征值所对应特 征向量所张成的空间里。与主成分分析(PCA)不同的是,线性判别分析(LDA)是一种有监督 的特征提取技术,本质思想是通过Fisher准则求取最优映射矩阵。许多变种的数据降维技 术之后也相继被提出,包括核主成分分析(KPCA),核线性判别分析(KLDA),独立成分分析 (ICA),局部保留投影(LPP),局部线性判别式分析(LFDA)等。
[0003] 以往的研究表明,高光谱数据中存在着流形结构,利用图嵌入的方法获取数据的 空间结构,把数据映射到具有同样空间结构的低维流形空间里去。稀疏表示模型基于大多 数自然信号可以被少数某些带有重要信息信号稀疏的表示。最近一种基于稀疏表示图的判 别分析(SGDA)被提出用于数据降维。在SGDA中,通过1^范数构建稀疏的表示图,该图用稀疏 表示的系数作为图的权值,图矩阵的每个列向量是其余样本点对该点的稀疏表示系数。实 际上,该图可以看成是通过数据间的线性表示去刻画数据的几何结构。然而稀疏表示的不 足在于只能找出稀疏样本点,缺乏全局约束,因此在低维流形空间中丧失原有数据的全局 特性。
【发明内容】
[0004] 本发明提出一种基于稀疏和低秩表示图的特征提取方法(SLGDA),通过U范数获 取稀疏表示特性,低秩表示的具有保持全局数据结构的特征,本发明通过核范数保持图的 低秩特性。在原始空间中学习到的样本点间稀疏和低秩表示的特性,通过寻求一个变换投 影矩阵,把数据投影到低维流形空间,同样也保持样本点间稀疏和低秩表示的特性。
[0005] 本发明的技术方案具体来说,主要包括如下技术内容:
[0006] 1、从原始的高光谱数据中选取一定量的数据用作训练样本。
[0007] 2、对所选的训练样本进行稀疏和低秩表示图的构造。
[0008] 3、通过最优化准则,寻求最优的投影矩阵,使在投影后的低维流形空间里保持2中 所构造的图的特性。
[0009] 具体步骤如下:
[0010]步骤1、将高光谱数据输入计算机,并对数据进行归一化处理。
[0011]步骤2、从归一化的高光谱图像中每个类别选取一定数量的样本点用于做训练样 本。高光谱数据的原始维数为N,每类训练样本的数目根据原始图像的规模和具体应用而 定。
[0012] 步骤3、对所选的训练样本进行稀疏和低秩表示图的构造。
[0013] 对于一个高光谱的数据,训练样本集为XKXJtt c= R'N表示原始数据的维数,Μ 表示所有训练样本点的数目。我们用C表示高光谱图像总类别的数目,nu表示属于1类的所 有样本点的数目,故有Σ?=ι购:=M_°
[0014] 在SGDA中,对于任意一个像素 XiEX,其稀疏表示的系数向量通过求解。范数最优 化求取,即
[0017]上式中,Wi= [Wil,Wi2,…,WiM]是一个MX 1的向量,是其余属于X样本点对像素点Xi 的表示系数组成的向量。II · Ik表示矩阵的U范数,是矩阵各个元素的绝对值相加之和,用来 求取稀疏解。进一步地,对于所有的像素点,写成矩阵的形式,有
[0018] argminwllfflli (2)
[0019] s.t.XW=X 且 diag(W)=0
[0020] 上式中,W= [wi,W2,…,wm]是一个1父]\1的矩阵,该矩阵的每个列向量1是其余样本 点对第i个点的稀疏表示系数。矩阵W表示的是在矩阵稀疏约束的条件下,除自身点以外其 他样本点对该点的线性表示,反映了样本点之间的数据结构。
[0021] 然而稀疏表示的不足在于只能找出稀疏样本点,缺乏全局约束,因此在低维流形 空间中丧失原有数据的全局特性。针对于步骤1中选取的训练样本,稀疏和低秩表示图的构 造方法如下:
[0022] argminwIlfflli+AllffH* (3)
[0023] s.t.XW=X 且 diag(W)=0
[0024] 上式中II · IU表示矩阵的U范数,是矩阵各个元素的绝对值相加之和,用于求取稀 疏表示解。II · II*是矩阵的核范数,是矩阵奇异值之和,用于刻画图的低秩约束特性。W是一 个Μ X Μ的矩阵,该矩阵的每个列向量Wi是一个Μ X 1的向量,是其余样本点对第i个点的稀疏 和低秩表示的系数。上式等价于:
[0027] II#表示矩阵的F范数,β和λ都是正则化系数,β和λ的大小控制(4)式子中三者的 平衡关系。对于本文提出的SLGDA,用于有监督的降维算法,增加数据类别标签信息,针对于 相同类别训练样本的稀疏和低秩表示,有:
[0030]
表示第1类的数据。diag(W(1))=0是为了防止数据的自表示。W (1)表 示的是同个类别的样本点之间的表示关系,既有通过Li范数找出的少数重要的表示样本 点,也有通过核范数约束,带有全局约束的样本间表示的低秩特性。上述式子是一个凸优化 问题,可以通过LADMAP方法求取最优解。
[0031] 假设已经对训练样本进行排序,即相同类别的训练样本放在一块,对于有监督的 学习,把样本点类别信息加以考虑,对于不同类别的样本点,表示系数设为0。最终,对于整 个训练样本集的稀疏和低秩表示图,有
[0033] 上式中,是一个m Χπη的矩阵,是第1类训练样本的稀疏和低秩表示图。矩 阵W表示的是在矩阵稀疏约束和低秩约束的条件下,除自身点以外其他样本点对该点的线 性表示,既有通过U范数找出的少数重要的表示样本点,也有通过核范数约束,带有全局约 束的样本间表示的低秩特性。反映了样本点之间的流形结构。
[0034] 步骤4、通过最优化准则,寻求最优的投影矩阵,使在投影后的低维流形空间里保 持步骤3中所构造的图W的特性。
[0035] 基于图嵌入子空间学习的目标是寻求一个ΝΧΚ的投影矩阵Ρ(Κ〈Ν),通过投影变 换,在低维空间有Υ=ΡΤΧ,为了保持原有空间的流形特性,最优化目标式刻画为:
[0037] s.t.PTXLpXTP = I
[0038] 上式中,Ls是图W的拉普拉斯矩阵,LS = D-W,矩阵D是一个对角矩阵,其对角线元素 为W矩阵所对应列的所有元素相加之和,即这里PTXL PXTP=I是拉格朗日 约束。上述问题的求解是一个广义特征值-特征向量分解问题,即
[0039] XLSXTP= AXLPXTP (7)
[0040] 其中Λ是广义特征值组成的对角矩阵,每个元素对应一个特征值。P是与之对应的 特征向量。
[0041] 步骤5、投影降维。将步骤4)得到的最优投影矩阵P与剩余高光谱数据集的矩阵交 相乘,得到f =PTi,¥为在低维空间原始数据的存在形式。
【附图说明】
[0042]图1为本发明具体流程图。
【具体实施方式】
[0043] 本发明的基本流程如图1所示,具体包括以下步骤:
[0044] 1)将高光谱数据