本发明涉及一种基于非下采样轮廓波和目标可信度的红外与可见光图像融合方法,是图像处理技术领域的一项融合方法,在军事监控中有广泛的应用。
背景技术:
红外和可见光图像的融合在监控和军事领域有重要的意义。红外图像能记录图像场景里的热红外辐射信息但是通常红外图像的分辨率较低。可见光图像擅长细节纹理信息的表达但是很难表达热红外辐射信息。考虑到红外图像和可见光图像之间的这一互补性,将同一场景的红外图像和可见光图像融合得到的新图像将同时具有热辐射目标定位的作用和较高的分辨率。
通常,图像融合的方法可以分为两大类:在空域中的图像融合和变换域中的图像融合。前者有空间扭曲的问题而后者可以轻易的解决这个问题。多尺度分解工具的选择在变换域融合中起着至关重要的作用,多尺度分解技术有了很长的发展历程。在1989年,mallat首先提出了离散小波变换(dwt)的数学模型,dwt将图像分解为一个低频子带和三个方向的高频子带。相比直接在空域中分析,dwt用三个方向的高频子带系数来捕捉图像的纹理和边缘信息。但是dwt导致混叠现象,此外由于dwt的变换过程中存在下采样的过程,因此dwt不具有平移不变性。为了克服dwt的一些缺陷,rockinger等人提出了平稳小波变换(swt),swt具有了平移不变性,但是和dwt一样,只有三个方向的高频子带。minhn.do等人提出了轮廓波变换(ct),相比dwt和swt,ct在高频部分拥有更多方向的子带,但是它缺乏平移不变性。cunha等人提出了非下采样轮廓波变换(nsct),nsct相比于ct具备了平移不变的特性。
变换域图像融合中另一个很重要的因素是融合规则的设计。融合规则的设计指的是寻找一种合适的策略融合相对应子带系数从而得到最好的融合图像。融合规则的设计包括融合策略的设计和活动测度的选择。常用的融合策略包括取大融合策略和加权融合策略。取大的策略指的是选择活动测度较大者对应的子带系数作为融合后的子带系数。加权融合的策略指的是根据活动测度和权值计算公式计算待融合子带系数的权值。
活动测度的质量依靠于有效的特征选取,选择的特征要求能够反映图像的本质。通常特征分为人工特征和数据驱动的特征。人工标注的特征指的是用一系列由专家设计的公式求解得到的特征,比如香农熵。数据驱动的特征通常是由一些非监督的特征学习工具从数据中提取出来的,这类特征包括张量(tensor)、稀疏表示(sr)和栈式自编码(ssae)。liang等人将tensor引入了图像融合的框架里,首先利用高阶奇异值分解(hosvd)将图像分解得到系数,然后利用系数的绝对值作为活动测度构融合规则。yang和li等人将sr引入了图像融合领域,首先利用重叠滑块的方法将图像分成等大的小块,然后利用一部过完备字典将图像进行分解得到具备稀疏性质的系数,最后利用分解得到的系数作为活动测度构造融合规则。考虑到红外图像和可见光图像之间差异较大,很难学习到一部字典能充分地发掘其本质特性。深度学习模型因对复杂数据具有卓越学习能力而受到越来越多的关注。相比传统的机器学习方法,深度学习模型的多层网络结构能有效地从数据中提取出属于多个抽象层次的特征。其中栈式稀疏自编码(ssae)作为深度学习的一个分支近年来发展迅速。由于图像融合应用中缺乏带标签的训练数据,具有无监督特性的ssae比其它属于监督学习范畴的方法更适合应用到图像融合中。
技术实现要素:
本发明的目的是针对上述现有技术的不足,提出了一种基于非下采样轮廓波和目标可信度的红外与可见光图像融合方法,以保护图像的目标及细节、增强图像对比度和轮廓边缘,改善其视觉效果,提高图像融合的质量。本发明具体技术方案如下:
1)首先将待融合的红外图像ir和可见光图像vi,利用nsct分别将两幅图像分解为低频子带系数
2)包含细节信息的高频子带系数,使用nsct系数绝对值取大的融合策略进行融合;
其中,
3)对nsct低频子带系数,通过基于目标可信度的自适应混合融合策略实现融合;
3.1)利用butterworth高通滤波器对低频子带进行锐化处理,将锐化后的低频子带分解为若干子块,使用两层稀疏自编码级联而成的ssae的编码器部分来获取子块的深度编码。
首先将低频子带
稀疏自编码中输入层到隐层的结构称为编码器,编码器的数学表达式为:
a(i)=sigmoid(w1,1x(i)+b1,1)
隐层到输出层的结构称为解码器,解码器的数学表达式为:
hw,b(x(i))=w2,1a(i)+b2,1
其中a(i)为第i个输入数据在隐层的激活值,x(i)为输入(等于理论输出y(i)),hw,b(x(i))为网络实际输出,其中1≤i≤m,m为输入数据的数量。w1,l、b1,l、w2,l和b2,l分别代表第l个自动编码器中编码器的权值矩阵、编码器的偏置项、解码器的权值矩阵、解码器的偏置项和第i个输入的隐层神经元激活值,sl为第l层稀疏自编码器隐层神经元的数目,特别的s0为第一层稀疏自编码的输入层神经元的数目,此处采用了两层结构的ssae,故1≤l≤2。
编码器负责将x(i)转换成编码,解码器负责从编码中重构出原数据,x(i)和hw,b(x(i))之间存在的误差称为重构误差。
稀疏自编码的代价函数如下所示:
其中,j(w,b)定义的第一项是均方差项,它描述了实际值x(i)与理论值hw,b(x(i))之间的差别。第二项为权重衰减项,用来防止过拟合,λ为权重衰减参数,nl为自编码结构的层数,sl为第l层神经元的数目,
自动编码器的训练过程是利用梯度下降法求解w1,1和b1,1的过程,具体如下:
步骤1:设置w1:=0,b1:=0,δw1:=0,δb1=0;
步骤2:计算编码器的重构误差j(w1,b1);
步骤3:
whilej(w1,b1)>10-6:
fori=1tomax_iter:
更新w1和b1:
其中,δw1和δw2为w1和b1的增量,α为更新速率,max_iter为最大迭代次数。
当解出最优的w1和b1后,利用编码器的数学表达式对所有的输入数据进行编码,计算隐层神经元的激活值a(i),1;以a(i),1作为输入训练下一层自编码器,解得最优的w1,2和b1,2;
当ssae训练完毕,利用a(i),l=sigmoid(w1,2a(l-1),1+b1,2)对所有的输入数据进行编码,提取深度的稀疏特征a(i),l。其中,a(i),l为第i个输入数据在第l层稀疏自编码器的隐层激活值,也是该ssae对第i个输入数据的编码。因此,低频子块
3.2)通过低频子块获取的深度编码构建目标可信度函数,采用子块的目标可信度作为自适应混合融合策略中的权重,实现低频子带的融合。
将
定义函数
低频子带
其中,
最后,使用滑动窗口变换的逆变换将所有融合后的低频子块
4)将步骤2)和3)中得到的融合系数进行nsct逆变换得到融合图像。
本发明相对比现有红外和可见光图像融合方法具有如下的优点:
1、本发明采用基于非下采样轮廓波变换(nsct)作为多尺度分解工具,相比于小波变换(dwt),nsct能捕捉更多的方向信息且消除了伪吉布斯现象;相比于平稳小波变换(swt),nsct得到的高频子带方向数更多;相比于轮廓波变换(ct)缺乏平移不变性的问题,nsct不存在下采样的操作,故具备了平移不变性。
2、本发明采用栈式编码器(ssae)对低频子块实施稀疏自编码,以子块稀疏自编码的和作为子块特征用于后续红外目标的判别。该特征一种数据驱动的特征,是从输入图像通过深度网络学习到的特征,是比人工设计的特征更具代表性的特征,更加适合于图像数据表示。
3、本发明构建relu_tan函数结合子块稀疏自编码的和计算低频子块的目标可信度,并将其用来计算低频融合规则中的权值,使得本发明得到的融合图像在背景和目标交界处的变化更加自然。
附图说明:
图1是整体本发明的整体融合框架图。
图2是低频子带系数的融合规则示意图。
图3是relu_tan函数曲线示意图。
图4(a)和(b)是本发明第一个实施例的待融合红外与可见光图像;(c)是基于加权平均的融合算法(avg)的融合图像;(d)是基于小波变换(dwt)的融合图像;(e)是基于脉冲耦合神经网络(pcnn)的融合图像;(f)是基于结构张量和小波变换(str-dwt)的融合图像;(g)是基于nsct和pcnn(p-nsct)的融合图像;(h)是基于指导滤波(gff)的融合图像;(i)是本发明方法的融合图像。
图5(a)-(g)是图4(c)-(i)的目标的局部放大图。
图6(a)和(b)是本发明第二个实施例的待融合红外与可见光图像;(c)是基于加权平均的融合算法(avg)的融合图像;(d)是基于小波变换(dwt)的融合图像;(e)是基于脉冲耦合神经网络(pcnn)的融合图像;(f)是基于结构张量和小波变换(str-dwt)的融合图像;(g)是基于nsct和pcnn(p-nsct)的融合图像;(h)是基于指导滤波(gff)的融合图像;(i)是本发明方法的融合图像。
图7(a)-(g)是图4(c)-(i)的目标的局部放大图。
具体实施方式:
下面对本发明的实施例结合附图作详细说明,本实施例在以本发明技术方案为前提下进行,如图1所示,详细的实施方式和具体的操作步骤如下:
1)对待融合的两幅多聚焦图像使用nsct变换进行分解,图像分解后得到低频子带
2)包含细节信息的高频子带系数,使用nsct系数绝对值取大的融合策略进行融合;
其中,
3)对nsct低频子带系数,通过基于目标可信度的自适应混合融合策略实现融合,具体实现流程见图2;
3.1)利用butterworth高通滤波器对低频子带进行锐化处理,将锐化后的低频子带分解为若干子块,使用两层稀疏自编码级联而成的ssae的编码器部分来获取子块的深度编码。
首先将低频子带
稀疏自编码中输入层到隐层的结构称为编码器,编码器的数学表达式为:
a(i)=sigmoid(w1,1x(i)+b1,1)
隐层到输出层的结构称为解码器,解码器的数学表达式为:
hw,b(x(i))=w2,1a(i)+b2,1
其中a(i)为第i个输入数据在隐层的激活值,x(i)为输入(等于理论输出y(i)),hw,b(x(i))为网络实际输出,其中1≤i≤m,m为输入数据的数量。w1,l、b1,l、w2,1和b2,l分别代表第l个自动编码器中编码器的权值矩阵、编码器的偏置项、解码器的权值矩阵、解码器的偏置项和第i个输入的隐层神经元激活值,sl为第l层稀疏自编码器隐层神经元的数目,特别的s0为第一层稀疏自编码的输入层神经元的数目,此处采用了两层结构的ssae,故1≤l≤2。
编码器负责将x(i)转换成编码,解码器负责从编码中重构出原数据,x(i)和hw,b(x(i))之间存在的误差称为重构误差。
稀疏自编码的代价函数如下所示:
其中,j(w,b)定义的第一项是均方差项,它描述了实际值x(i)与理论值hw,b(x(i))之间的差别。第二项为权重衰减项,用来防止过拟合,λ为权重衰减参数,nl为自编码结构的层数,sl为第l层神经元的数目,
自动编码器的训练过程是利用梯度下降法求解w1,1和b1,1的过程,具体如下:
步骤1:设置w1:=0,b1:=0,δw1:=0,δb1=0;
步骤2:计算编码器的重构误差j(w1,b1);
步骤3:
whilej(w1,b1)>10-6:
fori=1tomax_iter:
更新w1和b1:
其中,δw1和δw2为w1和b1的增量,α为更新速率,max_iter为最大迭代次数。
当解出最优的w1和b1后,利用编码器的数学表达式对所有的输入数据进行编码,计算隐层神经元的激活值a(i),1;以a(i),1作为输入训练下一层自编码器,解得最优的w1,2和b1,2;
当ssae训练完毕,利用a(i),l=sigmoid(w1,2a(l-1),1+b1,2)对所有的输入数据进行编码,提取深度的稀疏特征a(i),l。其中,a(i),l为第i个输入数据在第l层稀疏自编码器的隐层激活值,也是该ssae对第i个输入数据的编码。因此,低频子块
3.2)通过低频子块获取的深度编码构建目标可信度函数,采用子块的目标可信度作为自适应混合融合策略中的权重,实现低频子带的融合。
将
定义函数relu_tanh函数,函数曲线见图3,具体定义如下;
其中,u用来控制曲线陡度,本专利u=4,可信度函数的阈值t定义为:
低频子带
其中,
最后,使用滑动窗口变换的逆变换将所有融合后的低频子块
4)将步骤2)和3)中得到的融合系数进行nsct逆变换得到融合图像。
实验条件与方法:
硬件平台为:intel(r)处理器,cpu主频1.80ghz,内存1.0gb;
软件平台为:matlabr2016a;实验中采用两组已配准的红外与可见光图像,图像大小均为256×256,tif格式。第一组红外与可见光图像见图4(a)和图4(b),第一组红外与可见光图像见图6(a)和图6(b)。
仿真实验:
为了验证本发明的可行性和有效性,采用了两组红外-可见光图像测试,融合结果如图4、图5、图6和图7所示。
仿真一:遵循本发明的技术方案,对第一组红外与可见光图像(见图4(a)和图4(b))进行融合,通过图4(c)-图4(i)的分析可以看出:本专利所提的方法的融合图像中目标小人处最为明显,丛林处细节保留最多,整体清晰度最高。图5给出了各融合图像在目标小人处的局部放大效果图,比较可知本专利所提方法的小人处边缘清晰并且对比度高,融合效果最佳。
仿真二:遵循本发明的技术方案,对第二组红外与可见光图像(见图6(a)和图6(b))进行融合,通过图6(c)-图6(i)的分析可以看出:图6(c)、(d)和(g)存在整体亮度较低、枪支轮廓不明显、人脸不清晰的问题,图6(e)与(h)整体的亮度高于图6(c)、(d)与(g),但存在着噪声信息过多,这导致枪支轮廓受噪声干扰严重。图6(f)噪声较少,但是枪支轮廓不明显。本专利所提方法的融合结果图6(i)整体亮度高、噪声少、枪支轮廓明显。图7可以佐证上述结论。
表1和表2给出了两种数据集利用各种融合方法实验结果的客观评价指标,其中加粗的数据表示对应的评价指标为最优值。avg为基于空域像素值取平均的图像融合方法,dwt为基于离散小波分解的图像融合方法,pcnn为基于脉冲耦合神经网络的图像融合方法,str-dwt为基于结构张量和离散小波分解的图像融合方法,sw-pcnn为基于非下采样轮廓波变换和脉冲耦合神经网络的图像融合方法,gff为基于指导滤波的图像融合,nsct-ssae为本发明提出的基于nsct和ssae的图像融合方法。实验选用信息熵(en)、平均梯度(ag)、边缘转换率(qabf)、边缘强度(ei)、互信息(mi)、标准差(sd)和空间频率(sf)作为客观评价指标。
由表1和表2的数据表明,本发明方法所获得的融合图像在信息熵、平均梯度、边缘强度、标准差和空间频率等客观评价指标上要优于其它的融合方法。信息熵反应的是图像携带信息量的多少,其值说明融合图像中包含的信息量越大,融合效果越好;平均梯度反应的是图像的清晰度,其值越大视觉效果越好;边缘转换率反应的是待融合图像的边缘信息转移到融合图像中的程度,其值越接近1视觉效果越好;边缘强度衡量的是图像边缘细节的丰富程度,其值越大则主观效果越好;互信息反应的是待融合图像和融合图像之间信息的相关程度,其值越大视觉效果越好;标准差反应的是图像灰度相比于灰度均值的离散程度,其值越大则灰度级越分散,则视觉效果越好。空间频率反应的是融合图像的灰度变化程度,其值越大说明融合图像的细节性越好。
从各仿真实验的融合结果可以看出,本发明的融合图像全局清晰,目标明确,融合图像信息丰富。无论是从主观人类视觉感知上还是客观评价指标上都能证明本发明的有效性。
表1第一组红外与可见光图像融合结果客观评价指标
表2第二组红外与可见光图像融合结果客观评价指标