专利名称:一种基于视觉注意的视频感兴趣区域的提取方法
技术领域:
本发明涉及一种视频信号的处理方法,尤其是涉及一种基于视觉注意的视频感兴趣 区域的提取方法。
背景技术:
立体电视,又称3DTV (Three Dimensional Television,三维电视),由于立体电视能 够提供从平面到立体的跨越,给予观看者特有的立体感和真实感,因此受到了国内外研 究机构和产业界的高度重视。2002年,在欧洲委员会支持的1ST计划中启动了一个 ATTEST (高级三维电视系统技术)项目,该项目目标致力于建立一条完整的可向后兼 容的三维数字电视广播链系统。ATTEST项目的目标是提出一个3DTV广播链的新理念, 与现有的二维广播实现向下兼容,并广泛地支持各种不同形式的二维和三维显示。 ATTEST项目的主要设计理念在于提出了在传统二维视频图像传输的基础上,增加深度 图(D印th Map)作为增强层信息,即"二维彩色视频加深度"的数据表示,以二维彩 色视频加深度的方式在显示终端解码、重建三维视频,而且业界部分先进裸眼自由立 体显示终端也己支持二维彩色视频加深度的显示模式。
在人类视觉接收与处理系统中,由于大脑资源有限以及外界环境信息重要性区别, 在处理过程中人脑对外界环境信息并不是一视同仁的,而是表现出选择特性,即感兴趣 程度不同。 一直以来,视频感兴趣区域的提取是视频压縮与通信、视频检索、模式识别 等领域中基于内容的视频处理方法的核心和难点技术之一。视觉心理学研究表明,人眼 的这种对于外界视觉输入的选择性或感兴趣程度的差异性,与人的视觉注意特性存在密 不可分的联系。目前,视觉注意力线索研究主要划分为两个方面展开自顶向下(Top-down) (也称概念驱动,Concept-driven)的注意力线索和自底向上(Bo加m-up)(也 称刺激驱动,Stimulus-driven)的注意力线索。自顶向下的注意力线索主要来自复杂的 心理过程,并直接注意与场景中的某些对象,包括对象形状、动作以及模式等其他相关 的识别特征,该线索受个人知识、兴趣爱好、潜意识等因素的影响,因人而异。另一种 线索是自底向上的注意力线索,主要来自视频场景的视觉特征因素的对视皮层引起的直 接刺激,主要包括颜色、亮度、方向等刺激,自底向上的注意力线索本能的、自动的, 具有较好的普遍适用性,且相对稳定,基本不受个人知识、爱好等意识因素的影响,所 以自底向上的注意力线索是自动感兴趣区域的提取方法研究的热点内容之一。然而,目前自动感兴趣区域的提取主要分为三类,1)、利用单个视点的图像内部 信息,包括亮度、颜色、纹理或方向等刺激信息,提取人眼对当前视频帧的感兴趣区域, 该方法主要提取亮度、颜色和纹理对比差异性较大的区域作为感兴趣区域,这样使得该 方法难以适用于复杂背景环境的感兴趣区域提取;2)、基于人眼对运动区域感兴趣的 视觉原理,利用视频帧间的运动信息作为主要线索来提取感兴趣区域,然而这种方法对 于缓慢运动或局部运动的对象却难以准确提取,也难以适用于全局运动情况下的感兴趣 区域提取;3)、采用静态纹理和运动信息相结合的提取方法,这种方法由于静态纹理 与运动信息间的冗余和相关性较弱,并不能有效抑制各自存在的提取误差和噪声,从而 使得提取精度不高。这三类传统方法由于可以利用的信息量的限制引起提取的感兴趣区 域不够准确,稳定性欠佳;另一方面,传统方法并未考虑对深度感强或距离观看者较近 的对象感兴趣的立体视觉特性,不能很好的表现具有立体视觉的人眼真正的感兴趣程 度,从而难以适用于新一代立体(三维)/多视点视频中的符合立体视觉语义特征的感兴 趣区域提取。
发明内容
本发明所要解决的技术问题是提供一种能够使提取得到的视频感兴趣区域的精度 较高、稳定性较好,且所提取的视频感兴趣区域符合人眼立体视觉语义特征的基于视觉 注意的视频感兴趣区域的提取方法。
本发明解决上述技术问题所采用的技术方案为 一种基于视觉注意的视频感兴趣区 域的提取方法,包括以下步骤-
① 将二维彩色视频定义为纹理视频,定义纹理视频中各时刻的纹理视频帧的尺寸大 小均为『x/f,『为纹理视频中各时刻的纹理视频帧的宽,//为纹理视频中各时刻的纹
理视频帧的高,记纹理视频中,时刻的纹理视频帧为F,,定义纹理视频中f时刻的纹理视
频帧F,为当前纹理视频帧,采用公知的静态图像视觉注意检测方法检测当前纹理视频帧 的静态图像域视觉注意,得到当前纹理视频帧的静态图像域视觉注意的分布图,记为S,, 当前纹理视频帧的静态图像域视觉注意的分布图S,的尺寸大小为『xi/且其为Z,比特 深度表示的灰度② 采用运动视觉注意检测方法检测当前纹理视频帧的运动视觉注意,得到当前纹理 视频帧的运动视觉注意的分布图,记为Sw,当前纹理视频帧的运动视觉注意的分布图
SM的尺寸大小为『x //且其为Z,比特深度表示的灰度图;③ 定义纹理视频对应的深度视频中各时刻的深度视频帧为zD比特深度表示的灰度
图,将深度视频中各时刻的深度视频帧的尺寸大小均设置为『x//,『为深度视频中各 时刻的深度视频帧的宽,//为深度视频中各时刻的深度视频帧的高,记深度视频中f时 刻的深度视频帧为D,,定义深度视频中f时刻的深度视频帧D,为当前深度视频帧,采用
深度视觉注意检测方法检测当前深度视频帧与当前纹理视频帧联合展现的三维视频图 像的深度视觉注意,得到三维视频图像的深度视觉注意的分布图,记为S。,三维视频
图像的深度视觉注意的分布图Sfl的尺寸大小为『x//且其为Zs比特深度表示的灰度 ④ 采用基于深度感知的视觉注意融合方法将当前纹理视频帧的静态图像域视觉注 意的分布图S,、当前纹理视频帧的运动视觉注意的分布图SM、当前深度视频帧及当前
深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图S。融
合,以提取符合人眼立体感知的三维视觉注意的分布图,记为S,三维视觉注意的分布 图S的尺寸大小为『xi/且其为Zs比特深度表示的灰度⑤ 对三维视觉注意的分布图S进行阈值化和宏块化后处理,获取当前纹理视频帧的 最终的符合人眼立体感知的感兴趣区域;
⑥ 重复步骤① ⑤直至处理完纹理视频中的所有纹理视频帧,获取纹理视频的视频 感兴趣区域。
所述的步骤②中的运动视觉注意检测方法的具体过程为
②-l、记纹理视频中与当前纹理视频帧时间上连续的? + 7'时刻的纹理视频帧为F^ , 记纹理视频中与当前纹理视频帧时间上连续的f-y时刻的纹理视频帧为F,力,其中, _/e(0,iVf/2], A^为小于10的正整数;
②-2、采用公知的光流法计算当前纹理视频帧与f + y时刻的纹理视频帧F^在水平
方向的运动向量图像和竖直方向的运动向量图像,及当前纹理视频帧与卜/'时刻的纹理 视频帧F,力在水平方向的运动向量图像和竖直方向的运动向量图像,记当前纹理视频帧 与/ + _/时刻的纹理视频帧巧"在水平方向的运动向量图像为¥^.及竖直方向的运动向量 图像为V,:,,记当前纹理视频帧与(-/时刻的纹理视频帧F^在水平方向的运动向量图像为v二.及竖直方向的运动向量图像为v二, v,二.、 v二、 v二及v二的宽为『及高为z/;
②-3、将¥^的绝对值与¥^的绝对值叠加得到当前纹理视频帧与? + /'时刻的纹理视频帧F,"的运动幅度图像,记为M ,M,"=|V^| + |v「+」,记M 中坐标为(jc,力的像素的运动幅度值为Oc,力;将V二的绝对值与V二的绝对值叠加得到当前纹理视频帧与f -时刻的纹理视频帧F。的运动幅度图像,记为M" , M,力=IV二I +1V二.I ,记M。中坐标为(x,力的像素的运动幅度值为(JC,y);
②-4、利用当前纹理视频帧和?+y时刻的纹理视频帧F,"及卜y时刻的纹理视频帧
F".,提取联合运动图,记为M,,提取联合运动图1V^的具体过程为判断当前纹理视频帧与? + j'时刻的纹理视频帧F,+)的运动幅度图像M 中的各个像素和当前纹理视频帧与,-_/时刻的纹理视频帧F^的运动幅度图像M。中对应坐标的像素的运动幅度值中的最小值是否大于设定的第一阈值7;,如果是,则确定联合运动图M;中相应坐标的像素的像素值为M,"和M,力中对应坐标的像素的运动幅度值之和的平均,否则,确定联合运动图M,中相应坐标的像素的像素值为0;对于Mw中坐标为Oc,力的像素和M,力.中坐标为(x,力的像素,判断min(附w(jc,力,附卜,(;c,力)是否大于设定的第一阀值7;,如
果是,则确定联合运动图M)中坐标为(;c,力的像素的像素值为 "J);附'""J),
否则,确定联合运动图M,中坐标为(;c,力的像素的像素值为O,其中,min()为取最小值函数;
②-5、将在时间上与f时刻距离1时刻至i^/2时刻的各个时刻的联合运动图加权叠加得到当前纹理视频帧的加权联合运动图,记为M,记当前纹理视频帧的加权联合运
W一2
动图M中坐标为(;c,力的像素的像素值为w(;c,;;), w(;c,力-j]。附,(jc,力,其中,m;(;c,:v)表示在时间上与f时刻距离y时刻的联合运动图M)中坐标为(x,力的像素的像素值,q.为加权系数,加权系数。满足^^。=1;
乂=1
②-6、对当前纹理视频帧的加权联合运动图M进行高斯金字塔分解,分解成&层加
权联合运动图,记加权联合运动图M高斯金字塔分解后得到的第/层加权联合运动图为M(/),第/层加权联合运动图M(0的宽和高分别为^/2i和///2、其中, 为小于20
的正整数,z'e
,『为当前纹理视频帧的宽,//为当前纹理视频帧的高;
②-7、利用当前纹理视频帧的加权联合运动图M的&层加权联合运动图,提取当前
纹理视频帧的运动视觉注意的分布图SM,记SM中坐标为(;c,力的像素的像素值为
^(x,力,SM=FM ,其中,L=A^c 2s£3F^,,j , F乾cAr(lM(cr)億("l),
s'ce[O,"i-1], ^c + 5, 3 = {—3,—2,—1,1,2,3},)为归一化至0 2" —1区间的归
一化函数,符号"| |"为绝对值运算符号,M(c)为第c层加权联合运动图,M("为第
s层加权联合运动图,符号""0""为M(c)与M(s)进行跨层级作差运算符,如果c^s,
则将M(s)上采样至与M(c)具有相同分辨率的图像上,然后将M(c)的各个像素与上采
样后的M("相对应像素分别进行作差,如果os,则将M(c)上采样至与M(s)具有相
同分辨率的图像上,然后将M(s)的各个像素与上采样后的M(c)相对应像素分别进行作
差,符号"e"为M(cO与M("进行跨层级相加运算符,如果""则将M(s)上采样
至与M(c)具有相同分辨率的图像上,然后将M(c)的各个像素与上采样后的M(s)相对
应像素分别进行求和,如果o"则将M(c)上采样至与M(s)具有相同分辨率的图像
上,然后将M(s)的各个像素与上采样后的M(c)相对应像素分别进行求和。
所述的步骤②-4中设定的第一阈值7; =1 。所述的步骤③中的深度视觉注意检测方法的具体过程为
③-l、对当前深度视频帧进行高斯金字塔分解,分解成 层深度视频帧,记当前深度视频帧高斯金字塔分解后得到的第/层深度视频帧为D(i),第/层深度视频帧D(/)的宽和高分别为酽/2'和///2、其中, 为小于20的正整数,z'e
,『为当前
深度视频帧的宽,//为当前深度视频帧的高;
③-2、利用当前深度视频帧的&层深度视频帧,提取当前深度视频帧的深度特征图,
记为^, K十十F一 ,其中,Fd,C(c)辟)I), s,ce[O,"广l],
s = c + <5,3 = {—3,—2,—1,1,2,3}, AT()为归一化至0 2"-l区间的归一化函数,符号"l |"为绝对值运算符号,D(c)为第c层深度视频帧,D(5)为第s层深度视频帧,符号"分"为D(c)与D(s)进行跨层级作差运算符,如果c〈"则将D(s)上采样至与D(c)具有相同分辨率的图像上,然后将D(c)的各个像素与上采样后的D(s)相对应N像素分别进行作差,如果o"则将D(c)上采样至与D(^具有相同分辨率的图像上,然后将D(s)的各个像素与上采样后的D(c)相对应像素分别进行作差,符号"0"为D(c)与D(s)进行跨层级相加运算符,如果c〈s,则将D(s)上采样至与D(c)具有相同分辨率的图像上,然后将D(c)的各个像素与上采样后的D(s)相对应像素分别进行求和,如果o"则将D(c)上采样至与D(乃具有相同分辨率的图像上,然后将D("的各个像素与上采样后的
D(c)相对应像素分别进行求和;
③-3、采用公知的0度、;r/4度、;r/2度和3;r/4度方向Gabor滤波器对当前深度视频帧作巻积运算,以提取0度、;r/4度、"/2度和3;r/4度方向的四个方向分量,得
到当前深度视频帧的四个方向分量图,四个方向分量图分别表示为O 、 0;/4、 (^/2和
0^/4;对当前深度视频帧的O 方向分量图、0^4方向分量图、0^2方向分量图和0^/4方向分量图分别进行高斯金字塔分解,各分解成&层方向分量图,记0度方向的方向分量图经高斯金字塔分解后得到的第z'层方向分量图为O"0 , Of(/)的宽和高分别为
『/2'和///2',其中,Pe(0,;r/4';r/2,3;r/4) z'e
,,为当前深度视频帧的
宽,//为当前深度视频帧的高;
③-4、利用当前深度视频帧的各度方向的方向分量图的 层方向分量图,提取当前<formula>formula see original document page 17</formula>
5 = {-3'—2,—1,1,2,3}, AT()为归一化至0~2&-1区间的归一化函数,符号"| |"为绝
对值运算符号,Of(c)为e度方向的方向分量图的第c层方向分量图,O""为0度方
向的方向分量图的第s层方向分量图,符号"分"为O"c)与O""进行跨层级作差运
算符,如果c < s,则将W上采样至与Of (c)具有相同分辨率的图像上,然后将Of W
的各个像素与上采样后的0^^)相对应像素分别进行作差,如果os,则将Of(c)上采
样至与o5D W具有相同分辨率的图像上,然后将O; W的各个像素与上采样后的Of W
相对应像素分别进行作差,符号"0"为O"c)与Of(力进行跨层级相加运算符,如果
则将O"s)上采样至与O"cO具有相同分辨率的图像上,然后将Of(c)的各个像
素与上采样后的O""相对应像素分别进行求和,如果o"则将O"c)上采样至与
Of (s)具有相同分辨率的图像上,然后将Of (s)的各个像素与上采样后的W相对应像素分别进行求和;
③-5、采用公知的形态学膨胀算法以大小为w^A的块为基本膨胀单元对当前深度视频帧的初步深度方向特征图F^进行巧次膨胀操作,得到当前深度视频帧的深度方向特征图,记为F^;
③-6、利用当前深度视频帧的深度特征图^和深度方向特征图F^,获取当前深度视频帧的初步深度视觉注意的分布图,记为S'D , = 乂(Fw +FD),记S^中坐标为(x,力的像素的像素值为《Oc,少),其中,AT()为归一化至0 2Zs-l区间的归一化函数;
③-7、利用当前深度视频帧的初步深度视觉注意的分布图S'D,获取当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图SD,记S^中坐标为(U)的像素的像素值为^(A力,^(x,力-《(x,力.g(x,力,其中,0-2 ;c<6||y<6||jc>『一6||:v>/f — 6
g(X," = <L£ ,V Wll "II T〃"II 、 17",『为当刖深度视频帧的
1 e&e宽,/f为当前深度视频帧的高,6为设定的第二阚值,符号"II"为"或"运算符。所述的步骤③-5中^1=8, 4=8,巧=2,所述的步骤③-7中设定的第二阈值6为16。
所述的步骤④中的基于深度感知的视觉注意融合方法的具体过程为
④-l、通过2^(;c'力卜c/(;c,力+ y对当前深度视频帧进行尺度变换,其中,7为值
在
范围内的系数,J(:c,少)表示当前深度视频帧中坐标为Oc,力的像素的像素
值,g(^(:c,;0)表示尺度变换后的当前深度视频帧中坐标为Oc,力的像素的像素值;
④-2、利用尺度变换后的当前深度视频帧、当前深度视频帧及当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图SD、当前纹理视频帧
的运动视觉注意的分布图SM以及当前纹理视频帧的静态图像域视觉注意的分布图S,,
获取三维视觉注意的分布图S ,记三维视觉注意的分布图S中坐标为(jc,力的像素的像素
、、
,其
值为s(;c,力,4*力=〃 2(4^))H ^A(x'力—J] C。凡J;c,力中,《D、 2Q和AT,分别SD、 SM以及S,的加权系数,加权系数满足条件J]《。=1,
0S&《1, V()为归一化至0~2"—l区间的归一化函数,^(x,力、^(;c,力和a(jc,力
分别表示S。、 S^以及S,中坐标为(;c,力的像素的像素值,0^(;c,^为视觉注意的相关
值,0。J;cj卜m/"(s。(;c'力A(x,;;)), mZw()为取最小值函数,C"为相关系数,相关系数满足条件 2 C。A=1, 0^C。6<1,相关系数C^表示S。与SM的相关度,
相关系数Q^表示Sd与S,的相关度,相关系数c^表示s,与s^的相关度,
18所述的步骤⑤中对三维视觉注意的分布图S进行阈值化和宏块化后处理的具体过程为
⑤-l、记三维视觉注意的分布图S中坐标为(X,力的像素的像素值为S(X,力,定义第三阈值7i, H乞》(jc,力/(『x//),其中,『为三维视觉注意的分布图S的宽,
i/为三维视觉注意的分布图S的高,^e(0,3);新建一个初步二值掩模图像,判断s(x,;;)2:r,是否成立,如果成立,则将初步二值掩模图像中坐标为(u)的像素标记为感兴趣像素,否则,将初步二值掩模图像中(x,;;)坐标的像素标记为非感兴趣像素;
⑤-2、将初步二值掩模图像分割成(『/W2)><(///;z2)个尺寸大小为w2x;^2的块,且块
与块之间互不重叠,记横坐标为"且纵坐标为v的块为B^,其中,we
,Ve
,根据初步二值掩模图像中的各个块确定当前纹理视频帧中的对应的各个块中的像素为感兴趣像素还是非感兴趣像素,对于块B^,判断块B",,中标记为感兴
趣像素的像素的个数是否大于设定的第四阈值7;,其中,0《7;^^x/^,如果是,则将
当前纹理视频帧中与块B^对应的块中的所有像素标记为感兴趣像素,并将块B^对应的块作为感兴趣区域块,否则,将当前纹理视频帧中与块B^对应的块中的所有像素标
记为非感兴趣像素,并将块B^对应的块作为非感兴趣区域块,得到当前纹理视频帧的
初步感兴趣区域掩模图像,该初步感兴趣区域掩模图像由感兴趣区域块和非感兴趣区域块组成;
⑤-3、将初步感兴趣区域掩模图像中与感兴趣区域块最相邻的非感兴趣区域块中的所有像素标记为第i^级过渡感兴趣区域,更新初步感兴趣区域掩模图像;然后,将更
新后的初步感兴趣区域掩模图像中与第i^级过渡感兴趣区域最邻近的非感兴趣区域块
中的所有像素标记为第A^-1级过渡感兴趣区域,递归更新初步感兴趣区域掩模图像;再重复递归上述过程,直至标记到第1级过渡感兴趣区域;最后得到当前纹理视频帧的最终的感兴趣区域掩模图像,该最终的感兴趣区域掩模图像由感兴趣区域块、A^级过渡感兴趣区域和非感兴趣区域块组成;◎-4、记最终的感兴趣区域掩模图像中坐标为Oc,力的像素的像素值为rOc,力,将
最终的感兴趣区域掩模图像中非感兴趣区域块中的所有像素的像素值置为
= 255 ,将最终的感兴趣区域掩模图像中iVfl级过渡感兴趣区域中的所有像素的像 素值置为":c,力-^x/(x,力,将最终的感兴趣区域掩模图像中感兴趣区域块中的所 有像素的像素值置为"1,力=/^,力,得到当前纹理视频帧的感兴趣区域,其中,e表 示过渡感兴趣区域的级数,ee[l,iVfl], /(x,力表示当前纹理视频帧中坐标为(;c,力的像 素的像素值。
所述的步骤 -2中的^2=16, ^=16,设定的第四阈值 ;=50。
与现有技术相比,本发明的优点在于联合利用了时间上同步的纹理视频帧和纹理视 频帧对应的深度视频帧,首先通过提取纹理视频帧的静态图像域视觉注意,获取纹理视 频帧的静态图像域视觉注意的分布图,通过时间上连续的纹理视频帧提取运动视觉注 意,获取纹理视频帧的运动视觉注意的分布图,通过提取深度视频帧的深度视觉注意, 获取深度视频帧与纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图,然后 利用已得到的静态图像域视觉注意的分布图、运动视觉注意的分布图及深度视觉注意的 分布图以及深度信息,经过基于深度感知的融合方法得到符合人眼立体视觉特性的三维 (立体)视觉注意的分布图,再经过阈值化和宏块化后处理操作得到最终的符合人眼立 体感知的视频感兴趣区域及其对应的感兴趣区域与非感兴趣区域的掩模图像。该方法提 取的感兴趣区域融合了静态图像域视觉注意、运动视觉注意和深度视觉注意,有效抑制 各视觉注意提取内在的单一性和不准确性,解决了静态图像域视觉注意中的复杂背景引 起的噪声问题,解决了运动视觉注意无法提取局部运动和运动幅度小的感兴趣区域,从 而提高计算精度,增强算法的稳定性,能够从纹理复杂的背景和运动环境中提取出感兴 趣区域。另外,通过该方法获取的感兴趣区域除符合人眼对静态纹理视频帧的视觉感兴 趣特性和人眼对运动对象感兴趣的视觉特性外,还符合在立体视觉中对深度感强或距离 近的对象感兴趣的深度感知特性,符合人眼立体视觉的语义特征。
图la为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧; 图lb为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧; 图2a为测试序列"Ballet" 二维彩色视频对应的深度视频中f时刻的深度视频帧; 图2b为测试序列"Door Flower" 二维彩色视频对应的深度视频中f时刻的深度视频帧;
图3为本发明方法的总体流程框图4为采用公知的静态图像视觉注意检测方法检测当前纹理视频帧的静态图像域视 觉注意的流程框图5为运动视觉注意检测方法的流程框图; 图6为深度视觉注意检测方法的流程框图7a为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧的亮度特征图; 图7b为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧的色度特征图; 图7c为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧的方向特征图; 图8a为测试序列"Ballet" 二维彩色视频中/时刻的彩色视频帧的静态图像域视觉 注意的分布图8b为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧的运动视觉注意的 分布图8c为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧与对应的深度视频 帧联合展现的三维视频图像的深度视觉注意的分布图9为测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧及对应的深度视频 帧经本发明处理后得到的三维视觉注意的分布图10a为测试序列"Ballet"的f时刻的纹理视频帧的经本发明提取的最终的感兴趣 区域掩模图像;
图10b为测试序列"Ballet"的/时刻的纹理视频帧的经本发明提取的感兴趣区域;
图11a为测试序列"Ballet"的/时刻的纹理视频帧的经传统仅依据静态图像域视觉 注意线索感兴趣区域提取方法提取的感兴趣区域;
图lib为测试序列"Ballet"的f时刻的纹理视频帧的经传统仅依据运动视觉注意 线索感兴趣区域提取方法提取的感兴趣区域;
图11c为测试序列"Ballet"的f时刻的纹理视频帧的经传统静态图像域视觉注意 和运动视觉注意联合感兴趣区域提取方法提取的感兴趣区域;
图12a为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧的亮度特征
图12b为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧的色度特征
图12c为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧的方向特征
图13a为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧的静态图 像域视觉注意的分布图;图13b为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧的运动视 觉注意的分布图13c为测试序列"Door Flower" 二维彩色视频中/时刻的彩色视频帧与对应的 深度视频帧联合展现的三维视频图像的深度视觉注意的分布图14为测试序列"Door Flower" 二维彩色视频中f时刻的彩色视频帧及对应的深 度视频帧经本发明处理后得到的三维视觉注意的分布图15a为测试序列"Door Flower"的f时刻的纹理视频帧的经本发明提取的最终的 感兴趣区域掩模图像;
图15b为测试序列"Door Flower"的Z时刻的纹理视频帧的经本发明提取的感兴趣 区域;
图16a为测试序列"Door Flower"的/时刻的纹理视频帧的经传统仅依据静态图像 域视觉注意线索感兴趣区域提取方法提取的感兴趣区域;
图16b为测试序列"Door Flower"的f时刻的纹理视频帧的经传统仅依据运动视觉 注意线索感兴趣区域提取方法提取的感兴趣区域;
图16c为测试序列"Door Flower"的f时刻的纹理视频帧的经静态图像域视觉注意 和运动视觉注意联合感兴趣区域提取方法提取的感兴趣区域。
具体实施例方式
以下结合附图实施例对本发明作进一步详细描述。
本发明的一种基于视觉注意的视频感兴趣区域的提取方法,主要联合利用了时间上 同步的纹理视频的信息和深度视频的信息来提取视频感兴趣区域,在本实施例中纹理视 频主要采用二维彩色视频,纹理视频以测试序列"Ballet"二维彩色视频和"Door Flower" 二维彩色视频为例,图la给出了测试序列"Ballet" 二维彩色视频中f时刻的彩色视频 帧,图lb给出了测试序列"Door Flower" 二维彩色视频中?时刻的彩色视频帧,图2a 为测试序列"Ballet" 二维彩色视频对应的深度视频中f时刻的深度视频帧,图2b为测 试序列"Door Flower" 二维彩色视频对应的深度视频中Z时刻的深度视频帧,二维彩色
视频对应的深度视频中各时刻的深度视频帧为ZD比特深度表示的灰度图,灰度图的灰
度值表示深度视频帧中各像素所表示的对象到相机的相对距离。纹理视频中各时刻的纹 理视频帧的尺寸大小定义为『xH,而对于纹理视频对应的深度视频中各时刻的深度视 频帧,若深度视频帧的尺寸大小与纹理视频帧的尺寸大小不相同,则一般采用现有的尺 度变换和插值等方法将深度视频帧的尺寸大小设置为与纹理视频帧相同的尺寸大小,即 也为『x/f,『为纹理视频中各时刻的纹理视频帧的宽或深度视频中各时刻的深度视频 帧的宽,/f为纹理视频中各时刻的纹理视频帧的高或深度视频中各时刻的深度视频帧的
22高,将深度视频帧的尺寸大小设置成与纹理视频帧的尺寸大小相同,目的是为了更方便 地提取视频感兴趣区域。
本发明方法的总体流程框图如图3所示,具体包括以下步骤
①将二维彩色视频定义为纹理视频,定义纹理视频中各时刻的纹理视频帧的尺寸大 小均为『x7/,『为纹理视频中各时刻的纹理视频帧的宽,//为纹理视频中各时刻的纹
理视频帧的高,记纹理视频中^时刻的纹理视频帧为F,,定义纹理视频中f时刻的纹理视 频帧F,为当前纹理视频帧,采用公知的静态图像视觉注意检测方法检测当前纹理视频帧 的静态图像域视觉注意,得到当前纹理视频帧的静态图像域视觉注意的分布图,记为S,,
当前纹理视频帧的静态图像域视觉注意的分布图S,的尺寸大小为Wxi/且其为Zs比特
深度表示的灰度图,该灰度图中某一像素的像素值越大表示人眼对当前纹理视频帧的对 应像素的相对注意程度越高,像素值越小表示人眼对当前纹理视频帧的相对注意程度越 低。
在此具体实施例中,采用公知的静态图像视觉注意检测方法检测当前纹理视频帧的 静态图像域视觉注意的流程框图如图4所示,在图4中每个矩形表示一种数据处理过程,
每个菱形分别示意一幅图像,不同尺寸的菱形表示不同分辨率的图像,是相应操作的输 入和输出数据;当前纹理视频帧为RGB格式的图像,图像中的每个像素由R、 G和B 三个颜色通道表示,首先将当前纹理视频帧的每个像素的各颜色通道分量线性变换,分 解为一个亮度分量图和两个色度分量图即红绿分量图和蓝黄分量图,亮度分量图、红绿
分量图及蓝黄分量图分别记为I、 RG及BY,亮度分量图I在(x,力坐标的像素值表示为
、=(C+g^+、)/3,其中,/^表示亮度分量在Oc,力坐标的像素值,、"g^、夂j
分别为当前纹理视频帧在Cc,力坐标的RGB三个颜色通道的像素的像素值,红绿分量图
RG、蓝黄分量图BY两个色度分量图分别在"力坐标的像素值分别表示为
"^^c,y 一 ~,少 (gjf,y +^^^,少 Gw=g,,,-(C、)/2
A',^-"w+g^)/2 , 及C^表示红绿分量图RG在(x,力坐标的像
及G;d-、<formula>formula see original document page 23</formula>
素值,^i^表示蓝黄分量图BY在(:c,力坐标的像素值;采用公知的Gabor滤波器提取亮度分量图的0度,45度,90度和135度四个方向分量图,提取的四个方向分量图分 别记为0〖,ee{o,;,|,,};对一个亮度分量、两个色度分量和四个方向分量分别进
行高斯金字塔分解,各分解为 层,在此A为小于20的正整数,各分量图统一用/表
示,记各分量图/经高斯金字塔分解后得到的第/层的层分量图为/(0,其中,
!'e[O,"广l], /e{l}u{RG,BY}u{0:,0",0;/2,OL/4},所以共产生的7个分量图,每
个分量图分解为"i层层分量图,共7x 层层分量图,本实施例中A取值为9;利用已 提取的层分量图计算各分量(色度、亮度、方向分量)的特征图为-
i^-A/"④十/(。賴(力,V/e{l}u{RG,BY}u 0孓,0;/4,0;/2,03;/4 ,其中,
、C一2 S-C+J 乂 、
s,ce[O,"i-1], s = c + 5, 5 = 3,-2,一1'1,2,3}, )为归一化至0~2Zs —1区间的归一
化函数,2^-1表示最容易引起注意,0表示最不容易引起注意,/(。表示分量图/的
第c层层分量图,/("表示分量图/的第^层层分量图,符号"分"为/(c)与/("进行
跨层级作差运算符,如果c < s则将/("上采样至与/(c)具有相同分辨率的图像上,然
后将/(c)与上采样后的/(^对应像素分别进行作差,如果Os,则将/(c)上采样至与
/(0具有相同分辨率的图像上,然后将/^)与上采样后的/(c)对应像素分别进行作差,
符号"④"表示/(c)与/("跨层级相加运算符,如果c < s则将/^)上采样至与/(c)具
有相同分辨率的图像上,然后将/(cO与上采样后的/(》对应像素分别进行求和,如果c〉
s,则将/(cO上采样至与/(》具有相同分辨率的图像上,然后将/("与上采样后的/(。对 应像素分别进行求和,将各分量的特征图线性融合并归一化,得到当前纹理视频帧的静
态图像域视觉注意的分布图S,,
/ 匸 、 卩 、、
巧+A/"Z巧+〃 Z A
V/丰G州 乂
测试序列"Ballet"和"Door Flower"的各个图像的尺寸大小为1024x768,测试序 列"Ballet" 二维彩色视频中f时刻的彩色视频帧的亮度特征图、色度特征图和方向特征 图分别如图7a、图7b和图7c所示;测试序列"Door Flower" 二维彩色视频中f时刻 的彩色视频帧的亮度特征图、色度特征图和方向特征图分别如图12a、图12b和图12c
24所示。在此具体实施例中,Zs=8,即静态图像域视觉注意的分布图S,的每个像素采用
8比特深度表示,测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧的静态图像 域视觉注意的分布图如图8a所示;测试序列"DoorFlower" 二维彩色视频中f时刻的 彩色视频帧的静态图像域视觉注意的分布图如图13a所示。在此,静态图像域视觉注意 检测方法还可采用其他公知的视觉注意检测方法。
②采用运动视觉注意检测方法检测当前纹理视频帧的运动视觉注意,得到当前纹理
视频帧的运动视觉注意的分布图,记为S^,当前纹理视频帧的运动视觉注意的分布图
S^的尺寸大小为『x/f且其为Z,比特深度表示的灰度图,该灰度图中某一像素的像素
值越大表示人眼对当前纹理视频帧的对应像素的相对运动注意程度越高,像素值越小表 示人眼对当前纹理视频帧的对应像素的相对运动注意程度越低。
在此具体实施例中,运动视觉注意检测方法的流程框图如图5所示,该运动视觉注 意检测方法的具体过程为
②-l、记纹理视频中与当前纹理视频帧时间上连续的f + _/时刻的纹理视频帧为F"., 记纹理视频中与当前纹理视频帧时间上连续的f-y时刻的纹理视频帧为F,力,其中,
_/e(0,iVF/2], A^为小于10的正整数,在本实施例的具体应用过程中取i^ =4,即采
用当前纹理视频帧以及当前纹理视频帧的前两帧和后两帧联合提取纹理视频的运动区 域。
②-2、采用公知的光流法计算当前纹理视频帧与f + j'时刻的纹理视频帧在水平
方向的运动向量图像和竖直方向的运动向量图像,及当前纹理视频帧与f-y'时刻的纹理 视频帧F,力在水平方向的运动向量图像和竖直方向的运动向量图像,记当前纹理视频帧 与^ + y时刻的纹理视频帧F,"在水平方向的运动向量图像为V^.及竖直方向的运动向量 图像为V二,记当前纹理视频帧与f-y'时刻的纹理视频帧F,力.在水平方向的运动向量图 像为V二.及竖直方向的运动向量图像为V二, v,l、 V二、 V二及V二的宽为『及高为//。 ②-3、将¥^的绝对值与¥^的绝对值叠加得到当前纹理视频帧与^ + y时刻的纹理 视频帧F,+,的运动幅度图像,记为M,+,, Mf+,. = V^+V,:,记M,+,.中坐标为(;c,力的
像素的运动幅度值为m" (xj);将V二的绝对值与V二的绝对值叠加得到当前纹理视频帧与卜/时刻的纹理视频帧F,力的运动幅度图像,记为M,力,Mf—; =|《.| + |《;|,记1\1,_; 中坐标为(jc,力的像素的运动幅度值为(XJ)。
②-4、利用当前纹理视频帧和f + y时刻的纹理视频帧F .及r-y时刻的纹理视频帧 F,力,提取联合运动图,记为M),提取联合运动图MJ的具体过程为判断当前纹理视 频帧与/ + /时刻的纹理视频帧F .的运动幅度图像M^中的各个像素和当前纹理视频 帧与卜7'时刻的纹理视频帧F,,的运动幅度图像M,力中对应坐标的像素的运动幅度值 中的最小值是否大于设定的第一阈值7],如果是,则确定联合运动图MJ中相应坐标的 像素的像素值为M^和M,力中对应坐标的像素的运动幅度值之和的平均,否则,确定 联合运动图M;中相应坐标的像素的像素值为0;对于M^中坐标为(:c,力的像素和M". 中坐标为(x,力的像素,判断min(附w(;c,力,fli,力(;c,力)是否大于设定的第一阈值7;,如
果是,则确定联合运动图M,中坐标为(jc,力的像素的像素值为"+)"^);""",y),
否则,确定联合运动图M)中坐标为(;r,力的像素的像素值为O,其中,min()为取最小
值函数。在此,第一阈值石=1,以滤除非常微小的相机参数抖动所造成的小噪声点。
②-5、将在时间上与f时刻距离1时刻至i^/2时刻的各个时刻的联合运动图加权 叠加得到当前纹理视频帧的加权联合运动图,记为M,记当前纹理视频帧的加权联合运
动图M中坐标为Oc,力的像素的像素值为/w(;c,力,m(;c,;;)-J]。附,(;c,j;),其中, m,(x,y)表示在时间上与f时刻距离_/时刻的联合运动图M^中坐标为(x,力的像素的像
素值,。为加权系数,加权系数。满足£。.=1。
乂=1
在视频中,运动物体是主要的感兴趣区域,然而由于运动类型不同,人们的注意程 度是不同的,将视频的运动类型主要分为以下两类情况,第一类,对于静止相机拍摄的
情况,背景静止,运动物体是主要感兴趣对象;第二类,对于运动相机拍摄的情况,背 景全局运动,而运动物体与相机保持相对静止或呈现于背景不一致运动的情况,此时, 该运动物体仍然是感兴趣对象;针对以上分析,人们运动注意区域主要来源于该物体运
26动属性区别于背景环境的运动属性,是运动对比度较大的区域,因此可采用以下步骤获 取运动视觉注意。
②-6、对当前纹理视频帧的加权联合运动图M进行高斯金字塔分解,分解成 层加
权联合运动图,记加权联合运动图M经高斯金字塔分解后得到的第/层加权联合运动图 为M(z'),第/层加权联合运动图M(/)的宽和高分别为『/2'和H/2、其中, 为小于
20的正整数,/e
,第0层为最底层,第 -l层为最高层,『为当前纹理视频
帧的宽,/f为当前纹理视频帧的高;在本实施例的具体应用过程中&取值为9。
② -7、利用当前纹理视频帧的加权联合运动图M的 层加权联合运动图,提取当前 纹理视频帧的运动视觉注意的分布图SM ,记S^中坐标为(;c,力的像素的像素值为<formula>formula see original document page 27</formula>为归一化至0~2Zs —1区间的归一 化函数,符号"l l"为绝对值运算符号,M(c)为第c层加权联合运动图,M(》为第s层 加权联合运动图,符号"分"为M(c)与M(s)进行跨层级作差运算符,如果c〈"则 将M(s)上采样至与M(c)具有相同分辨率的图像上,然后将M(c)的各个像素与上采样 后的M(s)相对应像素分别进行作差,如果os,则将M(c)上采样至与M(s)具有相同 分辨率的图像上,然后将M^)的各个像素与上采样后的M(c)相对应像素分别进行作 差,符号"0"为M(c)与M(s)进行跨层级相加运算符,如果c〈"则将M(s)上采样 至与M(c)具有相同分辨率的图像上,然后将M(c)的各个像素与上采样后的M(s)相对 应像素分别进行求和,如果os,则将M(c)上采样至与M(s)具有相同分辨率的图像
上,然后将M(s)的各个像素与上采样后的M(c)相对应像素分别进行求和。
测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧经本步骤处理后得到的运 动视觉注意的分布图如图8b所示;测试序列"Door Flower" 二维彩色视频中r时刻的 彩色视频帧经本步骤处理后得到的运动视觉注意的分布图如图13b所示。
③ 定义纹理视频对应的深度视频中各时刻的深度视频帧为Zfl比特深度表示的灰度图,其o至ij2^ -l范围的灰度值表示深度视频帧中的各个像素所表示的拍摄到的对象到
拍摄相机的相对距离,灰度值0对应最大深度,灰度值2^-l对应最小深度,将深度视 频中各时刻的深度视频帧的尺寸大小均设置为『xif ,『为深度视频中各时刻的深度视 频帧的宽,//为深度视频中各时刻的深度视频帧的高,记深度视频中f时刻的深度视频 帧为D,,定义深度视频中f时刻的深度视频帧D,为当前深度视频帧,采用深度视觉注意
检测方法检测当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉 注意,得到三维视频图像的深度视觉注意的分布图,记为S^三维视频图像的深度视
觉注意的分布图SD的尺寸大小为『x//且其为Zs比特深度表示的灰度图,该灰度图中
某一像素的像素值越大表示人眼对当前纹理视频帧的对应像素的相对深度注意程度越 高,像素值越小表示人眼对当前纹理视频帧的相对深度注意程度越低。本实施例中,深
度视频帧的每个像素由2。=8比特深度表示,视觉注意分布图的每个像素由Z,:8比特 深度表示。
特有的立体感是立体视频区别于传统单通道视频的主要特点,对于立体视频的视觉 注意力,深度感主要通过两个方面影响着用户的视觉注意力, 一方面,用户对于靠近拍 摄相机阵列的景物(或物体)的感兴趣程度一般大于远离拍摄相机阵列的景物(或物体); 另一方面,深度不连续区域提供给用户以强烈的深度对比。在此具体实施例中,深度视 觉注意检测方法的流程框图如图6所示,该深度视觉注意检测方法的具体过程为
③-l、对当前深度视频帧进行高斯金字塔分解,分解成"i层深度视频帧,记当前深 度视频帧高斯金字塔分解后得到第f层深度视频帧为D(/),第/层深度视频帧D(/)的宽 和高分别为『/2'和///2',其中,"i为小于20的正整数,/e
,第0层为最底
层,分辨率最大D(0)-D,,第"£-1层为最高层,分辨率最小,『为当前深度视频帧的
宽,i/为当前深度视频帧的高。
③-2、利用当前深度视频帧的 层深度视频帧,提取当前深度视频帧的深度特征图,
一 一 f 4 c+4 、 ,固 ,、
记为F。, FD=A/*十,0FDcs ,其中,F0cs=A/* D(c)佛(",s,ce[O,"丄-1],
s = c + 5, 3 = {-3,-2,-1,1,2,3}, AT()为归一化至0~24—l区间的归一化函数,符号"l |" 为绝对值运算符号,D(c)为第c层深度视频帧,D(^为第s层深度视频帧,符号
28为D(c)与D(s)进行跨层级作差运算符,如果c〈"则将D("上采样至与D(c)具有相 同分辨率的图像上,然后将D(c)的各个像素与上采样后的D(s)相对应像素分别进行作 差,如果c",则将D(c)上采样至与D("具有相同分辨率的图像上,然后将D(s)的各 个像素与上采样后的D(。相对应像素分别进行作差,符号为D(cO与D^进行跨 层级相加运算符,如果^<"则将D(^上采样至与D(c)具有相同分辨率的图像上,然 后将D(c)的各个像素与上采样后的D(s)相对应像素分别进行求和,如果o"则将 D(c)上采样至与D(^具有相同分辨率的图像上,然后将D(s)的各个像素与上采样后的
D(c)相对应像素分别进行求和。
③-3、深度差异性较大的深度边缘区域给予用户更强的深度感,所以当前深度视频 帧中的深度强边缘区域是深度视觉注意的另一重要感兴趣区域,因此在此采用公知的0 度、;r/4度、;r/2度和3;r/4度方向Gabor滤波器对当前深度视频帧作巻积运算,以提 取0度、;r/4度、;r/2度和3;r/4度方向的四个方向分量,得到当前深度视频帧的四个
方向分量图,四个方向分量图分别表示为Of、 0 /4、 0;/2和03:4;对当前深度视频帧 的Of方向分量图、0^4方向分量图、0^2方向分量图和0乙4方向分量图分别进行高斯 金字塔分解,各分解成 层方向分量图,记^度方向的方向分量图经高斯金字塔分解后 得到的第/层方向分量图为0^(0 , Of(/)的宽和高分别为『/2'和/Z/2',其中,
Pe(0,;r/4,;r/2,3;r/4) /e
,第0层为最底层,O,(O)-Of,第 —l层为最
高层,『为当前深度视频帧的宽,i/为当前深度视频帧的高。
③-4、利用当前深度视频帧的各度方向的方向分量图的 层方向分量图,提取当前
深度视频帧的初步深度方向特征图,记为F^, 5^=^ZF。e ,其中,<formula>formula see original document page 29</formula>
^^〔会2旦Vw〕 , F<W=^(K(c)eO^)|),屮[。,"广1], s = c + 5, 5 = {—3'-2,-1,1,2,3}, A/"()为归一化至0~2&—l区间的归一化函数,符号"ll"为绝 对值运算符号,O"0为e度方向的方向分量图的第c层方向分量图,O"力为0度方向的方向分量图的第s层方向分量图,符号"分"为O"c)与O (s)进行跨层级作差运
算符,如果c < "则将Of W上采样至与W具有相同分辨率的图像上,然后将Of (c)
的各个像素与上采样后的O"s)相对应像素分别进行作差,如果o"则将Of(c)上采
样至与O; (s)具有相同分辨率的图像上,然后将Of (s)的各个像素与上采样后的O; (c)
相对应像素分别进行作差,符号"④"为0^(c)与0^("进行跨层级相加运算符,如果
c",贝iJ将0"s)上采样至与(^(c)具有相同分辨率的图像上,然后将OS(cO的各个
像素与上采样后的O""相对应像素分别进行求和,如果o"则将Of(c)上采样至与
Of (s)具有相同分辨率的图像上,然后将Of (s)的各个像素与上采样后的Of (c)相对应 像素分别进行求和。
③-5、采用公知的形态学膨胀算法以大小为M^x/^的块为基本膨胀单元对当前深度
视频帧的初步深度方向特征图fL进行巧次膨胀操作,得到当前深度视频帧的深度方向
特征图,记为F"。在本实施例中,针对"Ballet"和"Doorflower"测试序列,测试序 列中各个图像的尺寸大小为1024x768,形态学膨胀的基本单元采用8x8的块,即 1^x^=8x8,膨胀次数《!=2。
③-6、利用当前深度视频帧的深度特征图FD和深度方向特征图F^,获取当前深度
视频帧的初步深度视觉注意的分布图,记为S'D , S'。 = A/"(F^ +FD),记S'。中坐标为(jc,力
的像素的像素值为《Oc,力,其中,A/*()为归一化至0~2&一1区间的归一化函数。
③-7、对于图像的左右边界区域,左视点图像具有的左图像边界,在右视点并没有 与之对应的区域,所以无法在人脑中形成立体感;同理,对于右视点图像的右图像边界 也难以形成立体感。所以在立体视频中,图像的左右边界区域提供的立体感较弱甚至没 有立体感,是非立体视觉注意区域,所以本发明对当前深度视频帧的初步深度视觉注意
的分布图S'的边界区域进行抑制,利用当前深度视频帧的初步深度视觉注意的分布图 s:,获取当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意
的分布图S。,记S。中坐标为",力的像素的像素值为^",y), ^(xK(;c,力.
30g(x,;0,其中,
<formula>formula see original document page 31</formula>
,『为当
前深度视频帧的宽,//为当前深度视频帧的高,6为设定的第二阈值,符号"ll"为"或" 运算符。在此,第二阈值6取值为16。函数g(x,;;)也可为其他对图像边缘区域抑制的
二维函数,如模板大小与纹理视频帧尺寸相同的二维高斯函数。
图8c给出了测试序列"Ballet" 二维彩色视频中f时刻的彩色视频帧与对应的深度 视频帧联合展现的三维视频图像的深度视觉注意的分布图;图13c给出了测试序列"Door Flower" 二维彩色视频中r时刻的彩色视频帧与对应的深度视频帧联合展现的三维视频 图像的深度视觉注意的分布图。
④采用基于深度感知的视觉注意融合方法将当前纹理视频帧的静态图像域视觉注
意的分布图S,、当前纹理视频帧的运动视觉注意的分布图SM、当前深度视频帧及当前
深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图SD融
合,以提取符合人眼立体感知的三维视觉注意的分布图,记为S,三维视觉注意的分布 图S的尺寸大小为『x/f且其为Z,比特深度表示的灰度图,该灰度图中某一像素的像素
值越大表示人眼对当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的对应 像素的相对关注程度越高,像素值越小表示人眼对当前深度视频帧与当前纹理视频帧联 合展现的三维视频图像的相对关注程度越低。
在传统单通道中,运动物体相比于静止物体更容易引起观看者的注意,对于都为静 止的物体,颜色鲜艳的区域、色彩或亮度对比度较大的区域、纹理方向差异性较大的区 域等更容易引起观看者的注意;在立体视频中,人眼的视觉注意分布除了受到运动视觉 注意和静态图像域视觉注意影响外,还受到立体视频提供给予用户特有的立体感的影 响;这种立体感主要来源于我们左右眼所看到的场景的微小的位置偏差,称为视差,例 如我们双眼间距约为6厘米,各眼所收到的物体影像投影到视网膜上形成的视觉影像有 微小的位置偏差,这个微小偏差通过大脑自动综合为具备深度的立体图像,形成立体视 觉,立体感所体现的对象相对距离信息是直接影响我们注意力选择另一重要因素。在立 体视频中,深度不连续区域或深度对比度较大的区域所包含的对象能够给予用户更加强 烈的深度为之差异,具有更强的立体感或深度感,是用户感兴趣的区域之一;另一方面, 观看者对靠近拍摄相机(或视频观看者)的前景区域的感兴趣程度大于远离拍摄相机(或 视频观看者)的区域的感兴趣程度,所以前景区域通常是立体视频观看者感兴趣区域的重要潜在区域,基于以上分析,确定影响人眼三维视觉注意的因素包括静态图像域视觉 注意、运动视觉注意、深度视觉注意以及深度四个因素,因此,在此具体实施例中基于 深度感知的视觉注意融合方法的具体过程为
-1、通过2("(x,力)-^0f,力+r对当前深度视频帧进行尺度变换,其中,,为值
在
范围内的系数,c/Oc,力表示当前深度视频帧中坐标为(x,力的像素的像素
值,。pOc,;0)表示尺度变换后的当前深度视频帧中坐标为",力的像素的像素值。
-2、利用尺度变换后的当前深度视频帧、当前深度视频帧及当前深度视频帧与当 前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图SD、当前纹理视频帧
的运动视觉注意的分布图SM以及当前纹理视频帧的静态图像域视觉注意的分布图S,,
获取三维视觉注意的分布图S ,记三维视觉注意的分布图S中坐标为(;c,力的像素的像素
值为s(;n:,力,s(x,力A/"
,其
中,&、 4和A分别S^S^以及S,的加权系数,加权系数满足条件Z《。=1,
0S《。S1, AT()为归一化至0 2"-l区间的归一化函数, (;c,力、^(:c,力和a(x,力
分別表示Sd、 S^以及S,中坐标为(;c,力的像素的像素值,0。";c,;;)为视觉注意的相关
值,€^(1,力=附/"^。(^)^";;)), /m'"()为取最小值函数,C^为相关系数,相关 系数满足条件 J] Q=l, 0^C。A<1,相关系数C皿表示S。与SM的相关度,
相关系数Q^表示S。与S,的相关度,相关系数C^表示S,与S^的相关度,
运动视觉注意、静态图像域视觉注意和深度视觉注意联合人们视觉注意都起着重要 的作用,然而运动视觉注意是视频视觉注意中最重要的内容,其次是由图像域的亮度、 颜色和方向引起的静态图像域视觉注意,再次之为深度视觉注意,所以在本实施例中,
各视觉注意分布图均由Z,-8比特深度表示,在此具体实施例中取^^=0.15、 ATM=0.4
和《,=0.35,深度视觉注意与运动视觉注意的相关度较小,深度视觉注意与静态图像域 视觉注意的相关度也较小,静态图像域视觉注意与运动视觉注意的相关度较大,所以在此相关系数C,、(;和C^分别设置为0.2、 0.2和0.6,尺度变换系数/表征纹理视频
场景的景物纵深度,y越小景物纵深越大,给予观看者的深度感越强,相反,z越大景
物纵深越小,给予观看者的深度感越弱,针对"Ballet"和"Door Flower"测试序列,
由于场景的景物景深较小,因此设置尺度变换系数;^为50,针对"Ballet"测试序列f
时刻的纹理视频帧及对应的深度视频帧提取得到的三维视觉注意的分布图如图9所示, 针对"Door Flower"测试序列f时刻的纹理视频帧及对应的深度视频帧提取得到的三维 视觉注意的分布图如图14所示。
⑤对三维视觉注意的分布图S进行阈值化和宏块化后处理,获取当前纹理视频帧的 最终的符合人眼立体感知的感兴趣区域。
在此具体实施例中,对三维视觉注意的分布图S进行阈值化和宏块化后处理的具体 过程为
-1、记三维视觉注意的分布图S中坐标为(x,力的像素的像素值为s(;c,力,定义第 三阈值7i, H j]》(;c,力/(『x//),其中,『为三维视觉注意的分布图S的宽,
i/为三维视觉注意的分布图s的高,~e(o,3),在此具体实施例的应用过程中^可取
值为1.5;新建一个初步二值掩模图像,判断^x,;;^rs是否成立,如果成立,贝幡初 步二值掩模图像中坐标为(x,力的像素标记为感兴趣像素,否则,将初步二值掩模图像
中(jc,:v)坐标的像素标记为非感兴趣像素。
⑤-2、将初步二值掩模图像分割成(『/^2)><(////0个尺寸大小为>1;2><;22的块,且块 与块之间互不重叠,记横坐标为"且纵坐标为v的块为B^,其中,Me
, ve
,根据初步二值掩模图像中的各个块确定当前纹理视频帧中的对应的各 个块中的像素为感兴趣像素还是非感兴趣像素,对于块B^,判断块B^中标记为感兴
趣像素的像素的个数是否大于设定的第四阈值7;,其中,ost;2^x^,如果是,则将
当前纹理视频帧中与块B^对应的块中的所有像素标记为感兴趣像素,并将块B^对应 的块作为感兴趣区域块,否则,将当前纹理视频帧中与块B^对应的块中的所有像素标
33记为非感兴趣像素,并将块B^对应的块作为非感兴趣区域块,得到当前纹理视频帧的
初步感兴趣区域掩模图像,该初步感兴趣区域掩模图像由感兴趣区域块和非感兴趣区域 块组成。
在本实施例中,测试序列"Ballet"和"Door Flower"中各图像的尺寸大小为1024x768, 因此可设置块B^的尺寸M^x^为16x16,通常像素个数很少的区域不容易引起观看者
的兴趣,所以在此第四阈值7;设置为50。
⑤-3、由于在感兴趣区域和非感兴趣区域之间通常不是骤然转变的,而是缓慢变化 的,存在过渡区,所以本发明在感兴趣区域与非感兴趣区域之间设置i^级过渡感兴趣
区域。将初步感兴趣区域掩模图像中与感兴趣区域块最相邻的非感兴趣区域块中的所有 像素标记为第A^级过渡感兴趣区域,更新初步感兴趣区域掩模图像;然后,将更新后
的初步感兴趣区域掩模图像中与第i^级过渡感兴趣区域最邻近的非感兴趣区域块中的
所有像素标记为第i^-l级过渡感兴趣区域,递归更新初步感兴趣区域掩模图像;再重
复递归上述过程,直至标记到第1级过渡感兴趣区域;最后得到当前纹理视频帧的最终 的感兴趣区域掩模图像,该最终的感兴趣区域掩模图像由感兴趣区域块、A^级过渡感
兴趣区域和非感兴趣区域块组成。在此具体实施例中,i^取值为2,即设置2级过渡 感兴趣区域。
图10a给出了测试序列"Ballet"的f时刻的纹理视频帧的最终的感兴趣区域掩模图 像;图15a给出了测试序列"Door Flower"的f时刻的纹理视频帧的最终的感兴趣区域 掩模图像。图10a和图15a中黑色区域表示感兴趣区域,灰色区域为过渡感兴趣区域, 白色为非感兴趣区域。
⑤-4、记最终的感兴趣区域掩模图像中坐标为Oc,力的像素的像素值为/"0c,力,将
最终的感兴趣区域掩模图像中非感兴趣区域块中的所有像素的像素值置为 "x,力=255 ,将最终的感兴趣区域掩模图像中iVx级过渡感兴趣区域中的所有像素的像
素值置为r(;c,力-^x/(;c,力,将最终的感兴趣区域掩模图像中感兴趣区域块中的所
有像素的像素值置为"^,力=/&,>0,得到当前纹理视频帧的感兴趣区域,其中,e表 示过渡感兴趣区域的级数,ee[l,A^], /(x,力表示当前纹理视频帧中坐标为(:c,力的像 素的像素值。
34图10b给出了测试序列"Ballet"的f时刻的纹理视频帧的感兴趣区域;图15b给出了测试序列"Door Flower"的f时刻的纹理视频帧的感兴趣区域。图10b和图15b中的感兴趣区域与/时刻的纹理视频帧的像素值相同,显示彩色的纹理内容,过渡感兴趣区域通过降低亮度显示的暗灰色区域,平滑白色区域为与感兴趣区域掩模图像的白色区域对应的非感兴趣区域。作为提取效果对比,图lla和图16a分别给出了传统仅依据静态图像域视觉注意线索提取的测试序列"Ballet"和"DoorFlower" f时刻的纹理视频帧的感兴趣区域,没能去除背景纹理丰富的噪声区域;图lib和图16b给出了传统仅依据运动视觉注意线索提取的测试序列"Ballet"和"Door Flower" f时刻的纹理视频帧的感兴趣区域,对于"Ballet"序列,仅依据运动视觉注意线索感兴趣区域提取方法不能完整提取运动非常缓慢的男士,同时运动影子引起的背景噪声严重;对于"DoorFlower"序列,仅依据运动视觉注意线索感兴趣区域提取方法,仅提取运动区域,却没有考虑纹理复杂性和立体视觉提供的深度感。图11c和图16c给出了依据静态图像域视觉注意与运动视觉注意线索联合的测试序列"Ballet"和"Door Flower" f时刻的纹理视频帧的感兴趣区域,虽然该方法联合静态和运动视觉信息,然而背景环境中的纹理区域和运动噪声并不能有效抑制。
从图10a、图10b与图lla、图llb、图llc,图15a、图15b与图16a、图16b、图16c间的对比实验可以看出,本发明提取的感兴趣区域融合了静态图像域视觉注意、运动视觉注意和深度视觉注意,有效抑制各视觉注意提取内在的单一性和不准确性,解决了静态图像域视觉注意中的复杂背景引起的噪声问题,解决了运动视觉注意无法提取局部运动和运动幅度小的感兴趣区域,从而提高计算精度,增强算法的稳定性,能够从纹理复杂的背景和运动环境中提取出感兴趣区域。另外,通过本发明获取的感兴趣区域除符合人眼对静态纹理视频帧的视觉感兴趣特性和人眼对运动对象感兴趣的视觉特性外,还符合在立体视觉中对深度感强或距离近的对象感兴趣的深度感知特性,符合人眼立体视觉的语义特征。
⑥重复步骤① ⑤直至处理完纹理视频中的所有纹理视频帧,获取纹理视频的视频感兴趣区域。
在此具体实施例中,当前纹理视频帧的静态图像域视觉注意的分布图S,、当前纹理视频帧的运动视觉注意的分布图SM、三维视频图像的深度视觉注意的分布图SD、三维视觉注意的分布图S均为4比特深度表示的灰度图,纹理视频对应的深度视频中各时刻的深度视频帧为Z。比特深度表示的灰度图,而在此灰度图均采用了 256色,用8位深度表示,因此,取^=8, ZD=8,当然在实际应用过程中也可采用其他比特深度表示
35灰度图,比如16位深度,如果用16位深度表示灰度图的话,则表示精度会更高一些。
权利要求
1、一种基于视觉注意的视频感兴趣区域的提取方法,其特征在于包括以下步骤①将二维彩色视频定义为纹理视频,定义纹理视频中各时刻的纹理视频帧的尺寸大小均为W×H,W为纹理视频中各时刻的纹理视频帧的宽,H为纹理视频中各时刻的纹理视频帧的高,记纹理视频中t时刻的纹理视频帧为Ft,定义纹理视频中t时刻的纹理视频帧Ft为当前纹理视频帧,采用公知的静态图像视觉注意检测方法检测当前纹理视频帧的静态图像域视觉注意,得到当前纹理视频帧的静态图像域视觉注意的分布图,记为SI,当前纹理视频帧的静态图像域视觉注意的分布图SI的尺寸大小为W×H且其为ZS比特深度表示的灰度图;②采用运动视觉注意检测方法检测当前纹理视频帧的运动视觉注意,得到当前纹理视频帧的运动视觉注意的分布图,记为SM,当前纹理视频帧的运动视觉注意的分布图SM的尺寸大小为W×H且其为ZS比特深度表示的灰度图;③定义纹理视频对应的深度视频中各时刻的深度视频帧为ZD比特深度表示的灰度图,将深度视频中各时刻的深度视频帧的尺寸大小均设置为W×H,W为深度视频中各时刻的深度视频帧的宽,H为深度视频中各时刻的深度视频帧的高,记深度视频中t时刻的深度视频帧为Dt,定义深度视频中t时刻的深度视频帧Dt为当前深度视频帧,采用深度视觉注意检测方法检测当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意,得到三维视频图像的深度视觉注意的分布图,记为SD,三维视频图像的深度视觉注意的分布图SD的尺寸大小为W×H且其为ZS比特深度表示的灰度图;④采用基于深度感知的视觉注意融合方法将当前纹理视频帧的静态图像域视觉注意的分布图SI、当前纹理视频帧的运动视觉注意的分布图SM、当前深度视频帧及当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图SD融合,以提取符合人眼立体感知的三维视觉注意的分布图,记为S,三维视觉注意的分布图S的尺寸大小为W×H且其为ZS比特深度表示的灰度图;⑤对三维视觉注意的分布图S进行阈值化和宏块化后处理,获取当前纹理视频帧的最终的符合人眼立体感知的感兴趣区域;⑥重复步骤①~⑤直至处理完纹理视频中的所有纹理视频帧,获取纹理视频的视频感兴趣区域。
2、根据权利要求1所述的一种基于视觉注意的视频感兴趣区域的提取方法,其特征在于所述的步骤②中的运动视觉注意检测方法的具体过程为②-l、记纹理视频中与当前纹理视频帧时间上连续的f + y时刻的纹理视频帧为F^., 记纹理视频中与当前纹理视频帧时间上连续的f-/时刻的纹理视频帧为F".,其中,_/e(0,iVF/2], A^为小于10的正整数;②-2、采用公知的光流法计算当前纹理视频帧与/ + /时刻的纹理视频帧巧+,.在水平方向的运动向量图像和竖直方向的运动向量图像,及当前纹理视频帧与f-y时刻的纹理 视频帧F,力在水平方向的运动向量图像和竖直方向的运动向量图像,记当前纹理视频帧 与f + y时刻的纹理视频帧Fw在水平方向的运动向量图像为V二.及竖直方向的运动向量 图像为V,乙,记当前纹理视频帧与?-_/时刻的纹理视频帧巧力在水平方向的运动向量图 像为V二及竖直方向的运动向量图像为V二., V,l、 V二.、 ¥二及乂二;的宽为『及高为//;②-3、将V(^的绝对值与¥^的绝对值叠加得到当前纹理视频帧与/ + y时刻的纹理 视频帧F,+,的运动幅度图像,记为M,+,, M,+, = V二. + V「+,,记Mf+,中坐标为Oc,力的像素的运动幅度值为"力;将V二.的绝对值与V二的绝对值叠加得到当前纹理视频帧与f-y时刻的纹理视频帧F,力.的运动幅度图像,记为M,力,M,力.=V二 ,记M中坐标为(jc,力的像素的运动幅度值为m。 (x,少);②-4、利用当前纹理视频帧和? + _/时刻的纹理视频帧巧"及^-7时刻的纹理视频帧 F".,提取联合运动图,记为M),提取联合运动图M;的具体过程为判断当前纹理视 频帧与/+ y时刻的纹理视频帧F^.的运动幅度图像M^中的各个像素和当前纹理视频 帧与f-/时刻的纹理视频帧F ,的运动幅度图像M卜,中对应坐标的像素的运动幅度值中的最小值是否大于设定的第一阈值7;,如果是,则确定联合运动图M)中相应坐标的像素的像素值为M,"和M,力中对应坐标的像素的运动幅度值之和的平均,否则,确定 联合运动图M)中相应坐标的像素的像素值为0;对于M .中坐标为(x,力的像素和M,力 中坐标为(;c,力的像素,判断min(附 (x,力,附H(xj》是否大于设定的第一阈值7;,如果是,则确定联合运动图M)中坐标为(;c,力的像素的像素值为^""'力;W力"'力,否则,确定联合运动图M)中坐标为(;c,力的像素的像素值为O,其中,min()为取最小 值函数;②-5、将在时间上与,时刻距离1时刻至i^/2时刻的各个时刻的联合运动图加权 叠加得到当前纹理视频帧的加权联合运动图,记为M,记当前纹理视频帧的加权联合运动图M中坐标为Of,力的像素的像素值为m(;c,力,m(jc,力-X。<(XJ),其中, m, (;c,力表示在时间上与f时刻距离_/时刻的联合运动图M)中坐标为(;c,力的像素的像 素值,。为加权系数,加权系数。满足£。=1;②-6、对当前纹理视频帧的加权联合运动图M进行高斯金字塔分解,分解成&层加权联合运动图,记当前纹理视频帧的加权联合运动图M高斯金字塔分解后得到的第/层 加权联合运动图为M (0 ,第/层加权联合运动图M (0的宽和高分别为『/ 2;和H / 2、其中, 为小于20的正整数,z'e[O,"i-1],『为当前纹理视频帧的宽,//为当前纹理 视频帧的高;②-7、利用当前纹理视频帧的加权联合运动图M的A层加权联合运动图,提取当前 纹理视频帧的运动视觉注意的分布图SM,记S^中坐标为(x,力的像素的像素值为广4 c+4 、_ _ , t卞, ,1 ■、\^,力,SM=FM ,其中,FM=A/|UFM.C.J , ^,.,=^(—(0億("|), s,ce[O,"i-l], s = c + 5, 5 = {—3,—2'—1,1,2'3}, A/"()为归一化至0 2"-l区间的归一化函数,符号"l l"为绝对值运算符号,M(c)为第c层加权联合运动图,M(s)为第s层 加权联合运动图,符号"分"为M(c)与M("进行跨层级作差运算符,如果c〈s,则 将M(s)上采样至与M(c)具有相同分辨率的图像上,然后将M(c)的各个像素与上采样 后的M(s)相对应像素分别进行作差,如果o"则将M(c)上采样至与M(s)具有相同 分辨率的图像上,然后将M(O的各个像素与上采样后的M(c)相对应像素分别进行作 差,符号"0"为M(c)与M(s)进行跨层级相加运算符,如果c^"则将M(s)上采样 至与M(。具有相同分辨率的图像上,然后将M(c)的各个像素与上采样后的M(s)相对 应像素分别进行求和,如果o"则将M(c)上采样至与M(s)具有相同分辨率的图像上,然后将M("的各个像素与上采样后的M(c)相对应像素分别进行求和。
3、 根据权利要求2所述的一种基于视觉注意的视频感兴趣区域的提取方法,其特 征在于所述的步骤②-4中设定的第一阈值7;-l。
4、 根据权利要求1或2所述的一种基于视觉注意的视频感兴趣区域的提取方法, 其特征在于所述的步骤③中的深度视觉注意检测方法的具体过程为③-l、对当前深度视频帧进行高斯金字塔分解,分解成&层深度视频帧,记当前深 度视频帧高斯金字塔分解后得到的第z'层深度视频帧为D(/),第f层深度视频帧D(/)的宽和高分别为『/2'和///2',其中, 为小于20的正整数,/e
,,为当前深度视频帧的宽,//为当前深度视频帧的高;③-2、利用当前深度视频帧的 层深度视频帧,提取当前深度视频帧的深度特征图, 记为<formula>formula see original document page 5</formula>其中,<formula>formula see original document page 5</formula> AT()为归一化至0 ~ 2& — 1区间的归一化函数,符号"I I " 为绝对值运算符号,D(c)为第c层深度视频帧,D(s)为第^层深度视频帧,符号"分" 为D(c)与D(s)进行跨层级作差运算符,如果c〈s,则将D(s)上采样至与D(c)具有相同分辨率的图像上,然后将D(c)的各个像素与上采样后的D(s)相对应像素分别进行作 差,如果c",则将D(c)上采样至与D(s)具有相同分辨率的图像上,然后将D("的各 个像素与上采样后的D(c)相对应像素分别进行作差,符号"e"为D(c)与D(s)进行跨 层级相加运算符,如果c〈;y,则将D(s)上采样至与D(c)具有相同分辨率的图像上,然 后将D(c)的各个像素与上采样后的D(s)相对应像素分别进行求和,如果o"则将 D(c)上采样至与D(s)具有相同分辨率的图像上,然后将D(s)的各个像素与上采样后的D(c)相对应像素分别进行求和;③-3、采用公知的0度、;r/4度、;r/2度和3;r/4度方向Gabor滤波器对当前深度 视频帧作巻积运算,以提取0度、;r/4度、;r/2度和3;r/4度方向的四个方向分量,得到当前深度视频帧的四个方向分量图,四个方向分量图分别表示为O厂05/4、 0;/2和 03:4;对当前深度视频帧的Of方向分量图、O二方向分量图、0 /2方向分量图和04 方向分量图分别进行高斯金字塔分解,各分解成 层方向分量图,记^度方向的方向分量图经高斯金字塔分解后得到的第/层方向分量图为o"/) , o"/)的宽和高分别为『/2'和///2、其中,Pe{0,;r/4,;r/2,3;r/4} /e
,『为当前深度视频帧的宽,//为当前深度视频帧的高;③-4、利用当前深度视频帧的各度方向的方向分量图的 层方向分量图,提取当前深度视频帧的初步深度方向特征图,记为f^, F^=^SF。6 ,其中,5 = {-3,-2,-1,1,2,3}, )为归一化至0~2"-l区间的归一化函数,符号"ll"为绝 对值运算符号,O"c)为0度方向的方向分量图的第c层方向分量图,OS(s)为e度方 向的方向分量图的第s层方向分量图,符号"分"为Og(c)与O"s)进行跨层级作差运算符,如果c < s ,则将Of ("上采样至与Of (c)具有相同分辨率的图像上,然后将(c)的各个像素与上采样后的O^(0相对应像素分别进行作差,如果os,则将o"。上采样至与Of (s)具有相同分辨率的图像上,然后将Of ("的各个像素与上采样后的Of (c)相对应像素分别进行作差,符号"④"为0"c)与(^W进行跨层级相加运算符,如果c",则将O^W上采样至与0"c)具有相同分辨率的图像上,然后将Of(c)的各个像素与上采样后的O纟(s)相对应像素分别进行求和,如果o"则将O"c)上采样至与(s)具有相同分辨率的图像上,然后将O;(s)的各个像素与上采样后的O;(c)相对应 像素分别进行求和;③-5、采用公知的形态学膨胀算法以大小为wx&的块为基本膨胀单元对当前深度 视频帧的初步深度方向特征图进行巧次膨胀操作,得到当前深度视频帧的深度方向 特征图,记为l^;③-6、利用当前深度视频帧的深度特征图FD和深度方向特征图f^,获取当前深度 视频帧的初步深度视觉注意的分布图,记为, S'D = AT(FW +FD),记S^中坐标为(x,力 的像素的像素值为《(jc,力,其中,AT()为归一化至0 2"-l区间的归一化函数;◎-7、利用当前深度视频帧的初步深度视觉注意的分布图S'D,获取当前深度视频帧与当前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图So,记S。中坐标为O,力的像素的像素值为^(x,力,^(x,力-《(x,力'g(x,", 其中, 0.2 jc<6||y<6||x>『-6||>;>//-6<formula>formula see original document page 0</formula>为当目U深度视频帧的<formula>formula see original document page 0</formula>宽,//为当前深度视频帧的高,6为设定的第二阈值,符号"II"为"或"运算符。
5、根据权利要求4所述的一种基于视觉注意的视频感兴趣区域的提取方法,其特 征在于所述的步骤③-5中^-8, 4=8,巧-2,所述的步骤③-7中设定的第二阈值6为16。
6、根据权利要求1所述的一种基于视觉注意的视频感兴趣区域的提取方法,其特 征在于所述的步骤④中的基于深度感知的视觉注意融合方法的具体过程为 -1、通过2p(x,力卜d(;c,力+ y对当前深度视频帧进行尺度变换,其中,y为值 在
范围内的系数,^x,力表示当前深度视频帧中坐标为0c,力的像素的像素值,2pOc,jO)表示尺度变换后的当前深度视频帧中坐标为Oc,力的像素的像素值; -2、利用尺度变换后的当前深度视频帧、当前深度视频帧及当前深度视频帧与当 前纹理视频帧联合展现的三维视频图像的深度视觉注意的分布图SD 、当前纹理视频帧的运动视觉注意的分布图S^以及当前纹理视频帧的静态图像域视觉注意的分布图S,,获取三维视觉注意的分布图S ,记三维视觉注意的分布图S中坐标为(;c,力的像素的像素、、,其值为s(;c,力,+,力=乂 0(4^))Z ^A(x,力—Z C^0^(:c,力中,a:d、 ^和A分别s。、 s^以及s,的加权系数,加权系数满足条件Z《。=i,0SA21, AT()为归一化至0 2Zs-l区间的归一化函数, (jc,少)、 (jc,力和^(x,力 分别表示S。、 Sw以及S,中坐标为(x,力的像素的像素值,0^(jc,力为视觉注意的相关 值,0。6(:c,:);)二脂'"^。(;c,:v)A(;c,力),附/"()为取最小值函数,(:。6为相关系数,相关系数满足条件 Z c。6 = i, osc;A<i,相关系数CD^表示SD与s^的相关度,相关系数Cw表示SD与S,的相关度,相关系数C^表示S,与Sm的相关度,
7、根据权利要求6所述的一种基于视觉注意的视频感兴趣区域的提取方法,其特 征在于所述的步骤⑤中对三维视觉注意的分布图S进行阈值化和宏块化后处理的具体 过程为⑤-l、记三维视觉注意的分布图S中坐标为(jc,力的像素的像素值为^jc,力,定义第//一1 fT一l三阈值rs, rs-vZ2Xx,力/(『x^),其中,^为三维视觉注意的分布图s的宽,"0 ;c=0 /H为三维视觉注意的分布图S的高,i^e(0,3);新建一个初步二值掩模图像,判断 s(jc,力2 7^是否成立,如果成立,则将初步二值掩模图像中坐标为(;c,力的像素标记为 感兴趣像素,否则,将初步二值掩模图像中(x,:v)坐标的像素标记为非感兴趣像素;◎-2、将初步二值掩模图像分割成(『/Mgx(/f/;o个尺寸大小为wxA的块,且块与块之间互不重叠,记横坐标为M且纵坐标为v的块为B^,其中,we
, Ve
,根据初步二值掩模图像中的各个块确定当前纹理视频帧中的对应的各 个块中的像素为感兴趣像素还是非感兴趣像素,对于块B^,判断块B^中标记为感兴 趣像素的像素的个数是否大于设定的第四阈值7;,其中,0S7;2^x/^,如果是,则将 当前纹理视频帧中与块B^对应的块中的所有像素标记为感兴趣像素,并将块B^对应 的块作为感兴趣区域块,否则,将当前纹理视频帧中与块B^对应的块中的所有像素标记为非感兴趣像素,并将块B^对应的块作为非感兴趣区域块,得到当前纹理视频帧的初步感兴趣区域掩模图像,该初步感兴趣区域掩模图像由感兴趣区域块和非感兴趣区域 块组成; -3、将初步感兴趣区域掩模图像中与感兴趣区域块最相邻的非感兴趣区域块B^ 中的所有像素标记为第iV,级过渡感兴趣区域,更新初步感兴趣区域掩模图像;然后, 将更新后的初步感兴趣区域掩模图像中与第i^级过渡感兴趣区域最邻近的非感兴趣区域块B^中的所有像素标记为第-1级过渡感兴趣区域,递归更新初步感兴趣区域掩模图像;再重复递归上述过程,直至标记到第1级过渡感兴趣区域;最后得到当前纹理 视频帧的最终的感兴趣区域掩模图像,该最终的感兴趣区域掩模图像由感兴趣区域块、级过渡感兴趣区域和非感兴趣区域块组成; -4、记最终的感兴趣区域掩模图像中坐标为(;c,力的像素的像素值为";c,力,将最终的感兴趣区域掩模图像中非感兴趣区域块中的所有像素的像素值置为 r (;c,刃=255 ,将最终的感兴趣区域掩模图像中iVfl级过渡感兴趣区域中的所有像素的像素值置为"^力=^></",",将最终的感兴趣区域掩模图像中感兴趣区域块中的所有像素的像素值置为";^) = /^,>0,得到当前纹理视频帧的感兴趣区域,其中,e表 示过渡感兴趣区域的级数,ee[l,Ag, /(x,力表示当前纹理视频帧中坐标为(x,力的像 素的像素值。
8、根据权利要求7所述的一种基于视觉注意的视频感兴趣区域的提取方法,其特 征在于所述的步骤⑤-2中的v^-16, /^=16,设定的第四阈值7;=50。
全文摘要
本发明公开了一种基于视觉注意的视频感兴趣区域的提取方法,该方法提取的感兴趣区域融合了静态图像域视觉注意、运动视觉注意和深度视觉注意,有效抑制各视觉注意提取内在的单一性和不准确性,解决了静态图像域视觉注意中的复杂背景引起的噪声问题,解决了运动视觉注意无法提取局部运动和运动幅度小的感兴趣区域,从而提高计算精度,增强算法的稳定性,能够从纹理复杂的背景和运动环境中提取出感兴趣区域;另外,通过该方法获取的感兴趣区域除符合人眼对静态纹理视频帧的视觉感兴趣特性和人眼对运动对象感兴趣的视觉特性外,还符合在立体视觉中对深度感强或距离近的对象感兴趣的深度感知特性,符合人眼立体视觉的语义特征。
文档编号H04N5/14GK101651772SQ200910152520
公开日2010年2月17日 申请日期2009年9月11日 优先权日2009年9月11日
发明者云 张, 蒋刚毅, 梅 郁 申请人:宁波大学