一种三维视频目标跟踪方法
【技术领域】
[0001] 本发明涉及一种视频信号的处理方法,尤其是涉及一种三维视频目标跟踪方法。
【背景技术】
[0002] 在人类视觉接收与信息处理中,由于大脑资源有限以及外界环境信息重要性区 另IJ,因此在处理过程中人脑对外界环境信息并不是一视同仁的,而是表现出选择特征。人们 在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域,而是对某些显著区域 关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来、如何对目标区域进 行跟踪是计算机视觉领域的一个重要的研宄内容。
[0003] 在视频目标跟踪方法中,通常需要提取反映视频运动的视频显著语义信息。目前, 通常采用视频分割、光流法、运动估计等方法来提取视频显著区域,然而这些方法并不能很 好地应用于三维视频。针对三维视频目标跟踪,一方面,需要提取能够反映三维语义的视觉 显著信息;另一方面,因计算能力局限,不能在跟踪过程中进行复杂的特征匹配操作而要保 持较高的跟踪精度。因此,如何提取符合三维视频显著语义特征且保持较高跟踪精度,是三 维视频目标跟踪需要研宄解决的问题。
【发明内容】
[0004] 本发明所要解决的技术问题是提供一种符合三维视频显著语义特征,且具有较高 跟踪精度的三维视频目标跟踪方法。
[0005] 本发明解决上述技术问题所采用的技术方案为:一种三维视频目标跟踪方法,其 特征在于包括以下步骤:
[0006] ①将待处理的原始三维视频序列定义为当前视频序列,假定当前视频序列中包含 的彩色图像的总帧数和包含的深度图像的总帧数均为T,其中,T>1 ;
[0007] ②将当前视频序列中的前P帧彩色图像及前P帧彩色图像各自对应的深度图像按 序构成训练图像集,其中,1 < P〈T ;
[0008] ③获取训练图像集的所有聚类中心、所有聚类半径以及所有聚类各自的置信值, 将训练图像集的第m个聚类中心、第m个聚类半径以及第m个聚类的置信值对应记为gm、rm、 巧,其中,m的初始值为1,1彡m彡K,K表示训练图像集的聚类的总个数,K彡1 ;
[0009] ④手工标记当前视频序列中的第1帧彩色图像的目标区域,该目标区域包含场景 中最主要的运动对象;然后将当前视频序列中当前待处理的第t帧彩色图像定义为当前彩 色图像,记为It;并将当前视频序列中与I 3寸应的深度图像定义为当前深度图像,记为D t;其中,t的初始值为2, 2彡t彡T ;
[0010] ⑤采用超像素分割技术将It分割成M个互不重叠的区域;然后根据训练图像集的 最优聚类中心、最优聚类半径以及最优聚类的置信值,计算It中的每个区域的显著值;再将 It中的每个区域的显著值作为该区域中的所有像素点的显著值,从而得到I ,的显著图,记 为St;其中,M彡1 ;
[0011] ⑥根据St获取11的目标区域,记为N丨,
其中,Ni表示 It中与当前视频序列中的第t-ι帧彩色图像I t_i的目标区域的尺寸大小相同且形状相同的 任一个区域,Ω:、.表示It中与当前视频序列中的第t-ι帧彩色图像I t_i的目标区域的尺寸 大小相同且形状相同的所有区域的集合,St (X,y)表示St中坐标位置为(X,y)的像素点的像 素值,I < X < W,I < y < H,W表示当前视频序列中的彩色图像和深度图像的宽,H表示当前 视频序列中的彩色图像和深度图像的高,符号" I I "为取绝对值符号:
表示取使得
的值最大的一个区域Ni;
[0012] ⑦如果满足t彡P,则直接执行步骤⑧;如果满足t>P,则将IjP D t加入到训练图 像集中,并删除训练图像集中的第1帧彩色图像和第1帧深度图像,得到更新后的训练图像 集,然后采用与步骤③相同的操作,获取更新后的训练图像集的所有聚类中心、所有聚类半 径以及所有聚类各自的置信值,再执行步骤⑧;
[0013] ⑧令t = t+Ι ;然后将当前视频序列中的第t帧彩色图像作为当前彩色图像,记为 It;并将当前视频序列中与I 3寸应的深度图像定义为当前深度图像,记为Dt;再返回步骤⑤ 继续执行,直至当前视频序列中的所有彩色图像和深度图像处理完毕,得到当前视频序列 中的每帧彩色图像的目标区域;其中,t = t+Ι中的"="为赋值符号。
[0014] 所述的步骤③的具体过程为:
[0015] ③-1、手工标记训练图像集中的第1帧彩色图像I1的目标区域,记为包含 场景中最主要的运动对象;
[0016] ③-2、将训练图像集中当前待处理的第t'帧彩色图像定义为当前彩色图像,记为 It,;并将训练图像集中与11,对应的深度图像定义为当前深度图像,记为D t,;其中,在此t' 的初始值为2,2彡t'彡P ;
[0017] ③-3、在It,中确定一个圆形搜索区域,圆形搜索区域的中心像素点的坐标位置与 的中心像素点的坐标位置相同,且圆形搜索区域的半径为1〇个像素点;然后在圆形搜 索区域上搜索与Μ。匹配的最佳匹配区域,将与K^1匹配的最佳匹配区域作为it,的目标区 域,记为<,,
其中,R^1表示训练图像集中的第 t' -1帧彩色图像ItM的目标区域,表示在圆形搜索区域上与匹配的任一个匹配区 ±或,IRi,的中心像素点为圆形搜索区域上的任一个像素点,且Mi,的尺寸大小与的尺寸 大小相同,R,.的形状与的形状相同,表示在圆形搜索区域上与R).4匹配的所有匹 配区域的集合,1彡X彡W,1彡y彡Η,1彡X'彡W,1彡y'彡H,W表示当前视频序列中的 彩色图像和深度图像的宽,H表示当前视频序列中的彩色图像和深度图像的高,符号"| |" 为取绝对值符号,ItM(x,y)表示训练图像集中的第t'-l帧彩色图像ItM中坐标位置为 (X,y)的像素点的像素值,It,(X',y')表示It,中坐标位置为(X',y')的像素点的像素值,
表示取使得
的值最小的一个 匹配区域Ki,;
[0018] ③-4、令t' =t'+l ;然后将训练图像集中的第t'帧彩色图像作为当前彩色图像, 记为It,;并将训练图像集中与I t,对应的深度图像作为当前深度图像,记为D t,;再返回步骤 ③-3继续执行,直至获得训练图像集中的每帧彩色图像的目标区域;其中,t' = t'+1中的 "="为赋值符号;
[0019] ③-5、采用超像素分割技术将训练图像集中的每帧彩色图像分割成M个互不重 叠的区域,将It,中的第h个区域记为SP t,,h;然后计算训练图像集中的每帧彩色图像中的 每个区域的特征矢量,将SPt,,h的特征矢量记为f t,,h;其中,M多1,在此t'的初始值为1, 1彡t'彡P,h的初始值为1,1彡h彡M ;
[0020] ③-6、将由训练图像集中的所有彩色图像中的区域的特征矢量构成的集合定义为 特征矢量集合;然后采用Mean-shift聚类方法对特征矢量集合进行聚类操作,得到特征矢 量集合的K个聚类,同时得到特征矢量集合的每个聚类中心和每个聚类半径,将特征矢量 集合的第m个聚类作为训练图像集的第m个聚类,将特征矢量集合的第m个聚类中心作为 训练图像集的第m个聚类中心gm,将特征矢量集合的第m个聚类半径作为训练图像集的第 m个聚类半径rm;接着将训练图像集中的所有彩色图像中属于同一聚类的区域归为一类,将 训练图像集中的所有彩色图像中属于第m个聚类的区域构成的集合记为Zm ;其中,K表示特 征矢量集合包含的聚类的总个数,K彡1,m的初始值为1,1彡m彡K ;
[0021] ③-7、计算训练图像集的每个聚类的置信值,训练图像集的第m个聚类的置信值 为
,其中,如果满足〇, _y) e肢:,且(X, ) e Zm ,则令f(X,_y) = 1;如 果满足(iv) g < 且(x,_y) e ,则令= -1。
[0022] 所述的步骤③_5中SPt,,h的特征矢量f t,,h的获取过程为:
[0023] al、对SPt,,h中的每个像素点的R分量的颜色值、G分量的颜色值和B分量的 颜色值分别进行量化,对应得到SPt,,h中的每个像素点的量化后的R分量的颜色值、量 化后的G分量的颜色值和量化后的B分量的颜色值,将SPt,,h中坐标位置为(X t,,h,yt,,h) 的像素点的量化后的R分量的颜色值、量化后的G分量的颜色值和量化后的B分量的 颜色值对应记为瓦λ(χλλ,Λ,.,,)、心(~,~)和瓦,假设SP t,,h中坐标位置 为(xt,,h,yt,,J的像素点在11,中的坐标位置为(X,y),则L (?,~)=lA(x,.v)八6」, G1,"(Xt,,,,yt,j,) = (x, v)/16J , Bt,J1 (xt,h, V1,,,) -(x,y)/16J ;