一种基于mpeg－4的视频对象快速运动估值方法

文档序号：7593157阅读：151来源：国知局

专利名称：一种基于mpeg－4的视频对象快速运动估值方法
技术领域：
本发明属于多媒体通信领域中的数字视频压缩技术，涉及MPEG-4标准，具体的说涉及MPEG-4标准中任意形状视频对象的运动估值方法。
背景技术：
传统的视频压缩标准MPEG-1、MPEG-2、H.261、H.263，采用的均是带有运动补偿的预测编码与DCT变换编码相结合的混合矩形帧压缩编码方法，没有对视频场景进行分割或分析，属于低级压缩编码技术。随着多媒体应用的快速增长和基于内容的交互需求，这些基于帧压缩编码技术的视频标准无法满足要求，为此，MPEG专家组制订了新的基于内容的视频压缩国际标准——MPEG-4，通过引入视频对象(VO)、视频对象平面(VOP)的概念，将输入视频序列的每一帧分割成相应形状的图形区域，使每一帧视频对象都代表语义上有意义的对象或感兴趣的视频内容，能实现许多基于内容的多媒体交互功能，如视频会议、电子商务、远程监控及医疗和教学等。
MPEG-4标准支持任意形状视频对象序列的压缩编码，一系列的VOP限制在一个VO里，使得运动估值更准确，运动补偿也更有效。如图1所示，VO本身在VOP界框(能包含VO的最小矩形，边、长均为16的整数倍)里有效的部分只是在VOP形状之内，而运动往往会使形状本身发生变化，在当前VOP的某个地方有VO的存在(Alpha平面中像素值为255，白色)，在其参考VOP的相同点可能就没有VO存在(Alpha平面中像素值为0，黑色)，因此，在进行运动估值之前，参考VOP内不属于VO的像素要进行填充，基本思想是以图像的边界值代替其相邻单元而以平均值代替远离目标的单元，接着对当前VOP内属于VO的边界宏块和内部宏块按照从上到下、从左到右的顺序进行运动估值，采用全搜索块匹配方法(FS)，即对参考VOP某一窗口中的所有宏块进行绝对帧差和(SAD)运算找到使SAD值最小的参考VOP窗口中宏块的对应位置，从而得到当前宏块的运动矢量。研究发现，全搜索块匹配方法将耗费MPEG-4视频编码器70％左右的计算资源，如果采用通常的快速运动估值方法，如三步搜索法(TSS)、二维对数搜索法(2DLOG)、正交搜索法(OSA)、新三步搜索法(NTSS)、环状搜索法(DS)等，虽然比起全搜索块匹配方法大大减少了运算量，但往往只能找到搜索区域内的局部最优值，而不是全局最优值，使估计出的运动矢量信息不够正确，影响解码后的重建图像质量。香港理工大学的Ko-Cheung Hui等人在Signal ProcessingImageCommunication 18(2003)上发表的《Fast motion estimation of arbitrarily shaped videoobjects in MPEG-4》一文提出先对所有边界宏块采用全搜索块匹配方法(FS)得到每个边界宏块的运动矢量，然后再利用相邻宏块的运动信息对内部宏块进行环状搜索法(DS)得到内部宏块的运动矢量，该方法利用边界宏块的运动信息对内部宏块进行环状搜索法(DS)运动估值，虽然与全搜索块匹配方法(FS)相比减少了运算量，与其它快速搜索方法相比获得了更好的重建图像质量，但是该方法的运算量仍然偏大。通过对国内外专利和文献的查询，未发现与本发明相类似的方法。

发明内容
本发明提出了一种基于MPEG-4的视频对象快速运动估值方法，能够减少MPEG-4标准中任意形状视频对象运动估值的计算量，提高搜索效率，获得与全搜索块匹配方法(FS)接近的峰值信噪比(PSNR)和良好的主观视觉质量。
本发明提出的基于MPEG-4的视频对象快速运动估值方法包括采用渐进式块匹配准则对视频对象平面中各边界宏块进行运动估值；利用相邻边界宏块或内部宏块的运动矢量对所有内部宏块进行运动估值。
优选地，在对边界宏块进行运动估值之前，还包括按MPEG-4标准的规定对视频对象平面进行填充；寻找上述视频对象平面中的所有边界宏块。
优选地，采用渐进式块匹配准则对边界宏块的运动估值进一步包括把每一个16*16宏块分割成16个4*4的小块，再把小块分成若干个子块，每个子块对应一个像素标注值；通过各子块的失真值dg根据Dg←dg+Dg-1，其中设D0＝0，计算出Dg值；判断是否满足(Dg/n)≥(DMIN/Nα)，其中DMIN为当前宏块与参考窗口中搜索中心位置处宏块进行绝对帧差和运算得到的SAD值，n为参考位置宏块中已参与基本运算的VO像素数目，n＝0时判断为否，Nα为边界宏块中VO的像素数目；如果满足，说明该参考位置不是所搜索过位置中的最优位置，转入下一参考位置；否则g←g+1，如此反复，直到搜索完搜索窗中所有需要参考的位置，最终找到使DMIN最小的那一位置点，从而获得边界宏块的运动矢量，完成运动估值。
优选地，在边界宏块的运动估值中可采用按包含视频对象像素的小块中标号由小到大的顺序进行渐进式块匹配。
优选地，可以在搜索窗口中每隔一个参考位置螺旋式地从里到外对搜索窗中每一宏块执行渐进式块匹配准则，得到搜索窗口中参考位置一半点数中的最优匹配位置，以加快搜索速度。
优选地，对所有内部宏块进行运动估值可以按照内部宏块从上到下、从左到右的顺序进行。
本发明所述的方法与全搜索块匹配方法相比，可减少MPEG-4标准中任意形状视频对象运动估值方法的计算量，与其它快速运动估值方法相比，可提高搜索效率，防止运动估值陷入局部最优值情况的发生，获得与全搜索块匹配方法接近的峰值信噪比(PSNR)和良好的主观重建视频质量。表1列出了本方法(内部宏块采用自适应一维直线搜索法进行运动估值)与全搜索块匹配方法(FS)、环状搜索法(DS)的比较结果，可以看出与全搜索块匹配方法(FS)相比，本方法可获得与全搜索块匹配方法(FS)接近的峰值信噪比(PSNR)，并有效减少了运算量，与环状搜索法(DS)相比，本方法虽然运算量增加了一些，但是峰值信噪比(PSNR)获得很大的提高，也就意味着重建视频的质量获得了很大的改善。
表1、不同序列采用不同方法的性能比较

图1是视频对象平面和二值alpha平面示意图；图2是本发明的运动估值实现流程图；图3是宏块分割示意图；图4是本发明的渐进式块匹配准则实现流程图。
具体实施例方式
下面结合附图对本方法作进一步的详细描述第一步采用MPEG-4标准规定的填充方法对参考VOP进行填充，每一帧中图像形状是任意的，而运动估值是在一定长宽的搜索窗内进行的，如果搜索窗中存在没有填充的区域，就会对整个运动估值的精度产生影响。
第二步寻找当前VOP中的所有边界宏块，即包含VO边界像素的宏块，可通过对描述视频对象的二值形状文件经过一定计算获得，描述视频对象的二值形状文件的提取方法不属于本专利内容，可采用任意视频分割方法进行提取。
从图1所示，在图1(a)中每个VOP都是由边界宏块和内部宏块构成的，边界宏块中有的像素属于VO，有的不属于VO，内部宏块中所有像素都属于VO。人眼视觉模型理论指出，人眼对VO边界宏块的运动估值精确与否是相当敏感的，且内部宏块与边界宏块的运动通常是一致的，如图1中内部宏块e和边界宏块a、b、d、f的运动是极其相关的，所以先对所有边界宏块运动矢量进行准确定位是很有必要的，为此引入了寻找所有边界宏块模块，如图1(b)所示，通过定义一个N*N大小的值全为255的模板Tem与VOP的所有二值alpha平面宏块BAn(大小为N*N，N一般为16)进行对应位置像素的异或运算，见式(1)，若运算结果Tn不为0或N2，则该alpha宏块对应的VOP宏块就是边界宏块，否则为外部宏块(Tn＝N2)或内部宏块(Tn＝0)。
Tn=Σi=0N-1Σj=0N-1BAn(i,j)&CircleTimes;Tem(i,j)----(1)]]>第三步对所有边界宏块进行运动估值，采用渐进式块匹配准则快速找到其运动矢量，准则的思想是在尽可能多地保留搜索点数的情况下减少每次运动估值基本运算的次数。
衡量最佳匹配的准则有很多种，如均方误差(MSE)、归一化互相关函数(NCCF)、绝对帧差和(SAD)等。研究表明，各种准则性能差别不显著，而SAD运算量最小，所以用的最多。SAD定义为d=SAD(x,y)(u,v)=Σ--i=0N-1Σj=0N-1|Fi(x+i,y+j)-Fi-1(x+i+u,y+j+v)|×(alphai&NotEqual;0)----(2)]]>式(2)中，Fi(x+i，y+j)为第i个VOP中位于(x，y)位置的块中(i，j)处的像素值，u、v分别为水平和垂直方向的偏移量，N为宏块的边长。由于是对任意形状视频对象进行运动估值，所以只有属于VO的像素(alpha≠0)才能参与式(2)运算。
在基于SAD块运动估值方法中，假设搜索窗大小为±w，则参考位置数为(2w+1)2，那么找到最佳匹配块所需的最大计算量为(2w+1)2(3N2-1)。对于帧频为k、大小为I*J的视频序列而言，每秒需进行k(I/N)(J/N)(2w+1)2(3N2-1)≈12kIJw2次运算，例如w＝8，k＝25，I＝352，J＝288时，每秒需(1.9×109)次基本运算。
边界宏块的运动估值方法是以尽可能多地保留搜索窗中参与匹配运算的搜索位置数目来找到边界宏块全局最优值为前提的，因此需要一种更为快速高效的匹配准则来减小每一次块匹配运算的基本运算次数，也就是在运算过程中尽可能早地确定该块是否是已检测参考位置中SAD值最小的块。
渐进式块匹配准则把每一个16*16宏块分割成16个4*4的小块，如图3(a)所示，各小块对应位置如图中标号所示。同时，把小块1分成若干个子块，如图3(b)所示，图中标注相同值的像素点(不需要一定相邻)构成小块1的一个子块。若小块1被分割成L个子块，则可得到d1，...，dL个失真值，下标1，....，L对应各子块中像素的标注值。
渐进式块匹配准则的实现过程如图4所示，图中G是一个宏块所分的级数，小块1被分成5个子块，则G＝5+16-1＝20。运动估值开始时，设g＝1，D0＝0，DMIN为当前宏块与参考窗口中搜索中心位置处宏块进行绝对帧差和运算得到的SAD值，也就是说，在搜索中心位置处要进行一次完整的宏块匹配运算，即宏块中所有的像素都参与，然后在下一参考点处利用式(2)计算出dg，则Dg←dg+Dg-1，若(Dg/n)≥(DMIN/Nα)(n为参考位置宏块中已参与基本运算的VO像素数目，n＝0时判断为否，Nα为边界宏块中VO的像素数目)，说明该参考位置不是所搜索过位置中的最优位置，转入下一参考位置；否则g←g+1，如此反复，直到搜索完搜索窗中所有需要参考的位置，最终找到使DMIN最小的那一位置点。
在边界宏块分割形成的16个小块中，有的小块包含VO中的像素，有的不包含，把包含VO像素的小块中标号最小的小块按照渐进式块匹配准则中的小块1来运算，依次类推，完成边界宏块的运动估值。
搜索窗口中每隔一个参考位置螺旋式地从里到外对搜索窗中每一宏块执行渐进式块匹配准则，这样就可进一步加快搜索速度，得到搜索窗口中参考位置一半点数中的最优匹配位置。实验发现，采用这种方式得到的重建图像质量与搜索所有点得到的重建图像质量的PSNR差别非常小，平均不超过0.1dB。
第四步对所有内部宏块(位于VO内部的宏块)按照从上到下、从左到右的顺序进行运动估值，由于内部宏块的运动与边界宏块的运动是高度相关的，内部宏块就可以利用其相邻边界宏块或内部宏块的运动矢量做参考，找到一个比较接近于全局最优值的初始搜索中心位置，再采用自适应一维直线搜索法或其它运动估值方法进行运动估值。自适应一维直线搜索方法利用与当前内部宏块相邻的八个宏块中已完成运动估值的宏块运动矢量为参考，以这些运动矢量在X方向和Y方向上位置居中的值作为该内部宏块的初始运动矢量(xi，yi)，得到初始运动矢量(xi，yi)后，可以得出该内部宏块在参考VOP中的初始搜索中心位置，即该内部宏块在当前VOP中的位置(x1，y1)与初始运动矢量(xi，yi)的和(x1+xi，y1+yi)，如果该运动矢量X方向的值的绝对值大于Y方向的值的绝对值，则认为该宏块有在X方向上运动的趋势，那么就以该初始搜索中心位置为中心在水平方向上左右各取两个像素点(即水平直线)采用绝对帧差和准则找到水平五个点中让SAD值最小的点，得到运动矢量，如果初始运动矢量的Y值的绝对值大于X值的绝对值，则认为该宏块有在Y方向上运动的趋势，那么就以该初始搜索中心位置为中心在垂直方向上各取两个像素点(即垂直直线)采用绝对帧差和准则找到垂直五个点中让SAD值最小的点得到该内部宏块的运动矢量。
图2为本方法的运动估值实现流程图，先用MPEG-4标准规定的方法对参考VOP进行填充，然后并不按照从上到下、从左到右的顺序对当前VOP宏块进行运动估值，而是先对当前VOP中更能反映VO运动信息所有边界宏块在尽可能多地保留搜索窗中参与匹配运算的搜索点数、防止其陷入局部最优值的情况下，按照渐进式块匹配准则来减少实际参与运算的像素点数目，即减少块匹配运算的基本运算次数，从而快速判断参考宏块是否为最佳匹配宏块，得到边界宏块的运动矢量。由于内部宏块的运动与边界宏块的运动是高度相关的，在得到准确的边界宏块运动信息后，内部宏块就可以利用其相邻边界宏块或内部宏块的运动矢量做参考，找到一个接近于全局最优值的初始搜索中心位置，采用自适应一维直线搜索法或其它运动估值方法进行运动估值，算出内部宏块运动矢量。
人眼视觉模型理论指出，人眼对VO边界宏块的运动估值精确与否是相当敏感的，且内部宏块与边界宏块的运动通常是一致的，因此先对所有边界宏块做精确的运动估值是相当重要的，利用图3、图4中所示的方法对所有宏块采用渐进式块匹配准则进行运动估值，获得所有边界宏块的运动矢量。完成边界宏块的运动估值后，利用自适应一维直线搜索方法或其它运动估值方法从上到下、从左到右对内部宏块进行运动估值。例如，一个内部宏块的八个相邻宏块中有三个宏块已完成运动估值，运动矢量分别为(1，5)、(3，-2)、(-1，7)，则X方向上的排序为{-1，1，3}，Y方向上的排序为{-2，5，7}，那么就以(1，5)为该内部宏块的初始运动矢量，如果该内部宏块的位置为(8，24)，则在参考VOP中的初始搜索中心位置为(9，29)，可以看出初始运动矢量Y方向的值的绝对值5大于X方向上的值的绝对值1，所以在垂直方向上以初始搜索中心位置(9，29)为中心上下各取两个像素点采用绝对帧差和准则找到垂直五个点中让SAD最小的点，得到该内部宏块的运动矢量。
权利要求
1.一种基于MPEG-4的视频对象快速运动估值方法，其特征在于，所述方法包括以下步骤采用渐进式块匹配准则对视频对象平面中各边界宏块进行运动估值；利用相邻边界宏块或内部宏块的运动矢量对所有内部宏块进行运动估值。
2.如权利要求1所述的方法，其特征在于，在对边界宏块进行运动估值之前，还包括以下步骤按MPEG-4标准的规定对视频对象平面进行填充；寻找上述视频对象平面中的所有边界宏块。
3.如权利要求1或2所述的方法，其特征在于，所述采用渐进式块匹配准则对边界宏块的运动估值进一步包括把每一个16*16宏块分割成16个4*4的小块，再把小块分成若干个子块，每个子块对应一个像素标注值；通过各子块的失真值dg根据Dg←dg+Dg-1，其中设D0＝0，计算出Dg值；判断是否满足(Dg/n)≥(DMIN/Nα)，其中DMIN为当前宏块与参考窗口中搜索中心位置处宏块进行绝对帧差和运算得到的SAD值，n为参考位置宏块中已参与基本运算的VO像素数目，n＝0时判断为否，Nα为边界宏块中VO的像素数目；如果满足，说明该参考位置不是所搜索过位置中的最优位置，转入下一参考位置；否则g←g+1，如此反复，直到搜索完搜索窗中所有需要参考的位置，最终找到使DMIN最小的那一位置点，从而获得边界宏块的运动矢量，完成运动估值。
4.如权利要求3所述的方法，其特征在于，在边界宏块的运动估值中可采用按包含视频对象像素的小块中标号由小到大的顺序进行渐进式块匹配。
5.如权利要求3所述的方法，其特征在于，可以在搜索窗口中每隔一个参考位置螺旋式地从里到外对搜索窗中每一宏块执行渐进式块匹配准则，得到搜索窗口中参考位置一半点数中的最优匹配位置，以加快搜索速度。
6.如权利要求2所述的方法，其特征在于，所述寻找上述视频对象平面中的所有边界宏块可以通过对描述视频对象的二值形状文件的计算获得边界宏块。
7.如权利要求1或2所述的方法，其特征在于，对所有内部宏块进行运动估值利用其相邻边界宏块或内部宏块的运动矢量做参考，找到一个比较接近于全局最优值的初始搜索中心位置，再采用自适应一维直线搜索法进行运动估值。
8.如权利要求7所述的方法，其特征在于，对所有内部宏块进行运动估值可以按照内部宏块从上到下、从左到右的顺序进行。
全文摘要
本发明提出一种视频对象的快速运动估值方法，该方法先对VOP的所有边界宏块按照渐进式块匹配准则进行运动估值，快速得到其运动矢量；由于内部宏块的运动与边界宏块的运动是高度相关的，内部宏块就可以利用其相邻边界宏块或内部宏块的运动矢量做参考，找到一个比较接近于全局最优值的初始搜索中心位置，再采用自适应一维直线搜索法或其它运动估值方法进行运动估值。本发明所述的方法与全搜索块匹配方法相比，可减少MPEG－4标准中任意形状视频对象运动估值方法的计算量，与其它快速运动估值方法相比，可提高搜索效率，防止运动估值陷入局部最优值情况的发生，获得与全搜索块匹配方法接近的峰值信噪比(PSNR)和良好的主观重建视频质量。
文档编号H04N7/50GK1713733SQ200410048219
公开日2005年12月28日申请日期2004年6月15日优先权日2004年6月15日
发明者鲁照华, 刘继兴, 刘安申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁照华;刘继兴;刘安
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种在基站侧解析点对点协商过程的方法
上一篇：免设定网络ip组态的联机方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。