在视频中识别及跟踪对象的方法

文档序号:8266344阅读:2586来源:国知局
在视频中识别及跟踪对象的方法
【技术领域】
[0001]本发明涉及视频图像处理领域,在视频中识别及跟踪对象的方法。
【背景技术】
[0002]视频对象跟踪具有精度高、隐蔽性好和直观性强的优点。这些优点使得视频对象跟踪在靶场光电测量、天文观测设备、武器控制系统、激光通信系统、交通监控、场景分析、人群分析、行人计数、步态识别、动作识别等领域得到了广泛的应用。根据被跟踪对象信息使用情况的不同,可将视觉跟踪算法分为基于对比度分析的对象跟踪、基于匹配的对象跟踪和基于运动检测的对象跟踪。基于对比度分析的跟踪算法主要利用对象和背景的对比度差异,实现对象的检测和跟踪。基于匹配的跟踪主要通过前后帧之间的特征匹配实现对象的定位。基于运动检测的跟踪主要根据对象运动和背景运动之间的差异实现对象的检测和跟踪。
[0003]针对基于匹配的视频跟踪算法,当前视频内对象识别或视频内对象跟踪的技术为:先把接收到的视频进行解码,然后对视频中的每一帧图像的像素进行分析和处理,来识别视频中的对象或进一步跟踪视频中的对象。而这样的技术主要涉及视频解码,并对每一帧图像进行图像处理和图像分析等算法,要耗费大量的计算能力,一般很难达到高的帧率和实时检测,特别是随着视频像素的增大,更需要高性能的CPU或GPU去处理。

【发明内容】

[0004]本发明为了克服上述现有技术存在的缺陷,提供一种在视频中识别对象的方法以及跟踪对象的方法,其能够减少计算量并提高视频中物体跟踪实时性。
[0005]本发明提供一种在视频中识别对象的方法,包括:对第一帧的视频码流解码,获取所述第一帧的图像及其块结构,所述第一帧是所述视频码流中的任意帧,所述块结构由根据图像的纹理特征而划分的的多个块组成;识别所述第一帧的图像中的对象;将所述对象与所述第一帧的块结构匹配,将对应于所述对象的块结构作为与所述对象关联的对象结构;对后续帧的视频码流仅进行熵解码,获取所述后续帧的块结构,所述后续帧为所述第一帧后的连续多帧;以及判断所述后续帧的块结构中是否有与所述对象结构相同的第一块结构,若有,则将所述第一块结构代表所述对象。
[0006]优选地,所述块结构为最大编码单元的块结构或者宏块的块结构。
[0007]优选地,所述块结构根据图像中各块的熵值和阈值进行划分。
[0008]优选地,视频各帧的图像及其块结构经熵编码形成所述视频码流,其中,对所述视频码流解码包括:利用与所述熵编码相对应的熵解码对所述视频码流解码。
[0009]优选地,所述第一帧为关键帧,其中,识别所述第一帧的图像中的对象包括:识别所述第一帧的图像中的对象轮廓。
[0010]优选地,将所述对象与所述第一帧的块结构匹配包括:将所述对象轮廓与所述第一帧的块结构匹配。
[0011]优选地,所述对象结构的边缘包含于所述对象轮廓,所述对象结构为所述对象轮廓内最大的块结构。
[0012]优选地,所述对象结构的边缘包含所述对象轮廓,所述对象结构为覆盖所述对象的最小的块结构。
[0013]优选地,所述对象结构的边缘与所述对象轮廓相交,所述对象结构中与所述对象轮廓相交的块覆盖所述对象的部分的大小至少大于等于所述块的大小的三分之一。
[0014]根据本发明的又一方面,还提供一种在视频中跟踪对象的方法,包括:上述的方法识别视频中的对象;根据识别的对象,跟踪所述对象的位置和运动。
[0015]与现有技术相比,本发明设计了利用视频码流中的部分信息实现对视频帧中的对象进行识别和跟踪,其仅需对关键帧或任意选取的帧进行解码、图像处理和分析,而并不需要对整个视频每一帧进行解码、图像处理和图像分析,大大减少了视频中对象的识别和跟踪图像处理和分析的计算了,并提高了视频中对象识别和跟踪的实时性。采用该发明的方法对视频中的对象进行跟踪能降低对CPU或GPU的负荷,提高视频中对象跟踪的速度,降低能耗。
【附图说明】
[0016]通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
[0017]图1示出了根据本发明实施例的在视频中识别对象的方法的流程图。
[0018]图2示出了根据本发明实施例的块结构的示意图。
[0019]图3示出了根据本发明第一实施例的对象和块结构匹配的示意图。
[0020]图4示出了根据本发明第二实施例的对象和块结构匹配的示意图。
[0021]图5示出了根据本发明第三实施例的对象和块结构匹配的示意图。
[0022]图6示出了根据本发明第三实施例的对象识别的示意图。
【具体实施方式】
[0023]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
[0024]图1示出了根据本发明实施例的在视频中识别对象的方法的流程图。并具体示出了如下步骤:
[0025]步骤S101,对第一帧的视频码流解码,获取第一帧的图像及其块结构。其中,第一帧是视频码流中的任意帧。优选地,第一帧为视频码流的关键帧。视频码流优选地为HEVC格式的视频码流,但并不以此为限。块结构由根据图像的纹理特征而划分的不同大小的多个块组成。一个具体实施例的块结构如图2所示,块结构由多个不同大小的块(也就是编码单元Coding Unit)组成。一般在细节特征或纹理特征比较丰富的地方划分的块小,平坦或背景的地方划分的块大,从而块结构间接表示了某个物体和对象的形态结构,可以作为物体和对象的特征结构来使用进行特征匹配。
[0026]在一个优选例中,块结构为最大编码单元的块结构。视频各帧的图像及其块结构经熵编码形成HEVC视频码流。例如,可以通过如下方式将图像进行划分:
[0027]首先将图像划分为多个最大编码单元(LCU),最大编码单元可以是64*64像素的编码单元。移除每个最大编码单元的背景噪声。对于每个最大编码单元,计算该最大编码单元中所有可能划分出的编码单元(CU)的熵值。例如,对于64*64像素的最大编码单元,其可以划分为I个64*64像素的编码单元(CU64*64)、4个32*32像素的编码单元(CU32*32)、16个16*16像素的编码单元(⑶16*16)、64个8*8像素的编码单元(⑶8*8)。在本实施例中,需要计算85个编码单元的商值。
[0028]图像块结构的划分规则根据所计算的编码单元的熵值、和阈值决定所述编码单元是否应该被继续划分。如果其中一个编码单元的熵值小于第一阈值,则该编码单元不需要再划分;如果该编码单元的熵值大于第二阈值,则该编码单元需要继续被划分。或者,如果该编码单元的熵值接近于所有可能划分出的编码单元的熵值的平均值,则该编码单元将不会再划分。在一个优选实施例中,如果一个编码单元的熵值小于1.2 (第一阈值),则认为该编码单元的熵值很小且不需要再划分,如果一个编码单元的熵值大于3.5 (第二阈值),则认为该编码单元的熵值很大且需要继续被划分。或者,如果一个编码单元的熵值在所有可能划分出的编码单元的熵值的平均值的±0.15的范围之内,则该编码单元的熵值接近于所述所有可能划分出的编码单元的熵值的平均值并且将不会再划分。
[0029]本领域技术人员还可以使用其他划分算法,将图像划分为多个块,在此不予赘述。
[0030]在一个变化例中,块结构还可以是宏块的块结构,优选地,每个宏块的大小为16*16像素,其可以由16*16像素的块、8*8像素的块、4*4像素的块、或他们的组合来组成。与最大编码单元的块结构的划分类似,宏块的块结构也根据图像的纹理特征来进行划分,从而块结构间接表示了某个物体和对象的形态结构,可以作为物体和对象的特征结构来使用进行特征匹配。
[0031]步
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1