对象跟踪方法和装置制造方法
【专利摘要】提供了一种利用深度图像或视差图像跟踪对象的方法和装置。该方法包括:对于新检测到的第一对象,利用包括第一对象的深度图像序列,提取第一对象的短时特征和长时特征,并存储为第一对象的短时特征模板和长时特征模板;在对第一对象的跟踪过程中,对于每帧待分析图像,基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配进行跟踪;如果基于第一对象的短时特征模板的匹配失败,将第一对象标识为失踪的第一对象;对于后续新检测到的第二对象,提取第二对象的短时特征和长时特征;以及基于第二对象的短时特征和长时特征和被标识为失踪的第一对象的短时特征模板和长时特征模板之间的匹配,判断第二对象是否为失踪的第一对象。
【专利说明】对象跟踪方法和装置
【技术领域】
[0001]本发明总体上涉及对象跟踪方法与装置,更具体地涉及利用深度图像跟踪一个或多个对象的方法和装置。
【背景技术】
[0002]对象跟踪技术例如人跟踪技术是人的定位服务、视频监控、机器人导航、智能驾驶辅助系统等应用所需的关键技术。目前,其仍是一个挑战性的技术课题,主要是因为实际应用中人的姿态和外观变化大、遮挡问题经常发生。真实场景中,遮挡问题时有发生,特别是当人有运动时,或者其他人或者物体有运动时。在室内场景中,由于背景复杂,人员众多,遮挡发生的频率更高,其经常导致跟踪的失效。
[0003]专利文献US88073197B2提出了一种在视频序列中进行对象跟踪的方法。该方法为了标识遮挡发生时的不同对象,采用了一个表观模型。当遮挡发生时,各个对象有其自己的表观模型。该模型中使用了深度信息来分隔同一个区域中的不同对象。该专利提出的方法主要采用了灰度形状模型和对象的深度顺序信息来粗略的分隔不同的对象。该方法在有小范围遮挡的情况下,可以比较有效地进行工作,当遮挡比较严重性,其会失效。
[0004]专利文献US6445810B2提出了一种人的检测和跟踪的方法和装置。其使用了 3D数据和人的表观特征(颜色、脸特征、人的高度等),它认为3D数据对人的分割和跟踪非常有用,基于立体视觉的3D数据用于跟踪可有效提高跟踪的精度。该专利提出的方法使用了基于RGB的人的表观模型,使用了基于深度的人的分割,将这二者一起用于了人的跟踪。该技术目标是更精确的跟踪,不过并没有考虑遮挡的问题。
[0005]Michael Harville 在 2OO3 年发表的题为 “stereo person tracking withadaptive plan-view templates of height and occupancy statistics,,的文章中,公开了一种在某个平面视图上进行特征统计,以此统计特征为基础进行人的检测和跟踪的方法。其跟踪方法使用水平面视图上的人的表面点的分布的统计特征和卡尔曼滤波。该非专利文献提出的基于水平面视图的方法(3维到2维的坐标变换、直方图统计,即在平面视图上计算特征)可以一定程度上减轻遮挡的影响,其可以用于象客厅、大堂等背景较为简单的场景,不过对于例如有很多隔断的复杂的办公场景,会发生跟踪失效的问题。
【发明内容】
[0006]鉴于上述情况,提出了本发明。
[0007]本发明的一个目标是能够至少一定程度上恢复对长时跟踪失踪的对象的跟踪。
[0008]本发明的另一个目标是尽可能减少遮挡对对象跟踪的影响。
[0009]需要说明的是,本发明的技术方案并不需要实现上述两者全部目标,而是只要实现其中之一即可。
[0010]根据本发明的一个方面,提供了一种利用深度图像或视差图像跟踪一个或多个对象的方法,包括:对于新检测到的第一对象,利用包括第一对象的深度图像序列,提取第一对象的短时特征和长时特征,并存储为第一对象的短时特征模板和长时特征模板,其中对象的短时特征表示时间敏感性强的刻画对象的特征,对象的长时特征表示对象的全部或部分短时特征随时间的统计分布;在对第一对象的跟踪过程中,对于每帧待分析图像,基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配进行跟踪;如果在对第一对象的跟踪过程中基于第一对象的短时特征模板的匹配失败,将第一对象标识为失踪的第一对象;对于后续新检测到的第二对象,利用包括第二对象的深度图像序列提取第二对象的短时特征和长时特征;以及基于第二对象的短时特征和长时特征和被标识为失踪的第一对象的短时特征模板和长时特征模板之间的匹配,判断第二对象是否为失踪的第一对象。
[0011]根据本发明上述实施例的方法,对于发现跟踪丢失尤其是长时失踪的对象,通过将新检测到的对象的短时特征和长时特征与被标识为失踪的对象的短时特征模板和长时特征模板之间进行匹配,有可能找回失踪的对象,以恢复跟踪。
[0012]此外,上述实施例中的基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配处理可以包括:确定候选对象的短时特征和第一对象的短时特征模板匹配的置信度;如果该置信度高于预定阈值,确定两者匹配;如果该置信度低于预定阈值,基于预定规则判断该低置信度是否是由于遮挡引发,如果是,确定两者匹配,否则确定两者不匹配。
[0013]利用上述技术特征,可以尽可能减少由于遮挡导致的对象失踪。
[0014]根据本发明的另一方面,提供了一种利用深度图像或视差图像跟踪一个或多个对象的装置,包括:第一对象模板确定部件,对于新检测到的第一对象,利用包括第一对象的深度图像序列,提取第一对象的短时特征和长时特征,并存储为第一对象的短时特征模板和长时特征模板,其中对象的短时特征表示时间敏感性强的刻画对象的特征,对象的长时特征表示对象的全部或部分短时特征随时间的统计分布;第一对象跟踪部件,在对第一对象的跟踪过程中,对于每帧待分析图像,基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配进行跟踪;失踪对象标识部件,如果在对第一对象的跟踪过程中基于第一对象的短时特征模板的匹配失败,将第一对象标识为失踪的第一对象;第二对象特征提取部件,对于后续新检测到的第二对象,利用包括第二对象的深度图像序列提取第二对象的短时特征和长时特征;以及丢失对象恢复部件,基于第二对象的短时特征和长时特征和被标识为失踪的第一对象的短时特征模板和长时特征模板之间的匹配,判断第二对象是否为失踪的第一对象。
[0015]根据本发明上述实施例的装置,对于发现跟踪丢失尤其是长时失踪的对象,通过将新检测到的对象的短时特征和长时特征与被标识为失踪的对象的短时特征模板和长时特征模板之间进行匹配,有可能找回失踪的对象,以恢复跟踪。
【专利附图】
【附图说明】
[0016]图1示出了根据本发明第一实施例的利用深度图像或视差图像的对象跟踪方法100的总体流程图。
[0017]图2示出了根据本发明实施例的基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配处理的流程图。[0018]图3示出根据本发明实施例的基于环境和人的运动的决策树的判定的示意图,其中示出了两种情景。
[0019]图4示出根据本发明实施例的基于人和其临近的人的运动的决策树的判定的示意图,其中示出了两种情景。
[0020]图5示出了根据本发明实施例基于混合的短时特征模板和长时特征模板的匹配恢复长时丢失对象的跟踪的方法的流程图。
[0021]图6是根据本发明一个实施例的对象跟踪装置的功能配置框图。
[0022]图7是示出按照本发明实施例的对象跟踪系统的总体硬件框图。
【具体实施方式】
[0023]为了使本领域技术人员更好地理解本发明,下面结合附图和【具体实施方式】对本发明作进一步详细说明。
[0024]将按如下顺序进行描述:
[0025]1、发明思想概述
[0026]2、第一实施例
[0027]2.1、对象跟踪方法示例的总体流程图
[0028]2.2、基于短时特征的匹配处理
[0029]2.3、基于混合的短时特征模板和长时特征模板的匹配恢复长时丢失对象的跟踪
[0030]3、第二实施例
[0031]3.1、短时特征的权重的计算
[0032]3.2、长时特征的权重的计算
[0033]4、对象跟踪装置
[0034]5、系统硬件配置
[0035]6、总结
[0036]1、发明思想概述
[0037]发明人总结得出:事实上,遮挡可以引发多种类型的跟踪失效,主要原因是遮挡发生时,用于跟踪的特征通常也会发生突发或者较大的变化。
[0038]发明人认为可以将跟踪失效大致归为两类:短时丢失和长时丢失。
[0039]短时丢失是指跟踪的对象在短暂丢失后,可以被再跟踪到。例如,在基于深度图像进行人的跟踪时,当走动的人被某个相对于摄像机更近的物体遮挡时,该走动的人的形状特征和距离特征会发生较大的变化,这时候针对该走动的人很可能发生跟踪失效。在很短的一段时间内,遮挡消失,人的形状特征和距离特征恢复,该人很有可能会被恢复,也就是继续跟踪到。
[0040]长时丢失针对如下情况:跟踪的对象在丢失后的很长一段时间内,无法被找到。例如,由于复杂的或者比较高的背景,一个人完全消失了。一段较长的时间后,该人在临近的位置再次出现。如本领域技术人员能够想到的,由于丢失的时间较长,该人虽然被检出,但可能没有恢复为以前跟踪的人,而是以一个新的检出的人的身份出现。
[0041]发明人想到,基于短时丢失和长时丢失情况,可以考虑使用不同特性的特征,称之为短时特征和长时特征,其中对象的短时特征表示时间敏感性强的刻画对象的特征,对象的长时特征表示对象的全部或部分短时特征随时间的统计分布。当发生长时丢失情况时,对于后续新检测到的对象,基于提取的短时特征和长时特征和发现丢失的对象的短时特征模板和长时特征模板之间的匹配,来确定新检测到的对象是否实际上为之前跟踪丢失的对象。
[0042]下面具体描述实践本发明思想的具体实施例。
[0043]2、第一实施例
[0044]2.1、对象跟踪方法示例的总体流程图
[0045]图1示出了根据本发明第一实施例的利用深度图像或视差图像的对象跟踪方法100的总体流程图。
[0046]本发明实施例假设可以实时获得深度图像或视差图像系列。该深度图像或视差图像序列可以是从本地布置的立体相机拍摄的图像计算得到的,或者也可以是远程例如通过无线网络或者有线网络获得的。
[0047]深度图或视差图可以是基于双目测距原理利用确定的双目摄像机采集得到的。如本领域技术人员公知的,深度图和视差图之间可以相互转化。任何现有的获取深度图的方法均可以用于本发明。例如,可以通过双目相机、多目相机、立体相机拍摄并计算得到包括该对象部分的深度图。具体地,例如,可以通过双目相机来拍得左图像和右图像,基于左图像和右图像计算得到视差图,以及根据视差图得到深度图。上述相机仅为示例,深度图或视差图也可以基于其它类型的立体相机得到,例如可以使用主动发射红外光来辅助生成立体信息,这样的摄像机例子,有微软的Kinect,还有基于红外光飞行时间(Time ofFlight, T0F)技术的类型的摄像机,或者基于纹理光的类型的摄像机等。
[0048]为便于描述,下面的描述假定针对一预定空间中,布置了一个或多个立体摄像机,以对出现于该预定空间中的对象进行立体成像并通过转换或计算等处理获得深度图像或视差图像。
[0049]关于预定空间,例如可以是一个房间,例如办公室、超市、厂房等,不过也可以是室外的空间,例如学校场地、军工场所等,只要是可以作为监控对象的空间即可。关于被跟踪的对象,没有特别限制,可以是人、动物、飞行物、或其它任何可移动的物体。
[0050]如图1所示,在步骤SllO中,对于新检测到的第一对象,利用包括第一对象的深度图像序列,提取第一对象的短时特征和长时特征,并存储为第一对象的短时特征模板和长时特征模板。
[0051]关于检测对象的方法,可以采用任何方法。例如,可以使用基于RGB图像的HOG特征进行检测,也可以使用基于深度图像的连通域分析来分割和检测对象,等等。
[0052]如跟踪【技术领域】公知的,一般在开始跟踪时,这时所检测到的对象都视为新检测到的对象。如果检测到了新对象,则可以通过运动估计等图像处理技术分析该对象的运动特性,进而预测该对象在下一帧中的位置等,从而对于下一帧可以在预测的位置附近来搜索该跟踪对象,由此实现对于对象的跟踪。在跟踪失败的情况下或者每隔预定时间段,可以再次启动对象检测处理,将除了跟踪到的对象外检测到的对象视为新检测的对象,并对新检测到的对象开始上述跟踪处理。
[0053]这里对象的短时特征表示时间敏感性强的刻画对象的特征,对象的长时特征表示对象的全部或部分短时特征随时间的统计分布。[0054]具体地,例如,对象的短时特征可以包括下列各项中的一项或多项:从单帧深度图像中提取出的对象的位置、高度和形状特征、通过多帧深度图像计算得到的对象的运动方向和运动幅度。
[0055]可直接从深度图像中提取出对象的位置(x,y,z),高度,和形状特征。在深度图像中,每个人均包含多个像素点。每个像素点有位置信息(xi, yi, zi),通过统计人所包含的像素点的位置信息,得到其均值,即可得到人的位置特征(x,y,z)。通过统计人所包含像素点中的最大的y值,最小的y值,通过求它们的差的绝对值,即可得到人的高度特征。通过计算人的轮廓,可以计算得到轮廓的链码(chain code)或者傅里叶描述子(Fourierdescriptors),即可得到人的形状特征。关于涉及链码和傅里叶描述子的形状特征的描述,可以参考标题为 “A survey of shape feature extraction techniques,,,PatternRecognition, Peng-Yeng Yin (Ed.) (2008) 43-90 的文章,该文章可从网址 http: //hal-supelec.archives-ouvertes.fr/does/00/44/60/37/PDF/ARS-.Tournal-SurveyPatternRecognition.pdf 下载得至丨J。
[0056]通过多帧深度图像,可以计算得到人的运动信息,其包括运动的方向和运动的幅度。任何可以计算运动对象的方法均可以用于此处,例如,光流法,SSD方法等。
[0057]当提取出如上特征后,例如可以将其合并为一个特征向量Vector_S={(x, y,z), height, (chain_code), motion_magnitude, motion_direction},该特征向量可以直接用于人的跟踪。
[0058]上述各个短时特征和特征向量仅为例子。可以提取任何能表征对象的在当前一帧或几征中的特性的特征作为短时特征,可以采用上述短时特征的一项或者若干项的组合来形成短时特征向量。
[0059]关于对象的长时特征,可以通过统计对象的某方面特性的概率分布来表征。
[0060]如前所述,本发明之所以想到应用长时特征,是因为在长时丢失发生后,当对象再次出现后,其位置、高度、形状(姿态)等短时特征和之前可能有了很大变化,因而不再适用,而对象的短时特征的统计上的概率分布相对是稳定的,因此可以作为长时特征使用。举例来说,例如,在某个办公场景中,一个工作人员走到他的工作区间(某个隔断内)、坐下、开始办公。由于隔断的遮挡,该工作人员消失了。一段较长的时间后,其站立起来,该工作人员又出现了。这是典型的长时丢失问题,为考虑应对长时丢失的措施,首先,来分析一下该工作人员消失前和消失后的特征的状况。消失前,该工作人员的特征为位置A、形状B和高度C ;一段时间后,其出现了,此刻,其特征为位置D,形状E和高度D。在某些情况下,因为是同一个人,在通一个工位上,所以在消失前和再次出现后,其位置特征可能临近;其形状和高度特征可能变化不大,也可能有一定的变化,这取决于该工作人员姿势等。而在另外一些情况下,消失前和出现后,这两个时刻有比较大的时间间隔,这期间该工作人员的位置,动作、姿势等会有变化。因此,很多不确定性会发生。这种情况下,短时特征将无法用于应对长时丢失问题。
[0061]而此时,可以考虑采用基于多帧深度图像的对象的某特性的概率分布作为长时特征来应对这种不确定性。
[0062]例如,可以通过高斯分布来表征对象的全部或部分短时特征随时间的统计分布,作为对象的长时特征。[0063]具体地,例如,对每一个短时特征,统计其在多帧图像中的最大值、最小值、均值和方差,基于这些统计量建立该短时特征的高斯分布,作为对象的对应于该短时特征的长时特征,具体例如可参考公式(I)和公式(2);
【权利要求】
1.一种利用深度图像或视差图像跟踪一个或多个对象的方法,包括: 对于新检测到的第一对象,利用包括第一对象的深度图像序列,提取第一对象的短时特征和长时特征,并存储为第一对象的短时特征模板和长时特征模板,其中对象的短时特征表示时间敏感性强的刻画对象的特征,对象的长时特征表示对象的全部或部分短时特征随时间的统计分布; 在对第一对象的跟踪过程中,对于每帧待分析图像,基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配进行跟踪; 如果在对第一对象的跟踪过程中基于第一对象的短时特征模板的匹配失败,将第一对象标识为失踪的第一对象; 对于后续新检测到的第二对象,利用包括第二对象的深度图像序列提取第二对象的短时特征和长时特征;以及 基于第二对象的短时特征和长时特征和被标识为失踪的第一对象的短时特征模板和长时特征模板之间的匹配,判断第二对象是否为失踪的第一对象。
2.根据权利要求1的对象跟踪方法,所述对象的短时特征包括下列各项中的一项或多项:从单帧深度图像中提取出的对象的位置、高度和形状特征、通过多帧深度图像计算得到的对象的运动方向和运动幅度。
3.根据权利要求1的对象跟踪方法,其中通过高斯分布来表征对象的全部或部分短时特征随时间的统计分布,作为对象的长时特征。
4.根据权利要求1的对象跟踪方法,其中所述基于第二对象的短时特征和长时特征和被标识为失踪的第一对象的短时特征模板和长时特征模板之间的匹配,判断第二对象是否为失踪的第一对象包括: 将第二对象的短时特征和第一对象的短时特征模板进行匹配; 如果两者匹配,确定第二对象为丢失的第一对象; 如果两者不匹配,将第二对象的长时特征和第一对象的长时特征模板进行匹配,以确定第二对象是否为丢失的第一对象。
5.根据权利要求4的对象跟踪方法,将第二对象的短时特征和第一对象的短时特征模板进行匹配包括: 确定第二对象的短时特征和第一对象的短时特征模板匹配的置信度; 如果该置信度高于预定阈值,确定两者匹配; 如果该置信度低于预定阈值,基于预定规则判断该低置信度是否是由于遮挡引发,如果是,确定两者匹配,否则确定两者不匹配。
6.根据权利要求4的对象跟踪方法,其中所述将第二对象的长时特征和第一对象的长时特征模板进行匹配,以确定第二对象是否为丢失的第一对象包括: 通过置信区间估计来计算作为第二对象的长时特征的高斯分布和作为第一对象的长时特征模板的高斯分布的统计相似度,以及如果这两个高斯分布的统计相似度大于预定阈值,则确定该第二对象为丢失的第一对象,否则确定该第二对象不是丢失的第一对象。
7.根据权利要求1的对象跟踪方法,还包括:随跟踪的进行,动态更新跟踪对象的短时特征模板和长时特征模板以用于后续的跟踪。
8.根据权利要求1的对象跟踪方法,还包括:基于当前时刻在跟踪对象和跟踪对象的临近区域之间关于各个短时特征的差异,确定各个短时特征的权重,使得如果某短时特征在跟踪对象和跟踪对象的临近区域之间差异较大,则该短时特征的权重较大,反之如果差异较小,则该短时特征的权重较小;以及 在下一时刻,基于短时特征的权重,进行跟踪对象的短时特征与相关对象的短时模板之间的匹配。
9.根据权利要求1的对象跟踪方法,还包括: 确定作为各个短时特征的统计分布的各个长时特征的权重,其中,根据特定对象在某位置多次丢失情况下的各个短时特征的稳定程度,来确定作为各个短时特征的统计分布的各个长时特征的权重,包括: 将该特定对象的标识和跟踪丢失时的位置、在该位置丢失的次数相关联的存储; 如果该特定对象在确定位置丢失次数大于预定阈值,则统计在该确定位置该对象多次丢失时的各个短时特征的均值和方差,从而确定各个短时特征的稳定程度;以及对于作为稳定程度高的短时特征的统计分布的长时特征,给予高的权重。
10.一种利用深度图像或视差图像跟踪一个或多个对象的装置,包括: 第一对象模板确定部件,对于新检测到的第一对象,利用包括第一对象的深度图像序列,提取第一对象的短时特征和长时特征,并存储为第一对象的短时特征模板和长时特征模板,其中对象的短时特征表示时间敏感性强的刻画对象的特征,对象的长时特征表示对象的全部或部分短时特征随时间的统计分布; 第一对象跟踪部件,在对第一对象的跟踪过程中,对于每帧待分析图像,基于提取的候选对象的短时特征与存储的第一对象的短时特征模板的匹配进行跟踪; 失踪对象标识部件,如果在对第一对象的跟踪过程中基于第一对象的短时特征模板的匹配失败,将第一对象标识为失踪的第一对象; 第二对象特征提取部件,对于后续新检测到的第二对象,利用包括第二对象的深度图像序列提取第二对象的短时特征和长时特征;以及 丢失对象恢复部件,基于第二对象的短时特征和长时特征和被标识为失踪的第一对象的短时特征模板和长时特征模板之间的匹配,判断第二对象是否为失踪的第一对象。
【文档编号】H04N13/00GK103679742SQ201210327643
【公开日】2014年3月26日 申请日期:2012年9月6日 优先权日:2012年9月6日
【发明者】范圣印, 王鑫, 李滔 申请人:株式会社理光