用于对象再识别的系统和方法
【技术领域】
[0001] 本发明大体涉及图像处理,尤其涉及一种用于规划用于判断候选对象是否是关注 对象的、诸如平摇、俯仰和缩放值等的一系列摄像机设置的方法、系统和设备。在一个例子 中,术语"候选对象"和"关注对象"分别是指(i)拥挤的机场中的人,其中,该人仅是人群 中的一个人,以及(ii)人群中被识别为特别关注的人。本发明还涉及一种包括计算机可读 介质的计算机程序产品,其中,该计算机可读介质上记录有用于规划用于判断候选对象是 否是关注对象的一系列摄像机设置的计算机程序记录。
【背景技术】
[0002] 诸如购物中心、停车场和火车站等的公共场所正越来越多地受到使用大规模视频 摄像机网络的监视。大规模视频监视的应用领域包括安保、安全、交通管理和业务分析。许 多这类应用中的关键任务是快速、稳健的对象再识别,这是跨网络中的多个摄像机找到特 定关注对象的问题。在安保领域的一个示例性应用中,保安员可能希望观察包含特定可疑 目标的任何视频传送以识别意外活动。在业务分析领域的另一个例子中,购物中心可能希 望跨多个摄像机追踪特定客户以建立该客户的购物习惯档案。在下面的说明中,术语"对象 再识别"将被理解为包含术语"对象辨识"和"对象识别"。
[0003] 稳健的对象再识别因为几个原因而成为一个挑战性的问题。首先,视角(即,摄像 机相对于摄像机视野中的对象的相对定向)和照明在网络中的摄像机之间可能有显著差 另IJ。例如,一个网络可能包含用于在明亮的日光下远距离观察目标的室外摄像机和在人工 照明下近距离观察目标的室内摄像机两者。此外,许多目标可能有相似的外观,并且只在 小细节上可能会有所不同。例如,公共交通工具上的许多乘客穿着类似的职业装,但是他 们的外观在诸如领带和头发长度等细节方面存在不同。另外,公共场所的特征通常是非合 作目标人群以相对于摄像机变化且不可预测的距离、速度和定向在不受控环境下移动。术 语"非合作目标"是指既非有意识地、也非不自觉地保持与摄像机的特殊关系的目标。最后, 网络中的摄像机可能具有非重叠视野,因而可能不能从一个摄像机到下一摄像机来连续追 踪给定目标。
[0004] 用于对象再识别的一般方法包括(i)基于外观或者基于属性的方法和(ii)适用 于静止摄像机或者活动摄像机的方法。一种已知用于使用静止摄像机的、基于外观的对象 再识别的方法,通过从对象的示例性图像提取基于颜色、纹理和形状的低层特征的矢量来 对对象的外观进行建模。在通过目标的头部周围的垂直条纹所定义的关注区域中,提取这 些特征。再识别一定程度地是基于对外观差异评分的计算,其中,该计算基于从候选目标和 关注目标的图像所提取的特征矢量之间的巴氏(Bhattacharyya)距离。
[0005] 另一已知用于静止摄像机中的、基于属性的再识别的方法,使用支持向量机(SVM) 分类器的库来判断行人的图像是否存在15个二值属性(诸如太阳镜、背包和裙子等)。根 据具有已知属性的行人的训练集,针对2784维低层颜色和纹理特征矢量来训练SVM分类 器。为了克服以不同的可靠性检测不同属性这一问题,基于用于匹配行人的图像对的数据 集来学习属性距离度量(马氏距离)。再识别一定程度地是基于对在从候选目标和关注目 标的图像所提取的15个属性之间所学习的属性距离度量的计算。
[0006] 上述基于静止摄像机的再识别方法的性能在跨大距离观察对象时变差,这常见于 大规模视频监视系统。基于平摇-俯仰-缩放(PTZ)的再识别方法可以通过控制摄像机拍 摄大距离处的候选对象的高分辨率图像来克服该局限性。该方法被称为"主动再识别"的 一种形式。用于主动再识别的一种已知方法使用面部检测来识别关注对象。使用静止主摄 像机来检测目标、并且估计他们的注视方向,并且使用活动的从摄像机来获得所选择的候 选目标的高分辨率面部图像。候选目标选择是基于针对观察目标的目标识别的预期信息增 益的。还被称为"互信息"的"预期信息增益",是通过进行观察所获得的、对于与目标识别 有关的不确定性的预期降低。该方法趋向于选择面对着从摄像机的身份不明的候选者。该 方法的缺点在于依赖于以特定视角(即,正面)所拍摄的高鉴别特征(即,面部)。
[0007] 用于基于信息论概念的主动再识别的另一已知方法动态规划一系列PTZ设置来 拍摄候选对象上不同区域的放大图,以使针对候选对象的类的预期信息增益最大化。术语 "类"是指诸如"书籍"或者"杯子"等的语义对象分类。该信息增益一定程度地是根据关注 对象在不同PTZ设置下的低层图像特征的学习分布而计算出的。该方法假定可以离线获得 所有可用PTZ设置下对象的每一类的多个图像以学习特征分布。
[0008] 在另一已知相关方法中,控制摄像机设置以使诸如对象检测器等的随机自动机中 的互信息最大化。随机自动机以不同尺度的量化图像特征(还被称为"代码字")作为输 入。起初,在第一拍摄图像中检测代码字,并且迭代更新摄像机设置从而以更高分辨率来观 察各个代码字。与前述方法相同,通过在观察被作为向元胞的输入的代码字之后,使针对随 机自动机中的元胞的状态的互信息最大化来选择摄像机设置。
[0009] 另一已知方法基于对于不同身体区域的一系列放大观察,主动从已知人物的图库 再识别行人。该方法首先拍摄候选者的整个身体图像,并且基于颜色和纹理来提取特征矢 量。基于候选者和每一图库图像之间的巴氏距离,使用该特征矢量来对图库进行排序。然 后,在基于当前排序而假定跨图库的特征方差最大的情况下,选择每一连续观察作为放大 区域。该方法假定对于图库中的每一关注对象,整个身体和所有身体区域的放大图都是可 用的。
【发明内容】
[0010] 本发明的目的是为了基本上克服或者至少改善现有配置的一个以上的缺点。
[0011] 公开了被称为视角独立特有性确定(Viewpoint Independent Distinctiveness Determination (VIDD))配置的配置,其旨在通过独立于摄像机和关注对象之间的相对定向 而确定关注对象的属性的特有性来解决上述问题。这样使得能够在先前没有看见关注对象 的视角下再识别关注对象,这不同于要求先前已经在特定视角下观察到关注对象的现有方 法。此外,所公开的VIDD配置包括使得在基于关注对象的语义描述时,能够在无需该对象 的任何先前图像的情况下再识别该对象。
[0012] 根据本发明的第一方面,提供一种用于利用摄像机识别场景的图像中的对象的方 法,所述方法包括以下步骤:独立于摄像机视角,确定关注对象的多个属性中的各个属性的 特有性;基于所述场景的图像中的候选对象的相对定向,确定所述候选对象的所述多个属 性中的各个属性的可检测性;基于所确定的至少一个属性的特有性,确定用于观察所述候 选对象的摄像机设置,以提高所述至少一个属性的可检测性;以及利用所确定的摄像机设 置来拍摄所述候选对象的图像,以确定所述候选对象是所述关注对象的置信度。
[0013] 根据本发明的另一方面,提供一种设备,其包括:摄像机,用于拍摄关注对象的图 像和场景中候选对象的图像;处理器;以及存储器,用于存储计算机可执行软件程序,其 中,所述计算机可执行软件程序用于指示所述处理器进行用于利用所述摄像机来识别所述 场景的图像中的对象的方法,所述方法包括以下步骤:独立于摄像机视角,确定所述关注对 象的多个属性中的各个属性的特有性;基于所述场景的图像中的候选对象的相对定向,确 定所述候选对象的所述多个属性中的各个属性的可检测性;基于所确定的至少一个属性的 特有性,确定用于观察所述候选对象的摄像机设置,以提高所述至少一个属性的可检测性; 以及利用所确定的摄像机设置来拍摄所述候选对象的图像,以确定所述候选对象是所述关 注对象的置信度。
[0014] 根据本发明的另一方面,提供一种用于利用摄像机识别场景的图像中的对象的设 备,所述设备包括:特有性确定模块,用于独立于摄像机视角,确定关注对象的多个属性中 的各个属性的特有性;可检测性确定模块,用于基于所述场景的图像中的候选对象的相对 定向,确定所述候选对象的所述多个属性中的各个属性的可检测性;摄像机设置确定模块, 用于基于所确定的至少一个属性的特有性,确定用于观察所述候选对象的摄像机设置,以 提高所述至少一个属性的可检测性;以及拍摄模块,用于利用所确定的摄像机设置拍摄所 述候选对象的图像,以确定所述候选对象是所述关注对象的置信度。
[0015] 根据本发明的另一方面,提供一种用于存储计算机可执行软件程序的计算机可读 非暂时性存储器,其中,所述计算机可执行软件程序用于指示处理器进行用于利用摄像机 识别场景的图像中的对象的方法,所述方法包括以下步骤:独立于摄像机视角,确定关注对 象的多个属性中的各个属性的特有性;基于所述场景的图像中的候选对象的相对定向,确 定所述候选对象的所述多个属性中的各个属性的可检测性;基于所确定的至少一个属性的 特有性,确定用于观察所述候选对象的摄像机设置,以提高所述至少一个属性的可检测性; 以及利用所确定的摄像机设置来拍摄所述候选对象的图像,以确定所述候选对象是所述关 注对象的置信度。
[0016] 还公开了本发明的其它方面。
【附图说明】
[0017] 这里参考以下【附图说明】本发明一个以上的实施例,其中:
[0018] 图1A是示出根据一种VIDD配置的用于描述示例性关注对象的属性的简化图;
[0019] 图1B是示出通过可使用VIDD配置的PTZ摄像机所拍摄的示例性候选对象的图像 的简化图;
[0020] 图2是示出在可以使用VIDD配置的不同摄像机设置下所拍摄的示例性候选对象 的图像的简化图;
[0021] 图3是根据一种VIDD配置的用于将候选对象的身份与所检测到的属性相关的信 念网络的简化图;
[0022] 图4是示出根据一种VIDD配置的用于利用摄像机识别场景中的对象的方法的示 意性流程图;
[0023] 图5、6A和6B共同示出根据图4的方法的一种实施方案的用于确定候选对象的相 对定向的方法;
[0024] 图7A是示出图4的方法中所使用的用于检测候选对象的属性的方法的示意性流 程图;
[0025] 图7B示出根据图7A的方法的一种实施方案的用于检测候选对象的属性的关注区 域的例子;
[0026] 图8是示出在图4的方法中所使用的用于确定候选对象是关注对象的概率的方法 的示意性流程图;
[0027] 图9是示出根据图4的方法的一种实施方案的用于选择新的摄像机设置的方法的 示意性流程图;
[0028] 图10A和10B形成可以实现上述VIDD配置的通用计算机系统的示意性框图;
[0029] 图11描述本说明书中所使用的术语之间的关系;以及
[0030] 图12描述在图4的步骤440所使用的如何确定特有性的例子。
【具体实施方式】
[0031] 如果下面任一附图或者多个附图中的步骤和/或者特征具有相同的附图标记,则 对于本说明书,这些步骤和/或者特征具有相同的功能或者操作,除非另有说明除外。
[0032] 应该注意,"【背景技术】"部分和上述与在先技术配置有关的部分所包含的说明,涉 及对于通过各自的公开和/或者使用可能形成公共知识的文献或者装置的说明。这些说明 不应被解释为本发明人或者本专利申请人表示这些文献或者装置无论如何都形成该技术 领域的一般公共知识的一部分。
【背景技术】 [0033] 部分中所述的作为在先技术的主动再识别方法,需要在特定摄像机设置 或者观察条件(包括所有可能观察条件)下要拍摄的候选对象或者关注对象的图像。在本 说明书中,"观察条件"是指诸如摄像机和对象之间的距离、摄像机的焦距和分辨率以及对 象相对于摄像机的定向(即,视角)等的、拍摄对象的图像时的条件。大规模监视场景的特 征是非合作目标在不受控环境下移动。因而,实际应用表现出对于已知主动再识别方法的 不利条件。
[0034] 本发明提供一种用于通过规划一系列所要使用的摄像机设置以提高最特有属性 的可检测性,从而基于对象的属性使用摄像机来识别场景中的关注对象的方法和系统。在 本说明书中,"属性"是诸如"头发长度"等的、在图像中可以观察的对象的分类特征。术语 "类"以及"类标签"和"属性标签"可互换地指属性的特殊表现,诸如,对于属性"头发长度", 类标签为"长发"。特定图像的属性的"可检测性"是指从图像可以确定该属性的确定性。
[0035] 图1A和1B示出可以应用VIDD配置的示例性使用情况。在该例子中,目的是判断 关注的人100 (该例子中的关注对象)何时出现在PTZ摄像机140的监视下的场景的图像 120中。在下面的说明中,"候选对象"是指可能是关注对象、但是当前具有不明身份的任何 观察对象。例如,通过摄像机140所观察的场景的图像120中的行人130,是关注对象100 的候选对象。
[0036] 图1B示出通过数字摄像机140所拍摄的场景的图像120。
[0037] 图11描述本说明书中所使用的一些术语。图像1101由诸如1104等的视觉元素 构成。在整个说明书中可以互换使用术语"像素"、"像素位置"和"图像位置"以指拍摄图像 中的视觉元素中的一个。通过表示拍摄场景的特征的一个以上的值来描述每一像素。在一 个例子中,单个强度值表示场景在像素位置处的亮度的特征。在另一例子中,三个一组的值 表示场景在像素位置处的颜色的特征。图像1101中的"区域" 1103是指诸如1104等的一 个以上的空间相邻的视觉元素的集合。"特征"1102表示根据图像区域1103中的像素值所 确定的推断值或者推断值集。在一个例子中,特征是图像区域1103中的颜色值的直方图。 在另一例子中,特征是通过估计区域1103中的强度梯度所确定的"边缘"值。在另一例子 中,特征是诸如包含头部的区域中的标签"帽子"等的、用于描述图像区域1103中的属性的 类标签。通过对从图像区域1103所提取的特征应用支持向量机(SVM)或者其它分类方法, 来确定类标签。
[0038] 按照诸如"头发长度"等的固定属性集来描述关注的人100,其中,向每一属性分 配离散的类标签(例如,"长发")。在一个VIDD配置中,属性是用于描述关注的人的软生 物特征(soft biometric)。软生物特征对表示人类观察者在描述他人时偏爱的特征的分 类语义信息进行编码。在一个例子中,使用软生物特征(属性)"头发长度"来描述人,其 中,"头发长度"具有类标签"长发"和"短发"中的一个。在本说明中,可以互换使用术语 "类标签"和"类",并且可以互换使用术语"属性"