专利名称:监测运动对象的方法和相关的系统的利记博彩app
相关申请的交叉引用本申请要求2001年6月29日提交的题为“监视系统及其相关的方法”的美国临时申请No.60/302020的权益,将此文献通过引用结合到本文中。
背景技术:
本发明一般涉及监测搜索区域的系统和方法。更具体地说,本发明涉及为各种应用、例如跟踪运动对象和监视等而监测搜索区域。
在各种情况下提供安全性已经发展了很长时间。按照传统方式,安全行业主要依靠其人力资源。技术不一定受到高度重视,而且有时还受到怀疑。例如,安全行业中最近普遍接受的技术变化之一是采用防卫团体之间的无线电通信。
尽管视频记录已经为安全行业所采用,但是总的来说,这种记录尚未被普遍采用。例如,有很大一部分证券市场根本不使用视频记录而专门依靠人力。使用人力的一个示例是执法机构执行的大部分监视行动。
一般来说,安全行业的基础设施可概述如下。首先,安全系统一般局部行动,未以有效方式合作。其次,极贵重的财产受到陈旧的技术系统不充分的保护。最后,安全行业依靠密集的人力来探查和评估危险情况。
近年来已经采用计算机视觉来提供基于视频的监视。计算机视觉是发展理论和算法基础的科学,根据这个理论和算法基础,能够从来自计算装置进行的计算的观察图像、图像集或图像序列中自动提取和分析关于世界的有用信息。例如,计算机视觉可用于识别杂乱环境中某个对象的位置、检查或测量对象以确保按照规范呈现或正确地定位各部分和/或对象导航和定位,以便可跟踪移动对象以确定其相对于总坐标系的位置。在许多情况下,计算机视觉的使用已集中于军事应用,并且已经采用非可见光频带摄像机、如热、激光以及雷达摄像机。例如,重点在于识别军事目标。
但是,计算机视觉还已经用于利用可见光频带摄像机的非军事设置中的监视应用。例如,这些监视系统用于执行对象识别以跟踪人和车辆运动。
本领域中已知各种计算机视觉系统。例如,在C.Stauffer和W.E.L.Grimson的题为“实时跟踪的自适应背景混合模型”[Proceedings1999 IEEE Conference on Computer Vision and Pattern Recognition,vol.2,pp.246-252,Fort Collins,CO(1999年6月23-25日)]的论文中描述了计算机视觉跟踪。但是,需要提高这种跟踪或监视系统与方法的精确度。
此外,即使对象运动检测方法可用于跟踪所监测区域中的对象,一般来说,这些系统不提供充分估计正常或异常情况、如危险与不危险情况的方法。一般来说,现有的商业安全系统主要依靠人的注意力和劳动力来执行这种估计。
发明概述本文描述包括以下部分中的一种或多种的监测方法和系统。例如,这些部分可包括光学部分、计算机视觉部分和/或威胁评估部分。
例如,光学部分可包括设置成像装置、把成像装置的视场融合到校准画面(例如单个图像)中和/或把校准画面与相应的计算机辅助设计或文件进行匹配。此外,例如,计算机视觉部分可包括运动对象分割和跟踪,它对光学部分所提供的校准画面进行操作。另外,威胁评估器可根据计算机视觉部分所提供的已标注路线数据进行推论。
一种用于监测搜索区域的方法包括提供表示搜索区域的各帧图像数据。图像数据包括多个像素的像素值数据。根据像素值数据为各个像素提供多个时变分布。在更新周期中提供至少一帧表示搜索区域的更新图像数据。这帧图像数据包括多个像素中每个的更新像素值数据。该方法还包括尝试将各像素的更新像素值数据匹配为该像素提供的所有多个时变分布其中的每个,并且根据更新像素值数据是否匹配为该像素提供的多个时变分布其中之一来更新各像素的多个时变分布。根据各像素的时变分布表示搜索区域中的背景或前景信息的概率对已更新的每个像素的多个时变分布进行排序,以便确定该像素被视为背景还是前景信息。
在本方法的一个实施例中,尝试将各像素的更新像素值数据匹配所有多个时变分布中每一个的操作包括为该像素提供窄分布以及将这个窄分布与为该像素提供的所有多个时变分布中每一个进行比较(例如计算为该像素创建的窄分布与为该像素提供的所有多个时变分布中每一个之间的差异)。
在此方法的另一个实施例中,如果窄分布匹配多个时变分布其中之一,则通过根据窄分布和匹配分布产生合并分布来更新各像素的多个时变分布。该方法还可包括根据合并分布在已更新的多个时变分布的顺序中的位置来确定像素是表示搜索区域中的背景还是前景信息。
在此方法的又一个实施列中,如果窄分布不匹配多个时变分布之一,则通过采用新分布替换多个时变分布之一来更新各像素的多个时变分布。此外,可确保新分布表示搜索区域中的前景信息。
另外,该方法可包括跟踪搜索区域中的一个或多个运动对象(例如基于前景信息的运动对象),以便确定一个或多个运动对象的对象路径。跟踪可包括根据具有表示前景信息的像素值数据的像素来计算斑点以及筛选出小于预定像素区域大小的斑点。此外,跟踪可包括例如采用多假设跟踪算法把斑点分组到表示一个或多个运动对象的对象路径中。
还描述了一种根据本发明的用于监测搜索区域的系统。该系统包括一个或多个成像装置,这些装置可用于提供表示搜索区域的各帧图像数据。图像数据包括多个像素的像素值数据。各帧图像数据在一个更新周期中包括表示搜索区域的至少一帧更新图像数据;该帧更新图像数据包括多个像素中每个的更新像素值数据。该系统还包括计算机设备,它可用于执行上述方法的各种实施例的一个或多个特征。
实施例的简要描述
图1是根据本发明、包括计算机视觉系统以及可用于利用来自计算机视觉系统的输出的应用模块的监测/检测系统的整体框图。
图2是根据本发明、包括计算机视觉系统和评估模块的监视系统的整体框图。
图3是可由图2总体表示的计算机视觉系统执行的计算机视觉方法的说明性实施例的概括流程图。
图4是说明图3一般表示的光学系统设计过程的一个说明性实施例的流程图。
图5表示图3一般表示的光学系统设计过程的更详细的说明性实施例的流程图。
图6是用于描述图5一般表示的设计过程的光学系统布局的说明性示意图。
图7表示一般表示为图3的计算机视觉方法的组成部分的图像融合方法的一个说明性实施例的流程图。
图8是用于描述图7一般表示的图像融合方法的示意图。
图9表示一般表示为图3的计算机视觉方法的组成部分的分割过程的一个说明性实施例的流程图。
图10是用于描述图9所示分割过程的示意说明。
图11是说明根据本发明并且如参照图9所述的像素的多个时变正态分布的示意图。
图12A说明根据本发明并如参照图9所述的对多个时变正态分布进行排序以及把更新数据与多个时变正态分布进行匹配。
图12B是匹配更新数据与多个时变正态分布的先有技术方法。
图13表示说明图9所示分割过程中的更新周期的一个实施例的流程图。
图14是图13所示更新周期的一部分的一个说明性实施例的更详细流程图。
图15是表示图3一般表示的运动对象跟踪方法的一个说明性实施例的框图。
图16和图17是用于描述根据本发明的一个优选跟踪方法的示意图。
图18是表示图2一般说明的评估方法的一个更详细的说明性实施例的流程图,其中给出监视系统的评估模块。
图19表示说明一个可用于协助图18一般说明的评估方法的聚类过程的实施例的流程图。
图20A和图20B根据本发明以可显示的图解分别表示危险和不危险的对象路径。
实施例的详细说明参照图1-20来描述根据本发明的各种系统和方法。一般来说,本发明提供一种监测/检测系统10,它一般包括提供可供一个或多个不同类型的应用模块14使用的数据的计算机视觉系统12。
本发明可用于各种目的,包括但不限于监视系统(例如针对证券市场的城市监视系统)。例如,这种监视系统及其相关方法在监测大的开阔空间以及鉴别不合法或可疑活动模式时特别有益。例如,这种安全系统能够填补上报孤立事件的当前可用系统和能够推断并上报威胁、例如当前一般由人工执行的功能的自动配合网络之间的空白。
本发明的系统10包括计算机视觉系统12,它可用于跟踪搜索区域中的运动对象、例如跟踪行人和停车场内的车辆,以及把与这种运动对象相关的信息提供给一个或多个配置成接收和分析这种信息的应用模块。例如,在参照图2一般表示和描述的监视系统中,计算机视觉系统可把某些特征、如标注路线或运动对象路径的报告提供给威胁评估模块,以便估计报告数据,例如,分析对象路径是正常还是异常,对象路径是否代表诸如窃贼或恐怖分子之类的潜在危险或不危险事件。
注意,本文所述系统和方法的各种不同部分可以独立使用或者以组合形式一起使用,构成系统或方法的实施例。例如,以一种使所产生的信息可由一个或多个应用模块14用于超出安全领域之外的各种目的的方式来实现计算机视觉系统12。例如,采用计算机视觉系统12收集的交通统计数据可由应用模块14用于建筑施工。
这样一种示范用法将使用交通统计数据在不同时间和日期提供对停车场利用情况的了解。这种了解可支持受监测开阔空间(例如停车场、街道、车库、步行街等)的功能重新设计以更利于运输和安全需要。
此外,例如,这种数据可用于模块14中,进行交通图分析、行人分析、目标识别和/或其它类型的对象识别和/或跟踪应用。例如,另一个应用可包括提供对百货公司顾客的路线统计,用于市场营销目的。
另外,例如,本发明的威胁评估模块可单独与完全独立且不同的数据获取系统、如不同于计算机视觉系统的数据获取所提供的数据配合使用。例如,威胁评估模块可与能够提供搜索区域内运动对象的对象路径或者与其相关的其它信息的其它类型的系统、如雷达系统(例如提供飞机图形、提供鸟类通行量等)、热成像系统(例如提供关于所检测人的轨迹)等配合使用。
本文所用的搜索区域可以是根据本发明来监测的任何区域。这种搜索区域不限于任何特定区域,而且其中可包括任何已知的对象。例如,这些搜索区域可以在室内或室外,可以有照明或无照明,可以在地上或在空中,等等。搜索区域的各种说明性示例可包括所定义的区域,例如房间、车库、停车场、大厅、银行、领空的某个区域、运动场、步行街等等。
本文所用的运动对象是指能够在搜索区域中改变位置的任何有生命或无生命物体。例如,运动对象可包括人(例如行人、顾客等)、飞机、汽车、自行车、动物等等。
在图1一般表示的监测/检测系统10的一个说明性实施例中,监测/检测系统10用作监视系统20,如图2所示。监视系统20包括计算机视觉系统22,它获取搜索区域的图像数据、如画面,并处理这种图像数据以识别运动对象、例如其中的前景数据。跟踪运动对象以提供对象路径或轨迹,作为提供给评估模块24、如威胁评估模块的图像数据的至少一部分。
一般来说,计算机视觉系统22包括光学设计28,它利用多个成像装置30、如可见光频带摄像机覆盖至少一部分搜索区域,并且最好是覆盖外周边围绕的整个定义的搜索区域。多个成像装置中每一个将相应视场(FOV)的图像像素数据提供给能够对图像像素数据进行运算以实现计算机视觉软件模块32的一个或多个例程的一个或多个计算机处理设备31。
一般来说,如图3的计算机视觉方法100所示,在定位成像装置以获取搜索区域中多个视场的图像像素数据之后(框102),计算机视觉模块32对这种图像像素数据进行运算以融合多个成像装置的多个视场(例如不同局部坐标系中的视场)的图像像素数据,从而获得表示单个图像的图像数据(框104),例如从多个成像装置的各种视场形成的总坐标系中的合成图像。
此后,单个图像可分割为前景和背景,从而确定搜索区域中的运动对象(例如前景像素)(框106)。然后可跟踪这些运动对象以提供运动对象路径或轨迹以及相关信息(例如计算出的信息,如对象路径长度、检测运动对象的时间等)(框108)。
光学设计28最好是包括最佳地覆盖了所定义搜索区域的成像装置的安排的说明。光学系统设计还包括实时运行计算机视觉算法所需的计算资源的说明。这些算法包括上述用于融合图像、提供前景与背景信息的分割、跟踪等的必需算法。此外,最佳系统设计包括用于向系统用户转发信息的显示硬件和软件。例如,计算机视觉算法要求充分的计算能力,以便完全覆盖搜索区域。因此,最好是使用至少中档的处理器、例如500MHz处理器来执行这些算法。
最好是使用现成的硬件和软件开发部件,并允许开放式体系结构策略。例如,使用现成的个人计算机、摄像机以及非嵌入式软件工具。
例如,计算设备31可以是一个或多个基于处理器的系统,或者用于执行根据本发明的计算机视觉算法和/或评估算法的其它专用硬件。例如,计算设备31可以是一个或多个固定或移动计算机系统、如个人计算机。计算机系统的确切配置不限,根据本发明,大部分能够提供适当计算能力的任何装置都可使用。此外,各种外围设备、如计算机显示器、鼠标、键盘、打印机等均可考虑与计算设备31的处理器结合使用。用于实现计算机视觉算法的计算机设备可以与用来对其中产生的特征数据执行评估、如威胁评估的设备相同或不同。
在下面将详细描述的计算机视觉方法100的一个优选实施例中,本发明最好是通过像素级的多个正态表示来执行运动对象分割。分割方法与C.Stauffer和W.E.L.Grimson的“利用实时跟踪的活动的学习模式”[IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.22,No.8,pp.747-767,2000]以及C.Stauffer和W.E.L.Grimson的“实时跟踪的自适应背景混合模型”[Proceedings 1999 IEEE Conference onComputer Vision and Pattern Recognition,vol.2,pp.246-252,Fort Collins,CO(1999年6月23-25日)]中所述相似,但具有各种有利的修改。该方法识别图像数据的各新帧中的前景像素,同时更新各像素的混合模型的描述。
然后,所标记或标识的前景像素能够最好是利用所连接的部件算法组装成对象。建立各帧之间对象的对应关系(即跟踪)最好是利用结合了位置和大小这两者的线性预测多假定跟踪算法来实现。
由于没有单个成像装置、如摄像机能够完全覆盖诸如停车场之类的大开阔空间,因此各种摄像机的视场融合成单个相干图像以保持全面的认识。多个成像装置、如摄像机的这种融合(或者通常称作校准)最好是通过计算单应矩阵来实现。这种计算基于摄像机对之间的视场公共重叠区域中的若干界标点的识别。
威胁评估模块24最好是包括特征组合模块42,后面接着是威胁分类器48。特征组合模块42从对象路径中提取各种与安全性相关的统计数据,即对象轨迹或路径组。威胁分类器48最好是实时确定特定对象路径、如所形成的搜索区域中的运动对象是否构成威胁。威胁分类器48可借助于威胁建模训练模块44,该模块可用来定义危险与不危险的对象路径或者与危险或不危险事件相关的对象路径信息。
再参照附图,如图3的计算机视觉方法中通过定位图像装置(框102)一般表示的,本发明可与任何数量的不同光学成像设计28(参见图2)配合使用。但是,本发明最好是提供一种光学设计28,其中慎重地放置多个成像装置30以获得优于其它多成像装置系统的优点。根据本发明的较优选的摄像机定位设计确保完全覆盖受监测的开阔空间,防止可能导致安全漏洞威胁的盲点。
虽然视频传感器和用于处理来自多个图像装置的数据的计算能力越来越便宜,从而能够大量使用以提供对某个开阔空间的覆盖,但大多数低价视频传感器没有所需的分辨率来适应高质量的对象跟踪。因此,高端监视应用的视频成像器仍然比较昂贵,因此,减少成像装置的数量使系统成本充分降低。所用的摄像机最好是不受气候影响的,以便用于室外区域。但是,这导致额外成本。
此外,包含电力供给以及视频信号的传送、有时是从相当远的处理设备传送的安装费用也要求提供使用最少数量的摄像机的系统。例如,各摄像机的安装费用通常是摄像机原始价值的许多倍。
此外,对于所用摄像机数量,因区域的地形(例如街道、林木线)以及其它原因、例如城市和建筑物法规(例如美学)而有所限制。
总之,由于上述考虑事项,因而监视系统所允许的摄像机数量最好是尽量少。此外,其它光学系统设计考虑事宜可包括计算资源的类型、计算机网络带宽以及与系统相关的显示功能。
光学设计28最好是通过有选择地定位成像装置30来提供,如图3的框102中以及如图4所示提供这种光学设计28的另一个更详细的说明性实施例中一般表示的那样。应认识到,本文所用的光学设计是指成像装置的实际物理布置以及为这些成像装置模拟和提供设计方案。
光学设计过程(框102)通过首先定义搜索区域开始(框120)。例如,如上所述的搜索区域可包括待监测的多种区域其中任何一种,例如停车场、大厅、道路、一部分领空等等。
提供多个成像装置,用于覆盖所定义的搜索区域(框122)。多个成像装置中每一个具有一定的视场,并提供表示该视场的图像像素数据,下面会进一步说明。
多个成像装置可包括能够提供用于本发明的图像像素数据的任何类型的摄像机。例如,可使用单或双通道摄像系统。最好是使用双通道摄像机系统,它在白天用作中等分辨率彩色摄像机,而在夜晚则用作高分辨率灰度摄像机。从白天到夜晚的转换操作通过光电传感器自动控制。双通道技术利用夜晚低照度条件下彩色信息丢失这一事实。因此,没有理由在夜间条件下采用彩色摄像机。相反,可使用更便宜但更高分辨率灰度摄像机来弥补彩色信息的丢失。
例如,成像装置可以是可从Detection Systems and Engineering(Troy,Michigan)购买的DSE DS-5000双通道系统。日间彩色摄像机的分辨率为每帧Hd=480线。晚间灰度摄像机的分辨率为每帧Hd=570线。DSE DS-5000摄像机系统具有用于白天和夜晚的2.8-6毫米f/1.4变焦自动光圈镜头。这允许摄像机的视场的变化范围为44.4度至82.4度。
为设计考虑,选择一个适合用于执行必要计算的视场。例如,对于这些计算,可选择FOV=60度的中间值。为了满足以下将进一步描述的重叠限制,一个或多个摄像机的FOV可从这个值增大或减小。
光学设计28最好是采用最少数量的摄像机提供对整个定义的搜索区域如停车场、领空等的覆盖,以便如上所述降低成本。但是,在许多情况下,定位摄像机的安装空间受到搜索区域地形的限制。例如,人们无法在道路中间放置摄像机架。但是,可尽量使用现有的支架和屋顶。
鉴于这种地形考虑,可在所定义的搜索区域的计算机辅助设计中描绘各种可能的摄像机安装地点。但是,安装搜索空间通过计算机视觉算法强加的限制而进一步减少。例如,城市监视系统可监测两种对象车辆和人。在大小方面,人是受监视的最小对象。因此,他们的脚印应当促进对限制摄像机范围的要求,下面将进一步描述。这种限制范围至少部分基于受监测的最小对象。限制范围的确定又帮助核实停车场内是否存在未被任何给定摄像机配置所覆盖的空间。
各成像装置、例如摄像机最好是与至少一个其它成像装置具有重叠的视场。重叠布置最好是经配置,使得易于通过重叠区域的指引实现从一个摄像机到另一个摄像机的转移,以及能够在单向行程不中断地访问所有摄像机。这种指引允许成像装置的视场与已经以有效方式融合的其它成像装置的视场的融合,下面将进一步描述。
视场的重叠宜大于25%,最好是大于35%。此外,这种重叠小于85%较好,从而提供对摄像机可用的使用范围的有效利用,最好是小于50%。这种百分比要求允许多摄像机校准算法(即融合算法)可靠地执行。要求这个重叠百分比,以便获得公共视场中的若干充分分散的界标点,以便得到精确的单应性。例如,重叠区域的一些部分通常无法用于定界标,因为它由非平面结构、如林木线所覆盖。因此,可要求两部摄像机之间的公共区域覆盖多达各视场的一半。
因此,如图4所示,各成像装置经过定位,使得各成像装置的至少25%的视场与至少一个其它成像装置的视场重叠(框124)。如果搜索区域由所定位的成像装置覆盖,则完成成像装置排列的布置(框128)。但是,如果搜索区域没有被完全覆盖(框126),则定位其它成像装置(框124)。
图5表示一种更详细的说明性摄像机布置过程202。在摄像机布置算法或过程202中,定义搜索区域(框204)。例如,搜索区域可通过具有周边外缘的区域来定义。停车场224定义为搜索区域的一个说明性示例如图6所示。如图所示,街道71作为周边外缘的至少一部分。
此外,提供各具有一定视场的多个摄像机,用于进一步根据摄像机布置算法或过程进行定位(框206)。首先,在一个安装地点,以使其视场至少邻接搜索区域的一部分周边外缘的方式来放置初始摄像机。换句话说,这个视场覆盖沿至少一部分周边外缘的区域。
此后,必要时,在初始安装地点围绕初始摄像机增加摄像机,覆盖与初始摄像机所覆盖的区域邻接的区域(框210)。例如,可放置摄像机,直到到达周边外缘的另一部分。图6提供了这种覆盖的说明。如图所示,初始摄像机放置在安装地点33,覆盖图底部的周边外缘处的一定区域,继续放置摄像机,直到摄像机覆盖沿图顶部的周边的区域、如邻接停车场的街道71。
当放置了各摄像机时,必须确定重叠量。最好是应当确保达到至少大约25%的相邻视场重叠(框214)。此外,对各安装的摄像机计算限制范围(框212)。通过已知视场和限制范围,获得各摄像机的完全有效的覆盖区,下面将会进一步说明。鉴于此,可对摄像机的位置或者对摄像机的视场进行调整。
完成第一安装地点的摄像机定位之后,确定是否覆盖整个搜索区域(框216)。如果覆盖了搜索区域,则进行任何最后调整(框220),例如对于地形限制、如因受限的平面空间而需要的调整。
如果没有覆盖整个搜索区域,则在一个或多个其它安装地点以类似方式来定位摄像机(框218)。例如,这些摄像机被继续放置在第一安装地点的摄像机所覆盖的区域外的下一个安装地点。但是,另一个安装地点上的附加摄像机的至少一个视场最好是与初始安装地点的摄像机视场之一重叠至少25%。重复其它安装地点的使用,直到覆盖了整个搜索区域。
如上所述,可能需要各种其它的布置后调整(框220)。这些通常涉及一个或多个摄像机的视场的增加或减少。视场调整意味着在极少平面空间(例如有许多树)的区域中去掉一部分多余的重叠或者增加一部分额外的重叠。
具体地说,摄像机的限制范围Rc的计算用于帮助进行这些调整。从下式进行计算Rc=Pftan(IFOV),]]>其中Pf是受监测对象、如人的最小可接受像素轨迹,以及IFOV是瞬间视场。
例如,人体的特征最好是不应小于焦平面阵列(EPA)上的W×h=3×9=27像素矩形。小于27个像素的聚类可能低于噪声电平。如果假定一般人的宽度大约为Wp=24英寸,则像素轨迹Pf=24/3=8。IFOV从下式计算IFOV=FOVLFPA]]>其中LFPA是摄像机的分辨率。
例如,对于FOV=60度以及LFPA=480个像素(日间彩色摄像机),则限制范围为Rc=305英尺。对于FOV=60度以及LFPA=570个像素(夜间灰度摄像机),则限制范围为Rc=362英尺。换句话说,在具有相同FOV的两部摄像机之间,较高分辨率的摄像机具有较大有效范围。相反,如果两部摄像机具有相同的分辨率,则具有较小FOV的摄像机具有较大有效范围。因此,在布置后调整过程中(框220),摄像机的视场在一部分较低分辨率日间摄像机通道中可能减少、例如从60度的FOV减少到FOV=52度,从而增加其有效的范围界限。
光学设计28对于监视系统20的有效性极为重要。用于光学设计的原理、算法和计算能够自动操作,用于为其它所定义的搜索区域、如停车场或开阔区域中的成像装置提供光学设计。
图6中表示了一个说明性光学设计222的至少一部分。设置了七部摄像机来完全覆盖搜索区域224,这是至少部分由街道71和建筑物226所定义的停车场。
各摄像机可具有用于处理信息的专用标准个人计算机,其中一台个人计算机被指定为服务器,在其中可执行来自全部七部摄像机的图像像素数据的融合,下面将进一步描述。本领域的技术人员知道,可使用任何计算机设置,其中所有处理实际上由具有足够计算能力的单个或多个计算机系统来执行。
如图6所示,覆盖范围由定位于三个安装地点33、35和37的摄像机30来提供。为简洁起见,四部摄像机30设置在第一安装地点33,另一部摄像机30设置在安装地点35,以及另外两部摄像机30设置在第三安装地点37。通过如图6所示的视场70以及一部摄像机30相对另一部摄像机的视场70之间至少25%的重叠72,可以产生整个停车场224的图像。
再次参照图3,通过设置成像装置30以获得多个视场的图像像素数据,最好是融合图像像素数据(框104)。经融合的图像信息可与例如任何注释(例如与图像有关的信息、如获取图像的时间)一起显示在任何显示器上,使用户能够得到即时认识,而不会受到多个零散视场的干扰。图7的示意图表示了图像融合方法104的一个说明性实施例。
如图7所示,提供了多个重叠视场的图像像素数据(框230)。一般来说,对大搜索区域的监测只能通过协调使用多个摄像机成像装置来实现。希望对所有成像装置所覆盖的整个地理搜索区域上的人和车辆进行完全连续跟踪。为了产生搜索区域的单个图像,具有局部坐标系的各成像装置的视场必须被融合或者结合到总坐标系中。然后,可相对于总坐标系来登记运动对象的对象路径,与多个零散视场相对。
为了实现多个成像装置登记或融合(通常又称作校准),对第一对成像装置计算单应变换。此后,执行单应计算,把另一个成像装置的视场加入先前计算的单应变换中。这个过程利用相邻成像装置对的视场之间存在的重叠部分。此外,由于视场最好是经过设置,使得能够如上所述通过一个成像装置的视场指引到下一个成像装置的视场,等等,其它成像装置不断地以有序且有效的方式加入单应变换。
换句话说,对具有重叠部分的第一和第二成像装置计算第一单应变换矩阵。这产生第一和第二成像装置的总坐标系。此后,通过除对于第一和第二成像装置所计算的单应矩阵之外再利用第二和第三成像装置的视场重叠部分中的界标点来计算单应变换矩阵,与第二成像装置重叠的第三成像装置融合到第一和第二成像装置。它产生全部三个成像装置、即第一、第二和第三成像装置的单应变换,换句话说,产生全部三个成像装置的总坐标系。该过程继续进行,直至所有成像装置均被加入以获得所有成像装置的单个总坐标系。
标识一对成像装置的一对视场的重叠部分中的多个界标像素坐标(框232),用于计算成像装置的单应变换(框234)。当成像装置融合到一个或多个其它成像装置时,使用重叠部分的至少四个点的像素坐标(框234)。
重叠部分中的点是属于正计算其矩阵的两个成像装置的视场之间的重叠部分的物理地平面点的投影。在安装成像装置30的过程中选择这些点并在地面上作物理标记。此后,可由用户通过图形用户界面对相应的投影图像点进行抽样,使它们能够用于计算变换矩阵。
仅在光学设计28安装开始时才需要这个物理标记过程。完成了成像装置交叉登记之后,不需要重复这个步骤。
单应计算可由任何已知方法来执行。用于计算单应变换矩阵的一种方法是所谓的最小平方法,如L.Lee、R.Romano和G.Stein的“监测来自多个视频流的活动建立公共坐标系”[IEEE Transaction on PatternAnalysis and Machine Intelligence,vol.22,No.8,pp.758-767(2000)]中所述。但是,虽然这种方法可用,但它通常因有偏差的估算而对无定解等式系统提供无效的解。此外,当出现特殊情况时,它可能无法有效地适应一般单应计算。
如K.Kanatani的“具有可靠性量度的最佳单应计算”[Proceedingsof the IAPR Workshop on Machine Vision Applications,Makuhari,Chiba,Japan,pp.426-429(1998年11月)]中所述的一种算法用于计算单应矩阵。这种算法基于几何计算机视觉的统计优化理论,如K.Kanatani的“几何计算机视觉的统计优化理论和实践”[Elsevier Science,Amsterdam,Netherlands(1996)]中所述。这种算法看来似乎弥补了最小平方法所显示的不足。
Kanatani所述的算法的基本前提是外极(epipolar)约束可能因成像问题的统计性质而被各种噪声源所破坏。如图8的图解240所示,成像问题的统计性质影响外极约束。O1和O2是相应成像装置242和244的光心。P(X,Y,Z)是属于公共区域246的搜索区域、即成像装置对的两个视场之间的重叠部分中的一个点。理论上,向量 为共面的。但是,由于噪声成像过程,实际向量 可能不共面。由于单应变换计算是本领域已知的,因此简化了本文提供的信息。从R.Hartley和A.Zisserman的“计算机视觉中的多视场几何学”[Cambridge University Press,pp.69-112,(2000)]中可获得更多信息。
计算单应变换以便融合成像装置的所有FOV,如判定框236和循环框239所描述和表示的那样。如其中所示,如果还没有融合所有FOV,则应当融合其它的FOV(框239)。一旦全部FOV已经登记到其它FOV中,则单应变换矩阵用于把图像像素数据融合到总坐标系的单个图像中(框238)。
各种成像装置的图像像素数据的这种融合是可行的,因为单应变换矩阵完整地描述了相应成像装置对的一个视场的点和另一个视场的点之间的关系。这种融合也可称作成像装置的校准。
在总坐标系的坐标上提供各个视场的像素。在存在一组特定坐标的像素的情况下,平均技术用于提供这组特定坐标的像素值。例如,为视场的重叠部分分配像素值时,将使用这种平均法。最好是在该系统中使用可比拟的摄像机,使得来自各摄像机的重叠部分的一组特定坐标的像素值类似。
再参照图3,对多个视场融合图像像素数据之后(框104),执行搜索区域中的运动对象的分割(框106),例如从背景信息中分割前景信息。可使用各种运动对象分割器中的任一种。但是,如以下进一步说明所述,首选采用图像的各像素的多个时变正态分布的方法。
可用于相对静止摄像机的运动对象分割的两种传统方法包括时间差分,如C.H.Anderson、P.J.Burt和G.S.Van Der Wal的“利用锥形变换技术的变化检测和跟踪”[Proceedings of SPIE-the InternationalSociety for Optical Engineering,Cambridge,MA,vol.579,pp.72-78,(1985年9月16-20日)]所述;以及背景减法,如I.Haritaoglu、D.Harwood和L.S.Davis的“W/sup 4/s21/2d中检测和跟踪人的实时系统”[Proceedings 5th European Conference on Computer Vision,Freiburg,Germany,vol.1,pp.877-892(1998年6月2-6日)]所述。时间差分非常适合动态环境,但可能不能充分胜任提取所有相干对象像素的工作。背景减法提供最完整的对象数据,但对于因照明和外部事件而产生的动态画面变化极为敏感。
其它自适应背景处理方法在T.Kanade、R.T.Collins、A.J.Lipton、P.Burt和L.Wixson的“多传感器协作视频监视的发展”[ProceedingsDARPA Image Understanding Workshop,Monterey,CA,pp.3-24(1998年11月)]中进行了描述,能够更好地应付环境变化因素。但是,它们可能仍然不足以处理双模态背景,并且在具有许多移动对象的场景中存在问题。
Stauffer等人已经描述了一种基于像素级的正态表示混合的更先进的对象检测方法。这种方法具备好得多的适应性,并且能够处理双模态背景(例如摇摆树枝)。该方法提供一种强大的表示方案。各像素的正态混合的各正态反映了同一个画面点的样值可能显示高斯噪声分布的预计。正态的混合反映了可能随时间观察到一个以上过程的预计。此外,A.Elgammal、D.Harwood和L.Davis的“背景减法的非参数模型”[Proceedings IEEE FRAME-RATE Workshop,Corfu,Greece,www.eecs.Jehigh.edu/FRAME(2000年9月)]提出正态混合模型的概括,其中通过正态核函数实现密度估算。
一般来说,正态混合范例在复杂的户外条件中产生适当的结果。它是根据本发明的优选运动对象分割器的基本算法。可按照如Stauffer等人所述的方式或者最好是按照本文所述修改后的方式根据本发明的一个或多个实施例来使用这个方法。
如上所述,与Stauffer等人所述相似的分割过程106最好是根据本发明来使用。但是,根据Stauffer的过程被修改,在下面进一步描述中,将具体参照图12A和图12B进行它们之间的比较。
一般来说,如图9的流程图和图10的框图所示的分割过程106包括初始化阶段250,它用于提供对应于搜索区域的像素的统计值。此后,输入的更新像素值数据被接收(框256),并用于分割过程106的更新周期阶段258。
如图9和图10所表示和描述的那样,初始化阶段250的目的是在统计上提供对应于该画面的像素的有效值。然后,这些值用作前景和背景认识的动态过程的起始点。初始化阶段250只出现一次,并且不需要实时执行。在初始化阶段250,对搜索区域的多个像素提供一定帧数N(例如N=70)的像素值数据(框251),并进行联机或脱机处理。
如图10中举例说明的,至少根据像素值数据为搜索区域的各像素提供多个时变正态分布264(框252)。例如,各像素x被视为五个时变三变元正态分布的混合(但是可使用任何数量的分布)x~Σi=15πiN3(μi,Σi),]]>其中πi≥0,i=1,...,5以及Σi=15πi=1]]>是混合比例(加权值),而N3(μ,∑)表示具有向量平均值μ和方差-协方差矩阵∑的三变元正态分布。这些分布是三变元的,以便说明在彩色摄像机的一般情况下各像素的三元色(红、绿、蓝)。请注意x=xRxGxB]]>其中xR、xG和xB表示从摄像机的红、绿、蓝通道接收的特定像素的测量值。
为简便起见,方差-协方差矩阵假定是对角的,其中xR、xG和xB在各个正态分量内具有相同的方差,但在全部分量之间不是这样(即,对于k≠1分量,σk2≠σ12)。因此,x~Σi=15πiN3[μiBμiGμiB,σi2I]]]>最初根据时变正态分布表示搜索区域中的背景或前景的可能性对各像素的多个时变正态分布进行排序。多个时变正态分布264其中的每个被标记为前景或背景。图12A中一般地说明这种排序以及标记为背景280或前景282分布的处理,在下文中结合更新周期阶段258进一步描述。
文献中所报导的其它可用方法随机地或者通过K平均值算法对像素分布进行初始化。但是,随机初始化可能导致动态混合模型更新阶段中的缓慢学习,并且可能不稳定。如A.P.Dempster、N.M.Laird和D.B.Rubin的“来自经由EM算法的不完整数据的最大似然性(讨论)”[Journal of the Royal Statistical Society B,vol.39,pp.1-38(1977)]所述的通过K平均值或期望值-最大化(EM)方法进行的初始化提供了较好的结果。EM算法是计算密集的,使初始化过程脱机大约1分钟。在人和车辆通行量较小的上面举例说明的停车场应用中,较短的脱机间隔不成问题。如果天气条件是动态的(例如快速移动的云),则可更好地执行EM初始化算法,但是,如果受监视区域是繁忙的广场(许多移动的人和车辆),则联机K平均值初始化则更可取。
在初始化阶段250之后,动态更新各像素的初始混合模型。更新机制基于更新图像数据或输入迹象(例如提供更新像素值数据的新摄像机帧)的提供(框256)。分割过程的若干分量在更新周期阶段258的更新周期中可以改变或更新。例如,一部分分布的形式可改变(例如改变加权值πi,改变平均值μi,和/或改变方差σi2)。一些前景状态可回复到背景,反之亦然。此外,例如,现有分布之一可被丢弃或由新的分布取代。
在时间上的每一点,具有最强迹象的分布被视为表示像素的最可能的背景状态。图11给出正态混合模型的可视化,而图10描述混合模型的更新机制。为简洁起见,图11表示在多个时间(t0-t2)只有一种色彩的正态分布264。如图所示,对于图像266、268、270中的像素263,具有较强迹象的分布、即分布271表示夜间图像266中以及日间图像268中作为街道的像素。但是,当像素263表示正移动汽车267时,如图像270所示,则像素263由更弱的分布273表示。
又如图9所示,各像素的更新周期258按照以下步骤进行,并且包括确定该像素是背景还是前景(框260)。首先,算法至少根据像素的更新像素值数据来更新各像素的时变正态分布的混合及其参数(框257)。更新的性质可取决于匹配操作的输出和/或像素值数据。
例如,可对更新像素值产生窄分布,并且可执行把该窄分布与相应像素的所有多个时变正态分布其中的每个进行匹配的尝试。如果找到匹配,则可采用下面将进一步描述的矩量法进行更新。此外,例如,如果没有找到匹配,则最弱的分布可由新分布取代。更新过程中这种取代可用于保证把新分布包含在前景集合中,下面将进一步描述。
此后,各像素的已更新的多个正态分布根据其指明该分布是前景或者背景像素数据的可能性的加权值、例如按降序重新排序和标记(框259)。然后,根据已排序和标记的更新分布(框260),例如,已更新的匹配分布(例如由表示相应更新像素值的窄分布匹配的分布)标记为前景还是背景,已更新的分布是否包括表示前景的新分布(例如因缺少匹配而产生的新分布)等等,相应像素的状态可作为前景或者背景状态。
在更新周期的排序过程(框259)的一个实施例中,排序算法根据分配给多个正态分布的加权值对其进行排序。例如,排序算法选择多个时变正态分布中说明迹象T的预定分数的前B个分布B=argbmin{Σi=1bwi>T}]]>其中wi(i=1,...,b)表示分布加权值。这B个分布被视为、即标记为背景分布,其余5-B个分布则被视为、即标记为前景分布。例如,已排序的分布254如图12A所示。分布280是背景分布,而分布282则是前景分布。
换句话说,在更新周期阶段258的更新周期中,通过在更新周期中为搜索区域的各像素接收更新像素值数据,根据考虑了相应像素的更新像素值的已更新和重新排序的多个时变正态分布来确定这些像素是背景还是前景。例如,该算法最好是检查正被评估的像素的输入像素值是否可归于、即匹配现有正态分布其中的任一个。例如,所用的匹配标准可以是下面将进一步描述的Jeffreys(J)发散度。对各像素执行这种估计。此后,算法更新各像素的时变正态分布的混合及其参数,并对已更新的时变正态分布的混合重新排序和标记。然后,该像素根据重新排序和标记的混合作为前景状态或背景状态。
图13进一步表示了更新周期阶段258的一个实施例。在更新周期中为表示搜索区域的多个像素其中的每个接收更新像素值数据(框300)。为表示更新像素值的各像素创建一个分布、如窄分布(框302)。
此后,计算表示某个像素的更新像素值的窄分布与相应像素的所有多个时变正态分布其中的每个之间的发散度(框304)。以取决于以下参照图14进一步描述的匹配操作的方式来更新相应像素的多个时变正态分布(框305)。例如,已经计算了窄分布与相应像素的所有多个时变正态分布其中每个之间的所有发散度之后,执行匹配操作,找出相对窄分布具有最小发散度的时变正态分布。
然后,相应像素已更新的多个时变正态分布被重新排序和标记(框306),如以上参照框259所述。相应像素的状态根据已重新排序和标记的更新分布作为前景或背景状态(框307),如以上参照框260所述。
按照如判定框308一般表示的上述方式来处理各个所需像素。已经处理全部像素之后,背景和/或前景可向用户显示(框310)或者如本文进一步所述的那样用于例如跟踪、威胁评估等。
可对各像素按照以下各部分中参照图12A-12B和图14所述的以下方式来实现图13中一般表示的更新框305的匹配操作以及更新周期阶段258的其它部分。
匹配操作该过程包括尝试把表示像素的更新像素值的窄分布与正被估计的像素的所有多个时变正态分布其中的每个相匹配(框301)。最好是用如H.Jeffreys的“概率论”(University Press,Oxford,U.K.,1948)中论述的Jeffreys发散度J(f,g)来确定输入数据点是否属于(即匹配)现有的五个分布其中之一。
Jeffreys值衡量一个分布(g)、如表示更新像素值的窄分布从另一个分布(f)、如多个时变正态分布之一所表示的全体中导出的不可能性。在J.Lin的“基于香农熵的发散度”[IEEE Transactions on InformationTheory,vol.37,no.1,pp.145-151(1991)]中描述了Jeffreys发散度的理论特性,为简洁起见,本文不作详细描述。
根据一个实施例,采用五个现有的正态分布fi~N3(μi,σi2I),i=1,...,5。但是,如上所述,多于或少于五个也是适合的。由于J(f,g)涉及分布但不涉及数据点,因此输入数据点281必须与分布284、例如以上所述且如图12A所表示的窄分布相关联。输入分布构建为g~N3(μg,σg2I)。假定μg=xt以及σg2=25,]]>其中xt是输入数据点。σg2=25]]>的选择是与小时间窗口中的连续像素值的典型扩展有关的实验观察的结果。g和fi(i=1,...,5)之间的五个发散度通过下式计算J(fi,g)=32(σiσg-σgσi)2+12(1σi2+1σg2)(μg-μi)′(μg-μi)]]>已经计算了五个发散量之后,能够找出分布fj(1≤j≤5),其中J(fj,g)=min{J(fi,g)}1≤i≤5]]>如果且只有下式成立,则出现fj和g之间的匹配J(fj,g) ≤K*,其中K*是预定边界值。在J(fj,g)>K*的情况下,输入分布g不会匹配任何现有分布。
特别要注意,相异性是针对全部可用分布来测量的。类似于Stauffer等人的其它方式针对某种顺序的现有分布来测量相异性。根据满足某种条件的程度,Staffer等人的过程在取出和比较全部五个测量值之前可能停止,这在某些条件下、例如在不同类型的气候下可能削弱分割器的性能。
根据以上所述,确定窄分布(g)是否匹配像素的多个时变正态分布其中之一(框303)。
找到匹配时执行的过程如果输入分布与现有分布之一匹配,则采用以下所述的矩量法,通过合并输入分布和所匹配的现有分布以形成新的合并正态分布来更新多个正态分布(框305A)。包括新合并分布的多个时变正态分布被重新排序和标记为前景或背景分布(框306A),如本文中以上参照框259所述。合并分布被视为表示正被估计的像素的当前状态,因此根据合并分布在分布重新排序列表中的位置,像素的状态表现为背景或前景(框307A)。
例如,如图12A所示,假定窄分布284匹配某个分布,并且在多个时变正态分布的更新以及随后的重新排序/标记过程之后,如果从该匹配所产生的合并分布为分布280,则点281所表示的输入像素被标记为背景。同样,如果从匹配所产生的合并分布为分布282,则点281所表示的输入像素被标记为前景、例如可能表示运动对象。
在一个实施例中,采用矩量法更新正态分布的混合的参数,例如产生新的合并分布(框305A)。首先,引入某个学习参数α,它增加现有分布的加权值。因此,从五个现有加权值中减去100α%加权值,并且把100α%加到输入分布(即窄分布)的加权值上。换句话说,输入分布具有加权值α,因为Σi=15απi=αΣi=15πi=α]]>而且五个现有分布具有加权值πi(1-α),i=1,...,5。
显然,α的范围为0<α<1。α的选择主要取决于K*的选择。这两个量呈相反关系。K*的值越小,则α的值越大,反之亦然。K*和α的值还受到监测区域内的噪声量的影响。因此,例如,如果正在监测外部区域,并且因环境条件(即下雨、降雪等)而存在许多噪声,则需要“大”的K*值以及“小”的α值,因为无法匹配分布之一的情况极可能是因背景噪声而引起的。另一方面,如果正在监测几乎没有噪声的室内区域,则最好是需要“小”的K*值和“较大”的α值,因为任何时候都没有与现有的五个分布之一相匹配,由于某个前景移动而极可能出现不匹配(因为背景几乎没有任何噪声)。
如果在新分布g和现有分布fj(其中1≤j≤5)之一之间出现匹配,则按照以下方式更新混合模型的加权值πi,t(1-α)πi,t-1i=1,...,5 且i≠jπj,t=(1-α)πj,t-1+α另外还更新平均向量及其方差。如果w1为(1-α)πj,t-1(即w1为合并匹配分布与新分布g之前得到匹配的第j个分量的加权值),并且如果合并分布的加权值W2=α,则因子(ρ)可定义为ρ=W2W1+W2=α(1-α)πj,t-1+α]]>
利用矩量法,如G.J.McLachlan和K.E.Basford的“混合模型推论及对聚类的应用”[Marcel Dekker,New York,NY(1988)]所述,得出以下结果μj,t=(1-ρ)μj,t-1+ρμgσ2j,t,=(1-ρ)σ2j,t-1+ρσ2g+ρ(1-ρ)(xt-μj,t-1)′(xt-μj,t-1)同时另外四个(不匹配)分布保持它们在时间t-1上同样的平均值和方差。
未找到匹配时执行的过程没有找到匹配时(即min1≤i≤5K(fi,g)>K*),通过根据更新像素值采用新分布替换已排序列表中的最后分布(即最代表前景状态的分布)来更新多个正态分布(框305B),这保证该像素表现为前景状态(例如分配给分布的加权值使其必须为前景)。通过表示前景的新分布对包含新分布的多个时变正态分布重新排序和标记(框306B)(例如以上在本文中参照框259所述),而且该像素的状态表现为前景状态(框307B)。
替换已排序列表的最后分布的新分布的参数按照如下方式计算。采用输入像素值来替换平均向量μ5。采用来自分布列表的最小方差来替换方差σ52。因而,新分布的加权值可按照下式计算W5,t+1=1-T2]]>其中T是背景阈指数。这种计算保证当前像素状态分类为前景。其余四个分布的加权值按照下式进行更新Wi,t+1=Wi,t+W5,t-(1-T)/24]]>至少部分地采用上述匹配方法,因为Stauffer等人所报导的正态混合模型所实现的方法在许多环境下仍然不够,例如在户外因湖面和微风所增加的蒸发作用而形成块云的环境下进行监测时;这些各种密度的小块云以高频率迅速通过摄像机的视场。
在Stauffer等人的论文中,如图12B所示,混合模型的分布始终按照w/σ保持为降序,其中w为加权值,以及σ为各分布的方差。然后,输入像素对照已排序分布依次在列表中由上至下(见箭头283)进行匹配。如果发现输入像素值在某个分布的2.5标准偏差之内,则表明匹配,且该过程终止。
但是,例如,这种方法至少在以下情况中是有缺陷的(例如错误识别像素)。如果输入像素值更可能属于例如分布4但仍然满足在队列中较靠前的某个分布(例如2)的2.5标准偏差的标准,则过程在其达到正确分布之前终止,并且过早宣布匹配(参见图12B)。匹配之后接着是不正当地支持错误分布的模型更新。这些累积误差在一定时间之后会影响系统的性能。如果一个分布(例如2)正好是背景而另一个(例如4)是前景,则它们甚至具有直接和严重的影响。
例如,通过快速移动的云使上述情况发生运动。在Stauffer等人的论文中,当新分布引入系统时,它以输入像素值281为中心,并被给予初始较高的方差和较小的加权值。当更多迹象累积时,分布的方差下降,其加权值提高。因此,该分布在分布排序列表中提前。
但是,由于气候模式极为活跃,因此分布的方差继续保持较高,因为支持迹象以高频率切换。这产生具有较为扩展的分布的混合模型。如果某种色彩的对象这时正好在画面中移动,则它产生或多或少可能与队列顶部的分布相匹配、因而被视为背景的输入像素值。由于移动的云朵影响大范围的摄像机视场,因此后处理技术一般无法解决这些缺陷。
相反,上述根据本发明的优选分割方法不尝试在排序的分布列表中自上而下地匹配输入像素值。而是,该方法创建表示输入数据点281的窄分布284。然后,它通过找出输入窄分布284和混合模型的“全部”分布280、282之间的最小发散值来尝试匹配分布。通过这种方法,输入数据点281更有可能与正确的分布进行匹配。
另外,参照图3,如上所述,统计过程用于执行前景像素从背景中的联机分割;前景可能对应于受关注的运动对象、例如人和车辆(框106)。进行分割之后,跟踪受关注的运动对象(框108)。换句话说,采用例如图15中说明性表示的跟踪方法来形成由受监测搜索区域中检测到的一个或多个运动对象所描述的轨迹或对象路径。
虽然可使用其它适当的跟踪方法,但所述跟踪方法最好是包括计算斑点(即相连像素的分组)、例如彼此相邻的前景像素的分组,或者是计算其也许对应也许不对应前景对象的斑点质心(框140),用于提供搜索区域中所检测的运动对象的对象轨迹或对象路径。这些斑点质心可在把相连分量分析算法应用于从图像数据的背景中分割的前景图像之后形成。
例如,可使用标准的8相连分量分析算法。相连分量算法筛选出斑点、即相连像素的分组,它们的面积小于一定的像素数目。执行这种过滤,因为区域中少量的这些像素一般表示与前景对象相对的噪声。例如,相连分量算法可筛选出面积小于α=3×9=27个像素的斑点。例如,27个像素可能是成像装置的视场中受关注的最小对象的最小像素轨迹,例如,27个像素可能是人的足迹。
斑点、如像素分组标识为表示搜索区域中的前景对象之后,提供一种算法,用于把多帧中标识为前景对象的斑点质心分到不同的轨迹或对象路径中。最好是采用多假设跟踪(MHT)算法141来执行把表示前景对象的已标识斑点质心划分为不同轨迹的操作。
虽然MHT被视为多目标跟踪应用的优选方法,但也可使用其它方法。MHT是递归贝叶斯概率过程,它使把输入数据与轨迹正确关联的概率最大。它优于其它跟踪算法,因为它不会在早期就交给特定的轨迹。这种在早期交给某个路径或轨迹可能导致出错。MHT仅在已经收集和处理足够信息之后才把输入数据分到各轨迹中。
在这种环境中,MHT形成与输入数据、如表示前景对象的已标识斑点和现有轨迹、如采用先前的数据帧所建立的对象路径的关联有关的多个候选假设(框144)。MHT尤其适用于具有极杂乱且交通密集的应用。在具有交叉轨迹的困难的多目标跟踪问题上,MHT有效地执行,与S.S.Blackman的“具有雷达应用的多目标跟踪”[Artech House,Norwood,MA(1986)]中论述的诸如最近邻域(NN)相关和结合概率数据关联(JPDA)之类的其它跟踪过程相反。
图15描述根据本发明、用于跟踪运动对象的MHT算法141的体系结构的一个实施例。任何跟踪系统的主要部分为预测模块(框148)。预测提供对运动对象状态的估算,最好是以卡尔曼滤波器的方式来实现。根据目标动态和测量噪声的先验模型来进行卡尔曼滤波器预测。
验证(框142)是在产生与输入数据(例如斑点质心)和当前轨迹集合(例如基于先前图像数据的轨迹)之间关联有关的假设(框144)之前的过程。验证(框142)的功能是在早期排除不可能出现的关联,从而限制要产生的可能假设的数量。
MHT算法141的实现的中心是轨迹假设的产生和表示(框144)。根据新的测量值、如已标识斑点可以是以下情况的假定来产生轨迹、即对象路径(1)属于现有的轨迹,(2)为新轨迹的开始,(3)为错误告警或者错误标识为前景对象。在结合到假设结构之前,通过验证过程(框142)验证假设。
例如,轨迹假设的全集可由图16的表150所示的假设矩阵来表示。该表中所表示的假设情况对应于分别在帧k=1和k+1=2上进行的一组2和1测量值的两个扫描。
与该表有关的符号可说明如下。测量值zj(k)是对帧k进行的第j个观察(例如斑点质心)。另外,错误告警由0表示,从旧轨迹(ToldID)所产生的新轨迹(TnewID)的信息表示为TnewID(ToldID)。该表中的第一列是假设索引。
在这种示范情况下,在扫描1期间产生总共4个假设,以及在扫描2期间产生另外8个假设。最后一列给出了特定假设包含的轨迹(例如假设H8包含轨迹第1号和第4号)。假设表中的行单元表示特定测量值zj(k)所属的轨迹(例如在假设H10下测量值z1(2)属于轨迹第5号)。
假设矩阵在计算上通过树结构152来表示,如图17中的示意表示。树152的分支实质上是有关测量值和轨迹关联的假设。从以上示范情况中清楚地看到,图17的假设树152会随测量值的数量而呈指数增长。
不同的措施可用于减少假设的数量。例如,第一种措施把假设分为不相交集,例如D.B.Reid的“跟踪多个目标的算法”[IEEETransactions on Automatic Control,vol.24,pp.843-854(1979)]中所述。在这个意义上,不争用相同测量值的轨迹构成又与不相交假设树关联的不相交集。第二种措施是分配关于假设树的每个分支的概率。仅考虑具有Nhypo最大概率的分支集。在I.J.Cox和S.L.Hingorani的“用于可视跟踪的里德的多假设跟踪算法及其估算的有效实现”[IEEETransactions on Pattern Analysis and Machine Intelligence,vol.18,no.2,pp.138-150(1996)]中描述了MHT算法的其它各种实现。
通过提供对象轨迹、即路线,利用计算机视觉系统22,可提供如图2所示的评估模块24来处理这种计算机视觉信息以及确定运动对象是正常还是异常、例如危险还是不危险。在将对象轨迹的像素坐标转换成搜索区域的CAD绘图所建立的现实世界坐标系之后,可利用评估模块24执行评估分析。因此,可利用搜索区域中众所周知的界标来提供用于估计运动对象的意图的内容。例如,用于停车场的这些界标可包括各停车位、停车场周长、电线杆以及林木线。这种坐标变换可通过采用光学计算包、如可从Optical Research Associate(Pasadena,CA)购买的CODE V软件应用程序来实现。但是,执行评估分析的其它应用可能不要求这种设置。
在如图2所示的一个实施例中,评估模块24包括特征组合模块42和分类级48。评估模块24最好是用于实现如图18所示的评估方法160。
如上所述,最好是在运动对象的轨迹转换为搜索区域的坐标系、例如包含界标的搜索区域图之后(框162)使用评估方法160。此外,为分类级48提供表示正常和/或异常运动对象的预定义特征模块57(框164)。分类级48、例如危险分类级包括正常特征模块58和异常特征模块59。
本文所用的特征模块可以是正常或异常对象路径的任何特征或者与其相关的信息。例如,如果没有任何飞机要在受监测的领空中飞行,则某个飞机位于领空中的任何指示可视为异常,例如斑点的检测在领空中可能是异常的。此外,例如,如果一段时间内在停车场中不会检测到斑点,则在这个静态范围内的某个时间上斑点的检测可能是特征模型。可以清楚地认识到,特征模型的列表数量太多,难以列出和包含危险和/或不危险特征模型,但可包含其它各种特征模型,例如计算通过特定位置的对象数量的特征模型、如计算通过雕像且停步观看一段时间的人数。
评估模块24的特征组合模块42提供诸如特征43之类的对象路径信息,它可包括例如表示对象路径的轨迹信息、所收集的关于对象路径的信息(例如诸如获取时间之类的其它数据)、或者利用计算机视觉模块32所提供的轨迹信息来计算或收集的信息、例如基于对象的诸如对象路径长度(例如、以车辆/行人为基础)的相关高级特征(框166)。换句话说,对象路径数据、如特征可包括但显然不限于运动对象轨迹信息、关于对象路径所收集的其它信息、利用对象路径信息计算的计算特征、或者任何其它参数、特性或与扫描区域及其中的运动对象有关的相干信息。
计算的特征可指定为捕捉与正常或异常运动对象有关的常识看法。例如,对于危险或不危险情况的确定,把特征设计为捕捉与无害的守法轨迹和已知的或可疑的入侵模式有关的常识看法。
在一个实施例中,诸如停车场之类的搜索区域或者将执行危险事件(例如窃贼)评估的其它搜索区域的计算特征可包括例如-抽样点的数量-起始位置(x,y)-结束位置(x,y)-路径长度
-覆盖距离(直线)-距离比率(路径长度/覆盖距离)-起始时间(本地挂钟)-结束时间(本地挂钟)-持续时间-平均速度-最大速度-速度比率(平均值/最大值)-总转角(弧度)-平均转角-“M”穿越的数量大部分特征是一目了然的,但少数可能不太明显。挂钟是相关的,因为某些对象路径的活动在某些时刻、例如深夜和清晨是自动受到怀疑的。
转角和距离比率特征捕捉所沿路径的迂回程度的一些方面。例如,停车场等设施的合法用户倾向于按照通道所允许的最直接路径(例如图20B表示了一条直接路径)行进。相反,“浏览者”可能采取更曲折的路线。图20B表示一种非危险情况410,其中所示的停车场412具有正被跟踪的非危险车辆路径418。
“M”穿越特征尝试监测众所周知的盗车倾向,以便系统地检查某个车道的多个停车位,重复返回到车门进行仔细查看或者检查车锁(例如两个循环产生字母“M”形)。这可通过保持停车位的参考线并计算穿越停车位的次数来监测。如图20A所示,捕捉“M”类型行人穿越。图20A具体表示一种危险情况400,其中所示的停车场402具有危险人物路径404。
例如通过把所提供的这些特征(例如与对象轨迹相关的特征)与表示分类器级中的正常和异常运动对象的特征的预定义特征模型57进行比较,对其进行估计(框168)。然后,根据由特征组合模块42对一个或多个对象路径所计算的特征43和分类级48中可存取(例如存储)的预定义特征模块57之间的比较,确定运动对象是正常还是异常(框170)。此外,例如,如果对象路径被标识为危险,则告警60可提供给用户。可使用任何类型的告警,例如无声、音响、视频等等。
除了以常识和例如由用户通过图形用户界面所定义的已知正常和异常特征为特征的预定义特征模型57之外,还提供了用于提供其它特征模型的训练模块44。训练模块44可联机或脱机使用。
一般来说,训练模块44为一段时间中对特定搜索区域记录的对象路径接收特征组合模块42的输出。这些特征、例如对象路径轨迹及其包含与对象路径有关的已计算信息的相关信息(在附图中共同称作标记情况)可采用数据库结构来收集和/或组织。然后,训练模块44用来根据可能用于分类级48中的这些数据库特征来产生一个或多个正常和/或异常特征模型。
参照图19描述这种训练模块44及其相关的过程的一个说明性实施例。一般来说,训练过程350通过特征模型开发模块54提供聚类算法52,它帮助产生对象行为、例如所定义的特征模型的更清晰描述。例如,用于训练过程的训练数据包括但显然不限于标记轨迹50和相应的特征向量。这些数据可通过分类树归纳算法、例如基于W.Buntine的“学习分类树”[Statistics and Computing,vol.2,No.2,pp.63-73(1992)]的一种算法来共同处理。
更具体地说,如参照图19所述,要求表示随时间推移的一个或多个运动对象的对象路径以及与这些对象路径相关的计算特征(框352)。例如,要求若干周、月等期间的这些对象路径及其相关的计算特征。
对象路径及相关的计算特征根据这种信息的某些特性来分组(框354)。这些对象轨迹分组为聚类。例如,具有特定等级的迂回的对象路径可分组为一个聚类,长度大于预定长度的对象路径可分组为一个聚类。换句话说,具有基于某些特性的共性的对象路径分成同一组(框354)。
然后,分析这些聚类以确定它们是较大的聚类还是较小的聚类。换句话说,根据其中的对象轨迹的数量,这些聚类被排序和判断为大或小。一般来说,与小聚类相比,大聚类具有分到其中的极大量的对象轨迹,并且可标识为较正常对象轨迹(框358)。换句话说,如果运动对象在一段特定时间中一般多次采取相同的路径,则与这些运动对象对应的对象路径一般是正常路径,例如表示不危险运动对象的对象路径。与其相关的对象路径或特征则可用作预定义特征模型的一部分,以便稍后例如在威胁分类级中把对象轨迹识别为正常或异常(框360)。换句话说,可根据大聚类定义新特征模型以包含在分类级48中。
必须分析可包含单个对象轨迹的对象路径的较小聚类(框362)。这种分析可由经由图形用户界面查看对象路径的系统用户来执行,从而人为判断较小聚类的对象轨迹或单个对象轨迹是否异常、如危险(框364)。
如果小聚类的对象轨迹异常,则该特征可用作预定义特征模型的一部分来用于识别异常的对象路径,例如用作分类级48中的特征模型(框366)。但是,如果对象路径被判断为正常事件,而与这种对象路径的其它事件或者这些对象路径中极少数不一致,则可忽略正在分析的对象路径(框368)。
聚类方法可用于识别运动对象的正常与异常对象轨迹,与如何产生这些对象轨迹无关。例如,如图2所示,这些对象轨迹由接收来自多个成像装置30的信息的计算机视觉模块32来提供。但是,雷达系统所产生的对象轨迹也可采用评估模块24和/或对于训练模块44所述的聚类分析工具来评估和分析。
本文所引用的全部参考文献完整地结合于本文中,好象每一个被单独结合一样。已经参照说明性实施例对本发明进行了描述,但并不意味着限定。通过参照本说明,本领域的技术人员十分清楚本发明的说明性实施例的各种修改以及本发明的其它实施例。
权利要求
1.一种用于监测搜索区域的方法,所述方法包括提供表示搜索区域的各帧图像数据,所述图像数据包括多个像素的像素值数据;根据所述像素值数据为各个像素提供多个时变分布;在更新周期中提供至少一帧表示所述搜索区域的更新图像数据,该帧图像数据包括所述多个像素其中每个的更新像素值数据;以及尝试把各像素的所述更新像素值数据与为所述像素提供的所有所述多个时变分布其中的每个进行匹配;根据所述更新像素值数据是否与为所述像素提供的所述多个时变分布其中之一匹配来更新各像素的所述多个时变分布;以及根据各像素的所述时变分布表示所述搜索区域中的背景或前景信息的概率对各像素的所述更新的多个时变分布进行排序,用于确定所述像素被视为背景还是前景信息。
2.如权利要求1所述的方法,其特征在于,把各像素的所述更新像素值数据与为所述像素提供的所有所述多个时变分布其中的每个进行匹配的尝试包括提供所述像素的窄分布;以及把所述窄分布与为所述像素提供的所有所述多个时变分布其中的每个进行比较。
3.如权利要求2所述的方法,其特征在于,把所述窄分布与为所述像素提供的所有所述多个时变分布其中的每个进行比较包括计算为所述像素创建的所述窄分布与为所述像素提供的所有所述多个时变分布其中的每个之间的发散度。
4.如权利要求2所述的方法,其特征在于,如果所述窄分布与所述多个时变分布其中之一匹配,则更新各像素的所述多个时变分布包括根据所述窄分布和所匹配的分布来产生合并分布,以及对所述更新的多个时变分布进行排序包括根据所述合并分布在所述更新的多个时变分布的顺序中的位置来确定所述像素是表示所述搜索区域中的背景还是前景信息。
5.如权利要求2所述的方法,其特征在于,如果所述窄分布不与所述多个时变分布之一匹配,则更新各像素的所述多个时变分布包括采用新分布替代所述多个时变分布之一,以及对所述更新的多个时变分布进行排序包括确保新分布表示所述搜索区域中的前景信息。
6.如权利要求1所述的方法,其特征在于,对各像素的所述更新的多个时变分布进行排序是根据与所述多个时变分布关联的加权值。
7.如权利要求1所述的方法,其特征在于,所述前景信息的至少一部分对应于一个或多个运动对象,以及所述方法还包括跟踪所述搜索区域中的一个或多个运动对象以确定所述一个或多个运动对象的对象路径。
8.如权利要求7所述的方法,其特征在于,跟踪所述搜索区域中的所述一个或多个运动对象包括根据表示前景信息的像素来计算斑点;以及筛选出具有小于预定像素面积大小的斑点。
9.如权利要求8所述的方法,其特征在于,所述方法还包括把斑点分组到表示一个或多个运动对象的对象路径中。
10.如权利要求9所述的方法,其特征在于,把所述斑点分组到对象路径中包括采用多假设跟踪算法把所述斑点分组到对象路径中。
11.如权利要求7所述的方法,其特征在于,所述方法还包括根据与正常或异常事件关联的一个或多个特性来提供一个或多个定义的正常和/或异常对象路径特征模型;以及把所述一个或多个对象路径与所述一个或多个所定义的正常和/或异常对象路径特征模型进行比较,从而确定所述一个或多个对象路径是正常还是异常。
12.如权利要求11所述的方法,其特征在于,提供一个或多个所定义的正常和/或异常对象路径特征模型包括根据与危险事件关联的一个或多个特性来提供一个或多个所定义的危险和/或不危险对象路径特征模型;以及把所述一个或多个对象路径与所述一个或多个所定义的正常和/或异常对象路径特征模型进行比较包括把至少所述一个或多个对象路径或者与其关联的数据与所述一个或多个所定义的危险和/或不危险对象路径特征模型进行比较,从而确定所述一个或多个对象路径是否看起来指明出现危险事件。
13.如权利要求1所述的方法,其特征在于,所述方法还包括放置多个成像装置以覆盖整个定义的搜索区域,其中各成像装置的各视场包括与另一成像装置的至少一个其它视场重叠的视场部分,其中重叠的所述视场部分大于所述成像装置的所述视场的大约25%而小于所述视场的大约85%。
14.一种用于监测搜索区域的系统,所述系统包括一个或多个成像装置,可用于提供表示所述搜索区域的各帧图像数据,所述图像数据包括多个像素的像素值数据,其中所述这些帧的图像数据在更新周期中包括表示所述搜索区域的至少一帧更新图像数据,所述这帧更新图像数据包括所述多个像素其中每个的更新像素值数据;以及计算机设备,可用于尝试把各像素的所述更新像素值数据与为所述像素提供的所有所述多个时变分布其中的每个进行匹配;根据所述更新像素值数据是否与为所述像素提供的所述多个时变分布其中之一匹配来更新各像素的所述多个时变分布;以及根据各像素的所述时变分布表示所述搜索区域中的背景或前景信息的概率对各像素的所述更新的多个时变分布进行排序,用于确定所述像素被视为背景还是前景信息。
15.如权利要求14所述的系统,其特征在于,所述计算机设备针对各像素还可用于提供所述像素的窄分布;以及把所述窄分布与为所述像素提供的所有所述多个时变分布其中的每个进行比较。
16.如权利要求15所述的系统,其特征在于,所述计算机设备针对各像素还可用于计算为所述像素提供的所述窄分布与为所述像素提供的所有所述多个时变分布其中的每个之间的发散度。
17.如权利要求15所述的系统,其特征在于,所述计算机设备针对各像素还可用于如果所述窄分布与所述多个时变分布其中之一匹配,则通过根据所述窄分布和匹配分布产生合并分布来更新所述多个时变分布;以及根据所述合并分布在所述更新的多个时变分布的顺序中的位置,确定所述像素是表示搜索区域中的背景还是前景信息。
18.如权利要求15所述的系统,其特征在于,所述计算机设备针对各像素还可用于如果所述窄分布不与所述多个时变分布之一匹配,则通过采用新分布替代所述多个时变分布之一来更新所述多个时变分布;以及确保所述新分布表示所述搜索区域中的前景信息。
19.如权利要求14所述的系统,其特征在于,所述计算机设备还可用于根据与所述多个时变分布关联的加权值对各像素的所述更新的多个时变分布进行排序。
20.如权利要求14所述的系统,其特征在于,所述前景信息的至少一部分对应于一个或多个运动对象,以及所述计算机设备还可用于跟踪所述搜索区域中的一个或多个运动对象以确定所述一个或多个运动对象的对象路径。
21.如权利要求20所述的系统,其特征在于,所述计算机设备还可用于根据表示前景信息的像素来计算斑点;以及筛选出具有小于预定像素面积大小的斑点。
22.如权利要求21所述的系统,其特征在于,所述计算机设备还可用于把所述斑点分组到表示一个或多个运动对象的对象路径中。
23.如权利要求22所述的系统,其特征在于,所述计算机设备还可用于采用多假设跟踪算法把所述斑点分组到对象路径中。
24.如权利要求20所述的系统,其特征在于,所述计算机设备还可用于根据与正常或异常事件关联的一个或多个特性来提供一个或多个所定义的正常和/或异常对象路径特征模型;以及把所述一个或多个对象路径与所述一个或多个所定义的正常和/或异常对象路径特征模型进行比较,从而确定所述一个或多个对象路径是正常还是异常。
25.如权利要求20所述的系统,其特征在于,所述计算机设备还可用于根据与危险事件关联的一个或多个特性来提供一个或多个所定义的危险和/或不危险对象路径特征模型;以及把至少所述一个或多个对象路径或与其相关的数据与所述一个或多个所定义的危险和/或不危险对象路径特征模型进行比较,从而确定所述一个或多个对象路径是否看起来指明出现危险事件。
26.如权利要求14所述的系统,其特征在于,所述一个或多个成像装置包括为了覆盖整个定义的搜索区域而放置的多个成像装置,其中各成像装置的各视场包括与另一个成像装置的至少一个其它视场重叠的视场部分,其中重叠的所述视场部分大于所述成像装置的所述视场的大约25%而小于所述视场的大约85%。
全文摘要
一种用于监测搜索区域的方法和系统包括为表示搜索区域的图像数据的各像素提供多个时变分布。根据时变分布表示搜索区域中的背景或前景的概率对各像素的多个时变分布进行排序。对于各个像素,执行把更新的像素值数据与为相应像素提供的所有多个时变分布其中的每个进行匹配的尝试,从而确定更新像素值数据是表示搜索区域中的背景还是前景信息。
文档编号G08G1/04GK1547726SQ02816606
公开日2004年11月17日 申请日期2002年6月27日 优先权日2001年6月29日
发明者I·帕夫利迪斯, V·莫雷拉斯, I 帕夫利迪斯, 桌 申请人:霍尼韦尔国际公司