用于探测视频数据中的高兴趣事件的系统和方法
【技术领域】
[0001] 本公开普遍涉及视频监视的领域并且更特别地涉及用于辨识视频数据中的高兴 趣事件的系统和方法,所述视频数据也包括低兴趣事件。
【背景技术】
[0002] 视频监视系统广泛地应用于不同的目的,其包括安全保卫和公共安全。在典型的 视频监视系统中,为了监视活动在不同的地点使用一个或多个摄像机。例如,视频监视系统 生成公共场所、运输设备、零售商店、工业设施和住宅以及其它的私有财产的图像。监视系 统通常包括为了以后回放归档所记录的视频的一些或全部的数据存储设备以及能够实现 现场的和所归档的视频数据的回放的一个或多个视频输出设备。
[0003] 在一些监视系统中,摄像机生成视频数据,所述视频数据由一个或多个人员运行 者监视,所述人员运行者可以观看视频中的活动并且如果他们看到事件则可以采取适当的 行动。例如在零售商店处的监视系统中,运行者观看商店中的个人的现场视频并且如果一 个人企图偷窃商品则向安保人员发出警告。在另一示例中,运行者监视来自监视高速公路 的繁忙区段的交通摄像机的视频馈给,以便发现交通事故或者交通拥塞。如果发生了事故, 则运行者联系紧急响应人员,然后他们广播交通警告以通知所述繁忙交通区段中的其他驾 驶员。
[0004] 更广泛地,当所记录的视频示出"高兴趣事件"时,监视视频监视系统的运行者通 常采取行动。如以上所描述的那样,高兴趣事件的确切性质在不同的背景和使用视频监视 系统的运行者的任务之间发生变化。如在此所使用的那样,术语"高兴趣事件"涉及所记录 的视频数据中的促使视频监视系统的运行者采取行动的任何事件。行动包括但不限于,借 助基于在视频中所示出的事件的信息来联系其他人员、回放在事件发生之前的附加的归档 的视频拍摄、或者在事件发生之后更密切地监视视频中的对象以便追踪对象的活动。
[0005] 除高兴趣事件以外,视频数据通常包含"低兴趣事件"。如在此所使用的那样,术语 "低兴趣事件"涉及任何没有促使运行者采取行动的事件或者缺乏事件。例如,在以上所描 述的交通监视系统中,车辆沿着道路行驶行驶作为常规交通流的一部分是低兴趣事件。在 零售商店视频监视系统中,没有活动的空的通道是另一低兴趣事件。在多个视频监视系统 中所生成的视频数据主要包括低兴趣事件伴随较偶然的高兴趣事件,所述高兴趣事件以不 可预测的方式与低兴趣事件混合。
[0006] 在视频监视系统用于广泛的领域期间,运行所述系统的人员运行者通常漏掉高兴 趣事件。在一些示例中,视频监视系统为限制数量的人员运行者收集过多的视频而不能有 效地回放。附加地,当人员运行者回放具有仅仅对于延长的时间发生的低兴趣事件的视频 时,人员运行者失去专注于视频的能力并且可能不能识别出高兴趣事件。因此,视频监控系 统的使得运行者能够辨识记录在视频数据中的更大比例的高兴趣事件的改进可能是有利 的。
【发明内容】
[0007] 在一个实施例中,已经开发了一种用于监视视频数据的方法。所述方法包括辨识 事件的具有相应于对象在视频数据中的位置和运动方向中的至少一个的数据的特征向量、 在使用包括多个基向量的字典的情况下生成相应于所述特征向量的估计的特征向量、辨识 所估计的特征向量和所辨识的特征向量之间的误差、响应于所辨识的误差超过一个阈值地 辨识视频数据中的高兴趣事件、仅仅响应于所辨识的误差超过所述阈值地在视频输出设备 上显示包括高兴趣事件的视频数据。
[0008] 在另一实施例中,已经开发了一种视频监视系统。所述系统包括配置用于生成事 件的视频数据的摄像机(在视频数据中每一个事件包括对象)、配置用于显示由摄像机生 成的视频数据的一部分的视频输出设备以及与摄像机、视频输出设备和存储器有效连接的 处理器。所述处理器配置用于辨识事件的包含相应于对象在从摄像机接收的视频数据中的 位置和运动方向中的至少一个的数据的特征向量、在使用存储在存储器中的包括多个基向 量的字典的情况下生成相应于特征向量的估计的特征向量、辨识估计的特征向量和特征向 量之间的误差、响应于所辨识的误差超过一个阈值地辨识视频数据中的高兴趣事件并且仅 仅响应于所辨识的误差超过阈值地在视频输出设备上显示包括高兴趣事件的视频数据。
【附图说明】
[0009] 图1 :视频监视系统的示意图;
[0010] 图2 :用于辨识视频监视系统中的高兴趣和低兴趣事件的过程的框图;
[0011] 图3 :用于由视频监视系统中的训练数据生成事件字典的稀疏编码过程的框图;
[0012] 图4A :用于修改包含已编码的数据的字典以便包括相应于另一低兴趣事件的过 程的框图,所述已编码的数据相应于所观察的低兴趣事件;
[0013] 图4B :用于修改包含已编码的数据的字典以便从所述字典移除高兴趣事件的过 程的框图,所述已编码的数据相应于所观察的低兴趣事件;
[0014] 图5 :用于生成记录在视频监视系统中的相似事件的索引以便能够有效地搜索相 似事件的过程的框图;
[0015] 图6 :示出从视频和传感器数据中提取的元数据的框图以及用于由多个类型的元 数据生成特征向量的过程;
[0016] 图7 :用于在图1的系统中的视频和传感器数据中辨识出的事件中的元数据的元 数据特征向量、事件字典和由事件字典中的基向量生成的估计的特征向量的简化示图;
[0017] 图8 :训练数据特征向量和相应的稀疏权重向量的简化示图,所述稀疏权重向量 用于生成图1的系统中的事件字典中的基向量。
【具体实施方式】
[0018] 为了促进在此所描述的实施例的原理的理解的目的,现在参照附图和随后的说明 书中的描述。主题的范围不受所述参照限制。所述描述也包括所示出的实施例的任何改变 和修改并且还包括所描述的实施例的原理应用,如本文档所属领域的技术人员通常进行的 那样。
[0019] 如在此所使用的那样,术语"稀疏编码"涉及用于生成相应于多个输入的数据的方 法,所述数据在使用多个"基向量"和"稀疏权重向量"的情况下编码为向量。基向量在使 用惩罚优化过程(penalized optimization process)的情况下生成,所述惩罚优化过程应 用于多个在训练过程期间提供的多个预确定的输入向量。在一个实施例中,对于所述类型 已知的I 1优化过程用于生成相应于多个输入训练向量的基向量和稀疏权重向量。术语"稀 疏"用于涉及以下向量或者矩阵:其描述具有多个元素的向量或矩阵,其中给大多元素分配 零值。如在此所使用的那样,当应用于向量时术语"维度"涉及向量中的元素的数量。例如, 具有三个元素的行向量或者列向量称为具有维度3,而另一个具有四个元素的行向量或者 列向量称为具有维度4。
[0020] 如在此所使用的那样,术语"字典"涉及在使用稀疏编码过程的情况下生成的多个 基向量。在训练过程期间生成字典之后,字典中的基向量用于辨识任意输入向量和用于在 训练过程期间生成字典中的基向量的输入向量之间的相似程度。优化技术用于在使用稀疏 权重向量的情况下选择基向量的组合以便生成估计任意输入向量的重构向量。在重构估计 向量和实际输入向量之间所辨识的误差提供输入向量和字典之间的相似度的测量。
[0021] 如在此所使用的那样,术语"元数据"涉及在视频或者其它传感器数据中所辨识的 对象的特性。例如,如果对象跟随一个穿过视频摄像机的视场的路径,则相应于对象的元数 据包括对象在视频数据的帧中的二维位置、对象的速度、对象的运动方向、对象的大小以及 对象存在于摄像机的视场中的时间持续。如以下所描述的那样,参照对象的所观察的元数 据来辨识事件。元数据不要求以特定性来辨识对象。在一个实施例中,元数据不辨识对象 是特定的人或者甚至人类。然而,如果事件与所期望的人动作相似,则替代的实施例推断出 元数据相应于人、如朝一个方向并且以相应于人走过摄像机的速度运动的对象的元数据。 附加地,仅仅对于短的时间追踪单个对象并且元数据不在延长的时间期间上辨识相同的对 象。因此,除为了以后的调取存储视频数据拍摄以外,所存储的元数据和高兴趣事件根据元 数据的辨识不需要个人可辨识信息(PII)的收集和存储。
[0022] 图1示出视频监视系统100,其配置用于记录关于场景中的对象的视频和传感器 数据并且显示所选择的用于附加地分析并且从人员运行者反馈的视频。视频监视系统100 包括一个或多个视频摄像机104、可选择的非摄像机的传感器108、交互式的监视终端120、 移动电子设备116、处理并且分析视频的系统130。在图1中,摄像机104、传感器108、移 动电子设备116、监视终端120和分析系统130通过数据网络112、例如一个或多个局域网 (LANs)和广域网(WANs)通信。
[0023] 在系统100中,摄像机104包括任何产生示出对象在场景内的运动的视频数据的 单色的、彩色的、多光谱的或者高光谱的成像设备。如在所述领域中已知的那样,摄像机104 生成视频数据作为图像的序列,所述图像以规律的间隔生成。每一个图像称为"帧"并且单 个帧被记录并且以时间顺序显示,以便示出对象在摄像机的视场中的运动。在一些实施例 中,摄像机104包括用于在弱光条件中探测运动对象的光增强器或者红外传感器。例如,近 红外的电荷耦合器件(CCD)或者补充金属氧化物半导体(CMOS)传感器探测对于没有辅助 的人眼通常不可见的近红外频带中的能量。
[0024] 在一些实施例中,每一个摄像机104包括用于实施数字信号处理并且编码图像数 据的硬件和软件。例如,摄像机104对图像数据使用滤波器并且在将视频数据发送到分析 系统130之前以压缩的格式、例如MPEG-2或者H. 264来编码图像数据。在一个实施例中, 摄像机104安装到机动化的保持装置上,所述机动化的保持装置使得摄像机能够摆动并且 倾斜以便观看围绕摄像机的更宽的区域,而在另一个实施例中,摄像机以固定的视角安装。 在一些实施例中,摄像机包括可调节的变焦透镜,所述变焦透镜能够实现所记录的视频中 的变焦水平的调节。
[0025] 在图1的实施例中,视频监视系统100包括可选择的非视频传感器108。与传统的 摄像机不同,非视频传感器包括宽范围的传感设备。传感器108的示例包括但不限于运动 传感器、接近传感器、温度传感器、声学传感器和测距传感器。如以下所描述的那样,视频监 视系统100基于与在使用摄像机104和传感器108的情况下所监视的对象相关联的元数据 来辨识事件。元数据由所记录的视频并且由从传感器108接收的数据生成。来自多个摄像 机和传感器的数据在时间和空间上相关联,以便使得视频监视系统100能够在使用多个传 感设备的情况下辨识关于所探测的对象的元数据。
[0026] 在视频监视系统100中,交互式的监视终端120和移动电子设备116使得一个或 多个人员运行者能够回放所记录的视频拍摄并且调节视频监视系统100,以便改善高兴趣 事件的辨识。移动电子设备116和监视终端120都包括至少一个视频输出设备、如IXD屏 幕,其显示由摄像机104记录的视频数据的所选择的区段。移动电子设备116和监视终端 120也输出由传感器108收集的数据。
[0027] 在运行期间,移动电子设备116和监视终端120接收视频数据的分析系统130辨 识为相应于高兴趣事件的限制的集。在系统100中,移动电子设备116是平板电脑、智能手 机或者其它在使用到网络112的无线数据连接的情况下发送并且接收数据的可便携电子 设备。在一个实施例中,安全保障人员或者其他人员携带移动电子设备116并且在前往事 件位置期间