专利名称::一种视觉感知网络中摄像机的组合选择方法
技术领域:
:本发明涉及摄像机选择方法,属于计算机视觉和视频数据处理
技术领域:
,具体地说是一种视觉感知网络中摄像机的组合选择方法。
背景技术:
:近年来,由于摄像机的广泛应用于安全监控、人机交互、导航定位、战场环境感知等领域,多摄像机系统成为计算机视觉及其应用领域的研究热点之一。尤其在基于视频的监控和人机交互等应用中,由多个摄像机组成的视觉感知网络VSN(VisualSensorNetwork)能有效解决单摄像机存在的目标观察过程中自遮挡等问题,但也产生了大量冗余信息,增加了系统存储、视觉计算和网络传输的负担。因此,如何从多路视频中选取并推送富信息量的视频,就成为视觉感知网络及其应用的关键问题之一。与基于视频数据的摄像机选择问题类似,在图形学领域中针对三维模型观察的视角选择问题也进行了广泛研究,如文献IVazquezP,SbertM.Fastadaptiveselectionofbestviews.LectureNotesinComputerScience,2003,2669:295-305中对已知的几何模型求取不同视角下的视点熵,并根据其大小选择最优视角,但与摄像机选择问题不同的是,前者要求预先得到被观察对象的精确模型定义,且模型大多在特定图形环境中构建因而分析过程不需要考虑背景和光照等因素影响。另一方面,一般传感器网络节点选择问题如文献2MoY.,AmbrosinoR.,andBrunoSinopoli.SensorSelectionStrategiesforStateEstimationinEnergyConstrainedWirelessSensorNetworks.Automatica,2011,47(7):1330-1338和文献3Huber,M.F.Optimalpruningformulti—Stepsensorscheduling.IEEETransactionsonautomaticcontrol.2012,57(5):1338-1343中均釆用被观测目标与传感器之间的位置作为传感器节点选择的依据,而摄像机感知环境具有方向性,不能简单根据目标与摄像机节点的位置关系选择最优摄像机,例如安全监控应用中更希望看到人的正面图像而不是近距离背影图像。已有的摄像机选择方法根据视觉感知网络内摄像机节点视域覆盖范围重叠情况可分为广域内无视域重叠的摄像机选择方法和具有部分或全部重叠视域的摄像机选择方法。其中无视域重叠的摄像机选择方法为实现大范围内的目标持续跟踪等需求,根据对目标运动的预测对分散布设的摄像机网络中的节点进行选择;本发明为满足安全监控和人机交互等应用需求,主要研究具有部分或全部视域重叠范围中观察到相同目标的摄像机选择方法。在此类方法中,根据被选摄像机的数量又可分为单摄像机选择方法和摄像机组合选择方法两类。其中单摄像机选择方法在特定的选择时间点上,依据提出的选择准则仅选择一个最优视角作为输出,此时,选择标准的设计即视觉信息量评价标准成为摄像机的选择的关键,而摄像机与摄像机之间无需考虑各自捕获信息之间的相似性。在选择标准的设计方面,通常可分为基于视频图像内容的选择与基于视频中目标在客观世界空间位置关系两类,如文献4DaniyalF.,TajM.,CavallaroAContentandtask-basedviewselectionfrommultiplevideostreams.MultimediaToolsandApplications,2010,46:235-258中提取视频产品中运动的多少、目标的类型、大小和位置和视频中是否发生投篮事件等视频特征,根据特征的上下文信息实现基于内容的摄像机的选择,此类方法仅对摄像机获取的视频图像内容进行特征提取和评分比较,不需要对摄像机网络内各节点感知的内容进行相似性度量。基于视频中目标的空间位置关系对摄像机进行选择的方法,如文献5ParkJjBhatC,KakAC.Alook-uptablebasedapproachforsolvingthecameraselectionprobleminlargecameranetworks.ACMWorkshoponDistributedSmartCameras,2006中将摄像机视角范围内的空间建立成一个对应摄像机查找表,摄像机选择过程中根据目标与各摄像机的空间位置关系,在表中选择距离最近的摄像机节点,该类方法前提是场景中摄像机必须经过精确的摄像机标定处理,否则无法从各摄像机的视频图像中得到目标的准确空间位置,同时该方法不考虑目标在场景中的朝向信息,应用于安全监控等领域时无法始终捕获目标正面图像。上述方法选择结果均仅有一个最优摄像机,没有考虑选择结果中通过多个摄像机的组合方式互相弥补彼此视角的限制,因而不会考察摄像机之间的信息相似程度和冗余情况。在一定的资源和处理条件允许下,通过选择多个摄像机形成摄像机组合的方法与单摄像机选择方法相比,能通过多个视角增加信息源有效克服后者出现的自遮挡和盲区等问题。虽然可以通过逐次选择最优视角的方式形成摄像机组合,但因不同角度的摄像机获取视频图像存在内容相似性因而存在不同程度的数据冗余,一般情况下,每次所选最优摄像机组成的选择结果并非最优的摄像机组合,例如两个同时拍摄到目标正面的摄像机虽然就单个而言信息量均较大,但所含整体信息量通常不如一个正面和一个侧面摄像机所获取目标的视觉信息量。已有摄像机组合选择方法到目前为止研究相对较少。
发明内容发明目的本发明所要解决的技术问题是针对现有技术的不足,提出了一种视觉感知网络中摄像机的组合选择方法。技术方案本发明公开的一种视觉感知网络中摄像机的组合选择方法,包括以下步骤步骤1,目标图像视觉直方图在线生成在多个摄像机视域范围重叠情况下,对在线获得的含有目标的多路摄像机的视频数据进行运动检测,由检测结果确定目标在视频帧图像空间的子区域,即获得目标图像区域;对目标图像区域进行局部特征提取;结合预先训练生成的视觉词典,计算该视角下目标图像区域的视觉直方图;步骤2,序贯前向摄像机选择在每个时间点上,选择一个最优视角,即最优摄像机;在未被选择的摄像机集合中,根据步骤2计算得到的视觉直方图计算候选摄像机视频中目标图像的信息增益以及候选摄像机对已选摄像机集合的互信息,选择对目标观察信息增益较大且与已选摄像机图像内容相似度较小即互信息较小的次优摄像机,将其加入已选摄像机集合,并从候选摄像机集合中剔除;不断重复上述步骤直到所选摄像机计数达到预先设定值。视觉词典由于尺度不变变换特征SIFT(ScaleInvariantFeatureTransform,SIFT)能较好地克服不同摄像机产生的光照和缩放等影响,因此本发明将它作为视觉词典词元。对输入的作为训练数据的多路视频数据中的帧图像,首先提取每幅图像的尺度不变变换特征SIFT(ScaleInvariantFeatureTransform,SIFT)局部特征描述子向量集合;对所有图像提取的SIFT特征描述子集合进行k-mean聚类;每个聚类中心被视为一个视觉词,得到的视觉词的集合构成离线训练的视觉词典,具体包括以下步骤提取图像SIFT特征描述子向量对每帧输入视频帧图像,分别采用高斯模板对图像进行滤波求取X和y方向梯度分量Ix和Iy,并以此计算像素点梯度大小和方向mag(x,y)=」/'2+1;Θ(x,y)=arctan(Iy,Ix);从图像左上角开始,在图像x和y方向每间隔8个像素取16X16大小的窗口作为特征提取采样窗口,将窗口分为4X4正方形网格区域,对每个区域中的采样点分别计算与采样窗口中心的梯度相对方向,将采样点的梯度大小通过距离高斯加权后分别归入区域内8个方向上的梯度方向直方图,每个采样窗口生成一个4X4X8维即128维的特征向量,对所得特征向量进行归一化形成窗口局部特征描述子向量;将每幅图像计算得到的描述子向量加入特征描述子集合F={f(1),f(2),f(3),...f(t)},f⑴eR128,t,其中f⑴为该幅图像特征描述子集合第i个描述子向量,R128表示该向量维度为128维,t为该幅图像所提取的特征描述子总数;对特征向量进行k-mean聚类对帧图像提取的SIFT特征描述子向量集合F,随机选取集合中k个向量为初始聚类中心,对所有特征向量按聚类中心进行聚类划分后,重新计算新的聚类中心,不断迭代直到达到迭代次数限制或聚类中心距离变化小于一定阈值,本发明设置当迭代次数达到5(Γ200次或聚类中心距离小于O.02作为停止迭代条件。视觉词典构成将每个聚类中心视为一个视觉词,得到并存储视觉词的集合,构成离线训练的视觉词典。本发明所述步骤I目标图像视觉直方图在线生成具体包括以下步骤步骤11,视频运动检测对各摄像机输入的视频数据分别采用混合高斯模型进行视频运动检测,对每帧检测结果基于纹理方法消除由目标在场景中产生的阴影,提取运动目标在图像空间的区域。步骤12,区域图像局部特征描述子提取对步骤11提取的运动目标区域图像提取SIFT特征描述子向量集合;步骤13,视觉直方图生成以预先训练生成的视觉词典的聚类中心作为直方图桶,将步骤12提取的运动目标区域图像SIFT特征描述子向量划归到直方图相应桶中,分别统计各桶中描述子向量个数,最后对直方图归一化处理,由此生成多个视角下运动目标的视觉直方图。本发明所述步骤2具体包括以下步骤步骤21,初始化选择场景中存在摄像机隼合C=Ic1,C2,...cm}同时观察到运动目标,m为摄像机的总数,被选择的摄像机集合Q=0候选摄像机集合Cu=C,合并所有候选摄像机的SIFT特征描述子向量集合,按步骤13生成合并后的视觉直方图Hnrew;步骤22,最优摄像机选择从候选摄像机组合Cu中综合人脸检测结果、运动目标区域图像信息增益和清晰度等标准选择一个最优摄像机将其加入被选择摄像机集合中,S卩Cs={c*},同时从候选摄像机集合中剔除,即Cu=cu\Icl,cu=cu\Icl,初始设置所选择的摄像机计数count值为I;其具体步骤为步骤221,人脸检测利用AdaBoost(AdaptiveBoosting,改进的弱分类器算法,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。Adaboost算法是改进的Boosting算法,其能够对弱学习得到的弱分类器的错误进行适应性调整。)人脸检测器对候选摄像机c’运动目标区域图像进行人脸检测,检测结果为Vfara={0,1},1表示检测到人脸,否则为O;步骤222,运动目标区域图像信息增益计算对摄像机c’的视觉直方图H。,和合并后视觉直方图Hmwge计算选择摄像机C,和不选该摄像机时视觉信息量信息增益VK,即权利要求1.一种视觉感知网络中摄像机的组合选择方法,其特征在于,包括以下步骤步骤1,目标图像视觉直方图在线生成在多个摄像机视域范围重叠情况下,对在线获得的观察到相同目标的多路摄像机的视频数据进行运动检测,由检测结果确定目标在视频帧图像空间的子区域,即获得目标图像区域;对目标图像区域进行局部特征提取;根据预先训练生成的视觉词典,计算该视角下目标图像区域的视觉直方图;步骤2,序贯前向摄像机选择选择一个最优视角,即最优摄像机;在未被选择的摄像机集合中,根据步骤I计算得到的视觉直方图计算候选摄像机视频数据中目标图像的信息增益以及候选摄像机对已选摄像机集合的互信息,选择次优摄像机,将其加入已选摄像机集合,并从候选摄像机集合中剔除;不断重复直到所选摄像机计数达到需要的摄像机计数。2.根据权利要求I所述的一种视觉感知网络中摄像机的组合选择方法,其特征在于,所述训练生成的视觉词典为对输入的作为训练数据的多路视频数据,首先提取每幅图像的尺度不变变换特征局部特征描述子向量集合;对所有图像提取的尺度不变变换特征描述子集合进行k-mean聚类;每个聚类中心为一个描述子向量,作为一个视觉词,得到的视觉词的集合构成离线训练的视觉词典;训练生成视觉词典具体包括以下步骤提取图像尺度不变变换特征描述子向量对每帧视频帧图像,分别采用高斯模板对图像进行滤波求取X方向和y方向梯度分量Ix和梯度分量Iy,并计算像素点梯度大小mag(x,y)和方向Θ(x,y),其中翻g、x,)=θ(x,y)=arctan(I,Ix);从图像左上角开始,在图像的X和y方向每间隔8个像素取16X16大小的窗口作为特征提取采样窗口,将每个采样窗口分为4X4正方形网格区域,对每个区域中的采样点分别计算与采样窗口中心的梯度相对方向,将采样点的梯度大小通过距离高斯加权后分别归入区域内8个方向上的梯度方向直方图,每个采样窗口生成一个128维的特征向量,对所得特征向量进行归一化形成窗口局部特征描述子向量;将每幅图像计算得到的描述子向量加入特征描述子集合F={f(1),f(2),f(3),...f(t)},f(i)eR128,I彡i彡t,其中f⑴为该幅图像特征描述子集合第i个描述子向量,R128表示该向量维度为128维,t为该幅图像所提取的特征描述子向量总数;对特征向量进行k-mean聚类对特征描述子向量集合F,随机选取k个向量作为聚类中心,迭代计算所有向量距离聚类中心的距离并进行聚类划分,根据划分结果重新计算聚类中心,直到达到规定的迭代次数或迭代前后聚类中心距离变化小于设定阈值。视觉词典构成将每个聚类中心作为一个视觉词,得到并存储视觉词的集合,构成视觉词典。3.根据权利要求2所述的一种视觉感知网络中摄像机的组合选择方法,其特征在于,所述步骤I目标图像视觉直方图在线生成具体包括以下步骤步骤11,视频运动目标检测对各摄像机输入的视频数据基于混合高斯模型分别进行视频运动检测,对运动检测结果基于纹理信息消除目标阴影,最终提取运动目标在图像空间的区域;步骤12,区域图像局部特征描述子提取对步骤11提取的运动目标区域图像提取尺度不变变换特征描述子向量集合;步骤13,视觉直方图生成以预先训练生成的视觉词典的聚类中心作为一个直方图桶,将步骤12提取的运动目标区域图像的尺度不变变换特征描述子向量划归到直方图相应桶中,分别统计各直方图桶中描述子向量个数,最后对直方图归一化处理,生成多个视角下运动目标的视觉直方图。4.根据权利要求3所述的一种视觉感知网络中摄像机的组合选择方法,其特征在于,所述步骤2序贯前向摄像机选择具体包括以下步骤步骤21,初始化选择视觉感知网络场景中存在摄像机集合C=Ic1,C2,...cj同时观察到运动目标,m为摄像机的总数,已选摄像机集合Cs=0,候选摄像机集合Cu=C,合并所有候选摄像机的尺度不变变换特征描述子向量集合,生成合并后的视觉直方图Hnrew;步骤22,最优摄像机选择从候选摄像机组合Cu中选择一个最优摄像机将其加入已选摄像机集合Cs,即Cs={c*},同时从候选摄像机集合中剔除摄像机即CU=CU\ic*},初始设置所选择的摄像机计数count值为I;步骤23,次优摄像机选择对已选摄像机集合C#0,每次迭代计算候选摄像机的信息增益和对已选摄像机的视觉直方图互信息,选择次优摄像机加入到已选摄像机集合并从候选摄像机集合Cu中剔除,并增加所选摄像机计数,即count=count+1;步骤24,重复步骤23,直到所选择的摄像机计数count达到预先设定的摄像机计数η。5.根据权利要求4所述的一种视觉感知网络中摄像机的组合选择方法,其特征在于,所述步骤22最优摄像机选择具体包括以下步骤步骤221,人脸检测利用人脸检测器对候选摄像机c’运动目标区域图像进行人脸检测,检测结果为Vface={O,1},I表示检测到人脸,否则为O;步骤222,运动目标区域图像信息增益计算对摄像机c’的视觉直方图H。'和合并后视觉直方图Hmwge计算选择摄像机c’和不选择摄像机c’时视觉信息量信息增益Vk,即6.根据权利要求5所述的一种视觉感知网络中摄像机的组合选择方法,其特征在于,所述步骤23次优摄像机选择具体包括以下步骤步骤231,采用步骤222的方法计算候选摄像机c’中目标区域图像信息增益IGc,;步骤232,候选摄像机于已选摄像机互信息计算计算候选摄像机c’中目标区域图像的视觉直方图H。,与已选摄像机集合Cs中摄像机Cj的视觉直方图之间的互信息MI(c’,Cj),,CjeCs,MI(c’,Cj)表示两个摄像机之间目标区域图像视觉内容相似程度全文摘要本发明公开了一种视觉感知网络中摄像机的组合选择方法,包括以下步骤目标图像视觉直方图在线生成在多个摄像机视域范围重叠情况下,对在线获得的观察到相同目标的多路摄像机的视频数据进行运动检测,由检测结果确定目标在视频帧图像空间的子区域,即获得目标图像区域;对目标图像区域进行局部特征提取;根据预先训练生成的视觉词典,计算该视角下目标图像区域的视觉直方图;序贯前向摄像机选择选择一个最优视角,即最优摄像机;在未被选择的摄像机集合中,选择次优摄像机,将其加入已选摄像机集合,并从候选摄像机集合中剔除;不断重复直到所选摄像机计数达到需要的摄像机计数。文档编号G06T7/00GK102932605SQ20121048843公开日2013年2月13日申请日期2012年11月26日优先权日2012年11月26日发明者孙正兴,李骞,陈松乐申请人:南京大学