本发明涉及视频分析领域,尤其是涉及了一种基于局部特征描述符的视频分析方法。
背景技术:
随着各种新兴技术的发展,基于图片和视频的媒体信息快速增加,关于图片和视频处理的相关技术也在加速发展。其中,视频分析技术越来越受到人们的关注,它可用于移动ar技术、汽车、监控和媒体娱乐,在汽车的应用上,视频分析技术有强大物体检测功能,能够有效预警碰撞情况和提示当前道路流量。在监控的应用上,一旦目标在视频场景中出现了违反预定义规则的行为,系统会自动发出报警,监控工作站自动弹出报警信息并发出警示音,用户可以通过点击报警信息,减少了人力、物力和时间。在其他应用上,可以使用图像作为查询来搜索视频,或者使用视频作为查询来搜索对应的图像。然而,当前的视频分析方法的计算复杂度和压缩率太高,所占的存储空间很大,忽视了两个关键帧之间的中间信息。
本发明提出了一种基于局部特征描述符的视频分析方法,先在视频中提取关键帧的特征描述符,用颜色直方图进行帧级距离比较,结合用于视频分析的紧凑描述符的手动设计特征和基于卷积神经网络的深度学习,再通过在粗略到精细策略中比较实现成对匹配,最后提取数据库中的候选关键帧,通过局部描述符匹配进一步检查,通过视频级相似度进行排序。本发明消除了视频的冗余时间,实现了高效率和低延迟的移动视觉搜索,大大节省了内存大小、带宽资源和运行时的成本,减小了压缩率,降低了性能损失。
技术实现要素:
针对计算复杂度和压缩率太高等问题,本发明的目的在于提供一种基于局部特征描述符的视频分析方法,先在视频中提取关键帧的特征描述符,用颜色直方图进行帧级距离比较,结合用于视频分析的紧凑描述符的手动设计特征和基于卷积神经网络的深度学习,再通过在粗略到精细策略中比较实现成对匹配,最后提取数据库中的候选关键帧,通过局部描述符匹配进一步检查,通过视频级相似度进行排序。
为解决上述问题,本发明提供一种基于局部特征描述符的视频分析方法,其主要内容包括:
(一)查询视频;
(二)基于深度学习的特征提取;
(三)紧凑局部特征描述符编码;
(四)视频匹配;
(五)视频检索。
其中,所述的查询视频,视频由一系列高度相关的帧组成,进行关键帧检测时仅提取关键帧的特征描述符;用颜色直方图代替用于视频分析的紧凑描述符进行帧级距离比较,两个关键帧之间的中间帧表示为预测帧(p帧);在p帧中,通过多个参考预测帧来预测局部描述符;对于p帧中的全局描述符,从当前帧和先前帧中选择分量,将二进制子向量从前一帧中的相应子矢量中复制,并保存编码位。
其中,所述的基于深度学习的特征提取,为了进一步将旋转和尺度不变性编码为卷积神经网络,根据不变性理论,提出了嵌套不变性池用全局特征向量表示每个帧。
进一步地,所述的帧,给定一个输入帧,它可以r次旋转,每次提取特征图(w×h×c);其中,w和h表示地图的宽度和高度,c是特征频道的数量;基于特征图,执行多尺度均匀感兴趣区域(roi)采样,得到尺寸为(r×s×w′×h′×c)的五维特征更新;其中,s是多尺度区域采样中采样roi的数量;随后,嵌套不变性池对转换w′×h′、标度(s)和最后旋转(r)进行嵌套汇总;因此,可以生成c维全局卷积神经网络特征描述符;采用余弦相似度函数评估两个嵌套不变性池特征描述符之间的相似性。
其中,所述的紧凑局部特征描述符编码,用于视频分析的紧凑描述符标准采用高斯兴趣点拉普拉斯算子;采用低阶多项式方法计算拉普拉斯高斯滤波后的局部响应;随后,定义相关性度量来选择特征描述符的子集,基于包括尺度、峰值响应、图像中心的距离等局部特征进行统计学习;在用于视频分析的紧凑描述符中采用手动设计尺度不变特征转换(sift)描述符开发局部特征描述符以及通过三元标量量化进行变换实现的紧凑sift压缩方案,减小特征尺寸;在用于视频分析的紧凑描述符中,位置坐标由二进制直方图和直方图计数数组组成的直方图表示;直方图和计数数组由简单的算术编码器和基于上下文的算术编码器分开编码。
进一步地,所述的局部特征描述符聚合,将每个描述符分配给多个高斯函数,所选择的sift描述符聚合到费舍尔向量;为了压缩高维费舍尔向量,高斯混合模型中的高斯分量子集基于其每个子向量的标准偏差的排名来选择;所选择的高斯函数的数量取决于可用的编码比特,实现描述符可扩展性;最后,应用一位标量量化器与汉明距离快速比较。
进一步地,所述的深度学习与手动设计特征的结合,手动设计的特征有利于提取丰富的纹理斑点,而基于深度学习的特征更有效地聚集了显著区域更深入和更丰富的特征;因此,在用于视频分析的紧凑描述符框架组合了基于深度学习的特征和用于视频分析的紧凑描述符手动设计特征;组合策略优于基于深度学习或用于视频分析的紧凑描述符手动设计特征。
其中,所述的视频匹配,给定视频对中的关键帧的用于视频分析的紧凑描述符,可以通过在粗略到精细策略中比较成对匹配,实现成对匹配;具体来说,首先将一个视频中的每个关键帧与另一视频中的所有关键帧进行比较;如果相似度大于阈值,意味着两帧之间存在可能的匹配,则可以使用几何一致性检查,进一步执行局部描述符比较;随后通过全局和局部描述符的匹配分数的乘法来计算关键帧级相似度;最后,通过选择所有关键帧级别相似度中最大的匹配分数来获得视频级相似度。
进一步地,所述的时间定位,基于记录的时间戳定位包含相似的感兴趣项目的视频段;与颜色直方图比较方面相比,拍摄的第一关键帧的距离小于某个阈值的连续关键帧的组;如果关键帧级相似度大于阈值,则将包含关键帧的镜头视为匹配间隔;多个匹配间隔也可以并置在一起,获得定位的最后间隔。
其中,所述的视频检索,与视频匹配相反,以一对一的方式执行视频检索,意味着访问数据库中的视频,并且选择具有较高匹配分数的顶级视频;特别地,执行与全局描述符的关键帧级匹配,提取数据库中的顶部kg候选关键帧;随后,通过局部描述符匹配进一步检查这些关键帧,并且根据全局和局部相似性的组合排名,关键帧候选数据集进一步缩小到kl;这些关键帧重新组织成视频,最终根据视频匹配流水线的原理,通过视频级相似度进行排序。
附图说明
图1是本发明一种基于局部特征描述符的视频分析方法的系统流程图。
图2是本发明一种基于局部特征描述符的视频分析方法的用于视频分析的紧凑描述符的应用。
图3是本发明一种基于局部特征描述符的视频分析方法的深度学习与手动设计特征的结合。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于局部特征描述符的视频分析方法的系统流程图。主要包括查询视频,基于深度学习的特征提取,紧凑局部特征描述符编码,视频匹配和视频检索。
查询视频,视频由一系列高度相关的帧组成,进行关键帧检测时仅提取关键帧的特征描述符;用颜色直方图代替用于视频分析的紧凑描述符进行帧级距离比较,两个关键帧之间的中间帧表示为预测帧(p帧);在p帧中,通过多个参考预测帧来预测局部描述符;对于p帧中的全局描述符,从当前帧和先前帧中选择分量,将二进制子向量从前一帧中的相应子矢量中复制,并保存编码位。
基于深度学习的特征提取,为了进一步将旋转和尺度不变性编码为卷积神经网络,根据不变性理论,提出了嵌套不变性池用全局特征向量表示每个帧。
给定一个输入帧,它可以r次旋转,每次提取特征图(w×h×c);其中,w和h表示地图的宽度和高度,c是特征频道的数量;基于特征图,执行多尺度均匀感兴趣区域(roi)采样,得到尺寸为(r×s×w′×h′×c)的五维特征更新;其中,s是多尺度区域采样中采样roi的数量;随后,嵌套不变性池对转换w′×h′、标度(s)和最后旋转(r)进行嵌套汇总;因此,可以生成c维全局卷积神经网络特征描述符;采用余弦相似度函数评估两个嵌套不变性池特征描述符之间的相似性。
紧凑局部特征描述符编码,用于视频分析的紧凑描述符标准采用高斯兴趣点拉普拉斯算子;采用低阶多项式方法计算拉普拉斯高斯滤波后的局部响应;随后,定义相关性度量来选择特征描述符的子集,基于包括尺度、峰值响应、图像中心的距离等局部特征进行统计学习;在用于视频分析的紧凑描述符中采用手动设计尺度不变特征转换(sift)描述符开发局部特征描述符以及通过三元标量量化进行变换实现的紧凑sift压缩方案,减小特征尺寸;在用于视频分析的紧凑描述符中,位置坐标由二进制直方图和直方图计数数组组成的直方图表示;直方图和计数数组由简单的算术编码器和基于上下文的算术编码器分开编码。
局部特征描述符聚合,将每个描述符分配给多个高斯函数,所选择的sift描述符聚合到费舍尔向量;为了压缩高维费舍尔向量,高斯混合模型中的高斯分量子集基于其每个子向量的标准偏差的排名来选择;所选择的高斯函数的数量取决于可用的编码比特,实现描述符可扩展性;最后,应用一位标量量化器与汉明距离快速比较。
视频匹配,给定视频对中的关键帧的用于视频分析的紧凑描述符,可以通过在粗略到精细策略中比较成对匹配,实现成对匹配;具体来说,首先将一个视频中的每个关键帧与另一视频中的所有关键帧进行比较;如果相似度大于阈值,意味着两帧之间存在可能的匹配,则可以使用几何一致性检查,进一步执行局部描述符比较;随后通过全局和局部描述符的匹配分数的乘法来计算关键帧级相似度;最后,通过选择所有关键帧级别相似度中最大的匹配分数来获得视频级相似度。
时间定位,基于记录的时间戳定位包含相似的感兴趣项目的视频段;与颜色直方图比较方面相比,拍摄的第一关键帧的距离小于某个阈值的连续关键帧的组;如果关键帧级相似度大于阈值,则将包含关键帧的镜头视为匹配间隔;多个匹配间隔也可以并置在一起,获得定位的最后间隔。
视频检索,与视频匹配相反,以一对一的方式执行视频检索,意味着访问数据库中的视频,并且选择具有较高匹配分数的顶级视频;特别地,执行与全局描述符的关键帧级匹配,提取数据库中的顶部kg候选关键帧;随后,通过局部描述符匹配进一步检查这些关键帧,并且根据全局和局部相似性的组合排名,关键帧候选数据集进一步缩小到kl;这些关键帧重新组织成视频,最终根据视频匹配流水线的原理,通过视频级相似度进行排序。
图2是本发明一种基于局部特征描述符的视频分析方法的用于视频分析的紧凑描述符的应用。可用于移动ar技术、汽车、监控和媒体娱乐,在汽车的应用上,视频分析技术有强大物体检测功能,能够有效预警碰撞情况和提示当前道路流量。在监控的应用上,一旦目标在视频场景中出现了违反预定义规则的行为,系统会自动发出报警,监控工作站自动弹出报警信息并发出警示音,用户可以通过点击报警信息,减少了人力、物力和时间。在其他应用上,可以使用图像作为查询来搜索视频,或者使用视频作为查询来搜索对应的图像。
图3是本发明一种基于局部特征描述符的视频分析方法的深度学习与手动设计特征的结合。手动设计的特征有利于提取丰富的纹理斑点,而基于深度学习的特征更有效地聚集了显著区域更深入和更丰富的特征;因此,在用于视频分析的紧凑描述符框架组合了基于深度学习的特征和用于视频分析的紧凑描述符手动设计特征;组合策略优于基于深度学习或用于视频分析的紧凑描述符手动设计特征。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。