本发明涉及识别领域,特别涉及一种人脸与人体共同检测的方法和设备。
背景技术:
现有技术中,进行人脸识别和人体识别是单独进行的,且只能对单一目标类型进行检测,如果对多类型的目标进行检测需要独立的多个模型,例如,当需要检测人脸和检测行人,那就需要一个人脸检测器和一个人体检测器,使用两套独立的检测器会占用更多资源。
另外,目标的检测和检测结果的校正是分开进行,需要重复的进行分类筛选候选框和校正候选框位置和大小,存在大量的重复计算,使系统的实用性降低;
后续在实时信息结构化过程中,独立检测到的人脸和人体缺少对应关系,但是在实际的需求中,需要把人脸和人体都对应到某一个具体的个体目标,基于现有的人脸检测和人体检测结果来做,就需要耗费额外的计算来进行匹配。
技术实现要素:
针对现有技术中的缺陷,本发明提出了一种人脸与人体共同检测的方法和设备,用以克服现有技术中的缺陷。
本发明提出了以下具体的实施例:
本发明实施例提出了一种人脸与人体共同检测的方法,包括:
获取标准数据;其中,标准数据中包含有标注各行人的人脸的与人体的位置的位置框信息;
通过所述标准数据中的位置框信息对共同识别模型进行修正;其中,所述共同识别模型是基于Faster RCNN生成的;
基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息;其中所述结构化信息中同时包括各行人的人脸信息和人体信息。
在一个具体的实施例中,所述获取标准数据,包括:
获取不同场景下的监控视频;
对监控视频中的图像中的各行人进行识别;
针对识别出各行人进行人脸所在的位置以及人体所在位置标注为不同的位置框,以生成位置框信息;
整合所识别的图像以及其中的位置框信息生成标准数据。
在一个具体的实施例中,所述通过所述标准数据中的位置框信息对共同识别模型进行修正,包括:
步骤A、随机初始化共同识别模型的参数;其中,所述参数包括:对应损失函数的参数;所述损失函数用于对共同识别模型进行修正;
步骤B、将所述标准数据中的位置框信息依次通过进行了初始化后的共同识别模型进行计算,以获取对应各所述损失函数的损失;
步骤C、通过对各所述损失函数进行求导得到梯度,并通过链式法则进行反向传播,得到更新后的各参数;
步骤D、重复步骤B以及步骤C,直到损失不再下降,以得到最终的参数;
步骤E、通过最终的参数完成对共同识别模型的修正。
在一个具体的实施例中,所述损失函数包括:分类损失函数、位置回归损失函数、相对位置约束损失函数;
其中,所述分类损失函数,用于对图像中的候选框进行人脸/行人/背景的分类,以获取人脸框和行人框,并去除掉背景上的候选框;
所述位置回归损失函数,用于修正人脸框和行人框的位置和大小,提高定位的准确度;
所述相对位置约束损失函数,用于保证人脸框和行人框的相对位置关系正常。
在一个具体的实施例中,所述基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息,包括:
对待识别视频进行解码,以获取待识别视频中的每帧图像;
若所述共同识别模块的处理能力超过预设值,则针对每帧图像进行人脸与人体的共同检测,以实时生成同时包括各行人的人脸信息、人体信息以及附属信息的结构化信息;其中,所述附属信息包括:待识别视频对应的摄像头的点位信息,待识别视频的时间信息。
本发明实施例还提出了一种人脸与人体共同检测的设备,包括:
获取模块,用于获取标准数据;其中,标准数据中包含有标注各行人的人脸的与人体的位置的位置框信息;
修正模块,用于通过所述标准数据中的位置框信息对共同识别模型进行修正;其中,所述共同识别模型是基于Faster RCNN生成的;
检测模块,用于基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息;其中所述结构化信息中同时包括各行人的人脸信息和人体信息。
在一个具体的实施例中,所述获取模块,用于:
获取不同场景下的监控视频;
对监控视频中的图像中的各行人进行识别;
针对识别出各行人进行人脸所在的位置以及人体所在位置标注为不同的位置框,以生成位置框信息;
整合所识别的图像以及其中的位置框信息生成标准数据。
在一个具体的实施例中,所述修正模块,用于执行下述操作:
步骤A、随机初始化共同识别模型的参数;其中,所述参数包括:对应损失函数的参数;所述损失函数用于对共同识别模型进行修正;
步骤B、将所述标准数据中的位置框信息依次通过进行了初始化后的共同识别模型进行计算,以获取对应各所述损失函数的损失;
步骤C、通过对各所述损失函数进行求导得到梯度,并通过链式法则进行反向传播,得到更新后的各参数;
步骤D、重复步骤B以及步骤C,直到损失不再下降,以得到最终的参数;
步骤E、通过最终的参数完成对共同识别模型的修正。
在一个具体的实施例中,所述损失函数包括:分类损失函数、位置回归损失函数、相对位置约束损失函数;
其中,所述分类损失函数,用于对图像中的候选框进行人脸/行人/背景的分类,以获取人脸框和行人框,并去除掉背景上的候选框;
所述位置回归损失函数,用于修正人脸框和行人框的位置和大小,提高定位的准确度;
所述相对位置约束损失函数,用于保证人脸框和行人框的相对位置关系正常。
在一个具体的实施例中,所述检测模块,用于:
对待识别视频进行解码,以获取待识别视频中的每帧图像;
若所述共同识别模块的处理能力超过预设值,则针对每帧图像进行人脸与人体的共同检测,以实时生成同时包括各行人的人脸信息、人体信息以及附属信息的结构化信息;其中,所述附属信息包括:待识别视频对应的摄像头的点位信息,待识别视频的时间信息。
以此,本发明公开了一种人脸与人体共同检测的方法和设备,其中,该方法包括:获取标准数据;其中,标准数据中包含有标注各行人的人脸的与人体的位置的位置框信息;通过所述标准数据中的位置框信息对共同识别模型进行修正;其中,所述共同识别模型是基于Faster RCNN生成的;基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息;其中所述结构化信息中同时包括各行人的人脸信息和人体信息。以此实现了高效的同时识别,节约了资源,且提高了实用性以及保证了人脸与人体的对应关系。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种人脸与人体共同检测的方法的流程示意图;
图2为本发明实施例提出的一种人脸与人体共同检测的方法中标定位置框的示意图;
图3为本发明实施例提出的一种人脸与人体共同检测的方法中的结构化信息的示意图;
图4为本发明实施例提出的一种人脸与人体共同检测的设备的结构示意图。
具体实施方式
在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在下文中,可在本公开的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在,并且不限制一个或更多个功能、操作或元件的增加。此外,如在本公开的各种实施例中所使用,术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
在本公开的各种实施例中,表述“或”或“A或/和B中的至少一个”包括同时列出的文字的任何组合或所有组合。例如,表述“A或B”或“A或/和B中的至少一个”可包括A、可包括B或可包括A和B二者。
在本公开的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件,不过可不限制相应组成元件。例如,以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如,第一用户装置和第二用户装置指示不同用户装置,尽管二者都是用户装置。例如,在不脱离本公开的各种实施例的范围的情况下,第一元件可被称为第二元件,同样地,第二元件也可被称为第一元件。
应注意到:如果描述将一个组成元件“连接”到另一组成元件,则可将第一组成元件直接连接到第二组成元件,并且可在第一组成元件和第二组成元件之间“连接”第三组成元件。相反地,当将一个组成元件“直接连接”到另一组成元件时,可理解为在第一组成元件和第二组成元件之间不存在第三组成元件。
在本公开的各种实施例中使用的术语“用户”可指示使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。
在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。
实施例1
本发明实施例公开了一种人脸与人体共同检测的方法,如图1所示,包括:
步骤101、获取标准数据;其中,标准数据中包含有标注各行人的人脸的与人体的位置的位置框信息;
步骤102、通过所述标准数据中的位置框信息对共同识别模型进行修正;其中,所述共同识别模型是基于Faster RCNN生成的;
步骤103、基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息;其中所述结构化信息中同时包括各行人的人脸信息和人体信息。
在一个具体的实施例中,步骤101中所述获取标准数据,包括:
获取不同场景下的监控视频;
对监控视频中的图像中的各行人进行识别;
针对识别出各行人进行人脸所在的位置以及人体所在位置标注为不同的位置框,以生成位置框信息;
整合所识别的图像以及其中的位置框信息生成标准数据。
具体的,收集数据,可以搜集不同场景下包含行人的监控视频(例如如图2示例场景),为了提升检测算法的跨场景性能的稳定性,尽可能搜集多一些场景下的数据;并在一帧图片中标注(具体的,可以采用现有技术中的方式来进行单独的标注)出人体和对应人脸的位置框(如如图2中不同的框所示),但为了避免重复标定,应对每段视频隔帧作标定(例如每隔3秒取一帧作标定)。
在一个具体的实施例中,步骤102中的所述通过所述标准数据中的位置框信息对共同识别模型进行修正,包括:
步骤A、随机初始化共同识别模型的参数;其中,所述参数包括:对应损失函数的参数;所述损失函数用于对共同识别模型进行修正;
步骤B、将所述标准数据中的位置框信息依次通过进行了初始化后的共同识别模型进行计算,以获取对应各所述损失函数的损失;
步骤C、通过对各所述损失函数进行求导得到梯度,并通过链式法则进行反向传播,得到更新后的各参数;
步骤D、重复步骤B以及步骤C,直到损失不再下降,以得到最终的参数;
步骤E、通过最终的参数完成对共同识别模型的修正。
在具体的实施例中,所述损失函数包括:分类损失函数、位置回归损失函数、相对位置约束损失函数;
其中,所述分类损失函数,用于对图像中的候选框进行人脸/行人/背景的分类,以获取人脸框和行人框,并去除掉背景上的候选框;
所述位置回归损失函数,用于修正人脸框和行人框的位置和大小,提高定位的准确度;
所述相对位置约束损失函数,用于保证人脸框和行人框的相对位置关系正常。
分类损失函数,主要对候选框进行人脸/行人/背景的分类,获取人脸框和行人框,去除掉背景上的候选框;而位置回归损失函数,用于修正人脸框和行人框的位置和大小,使得定位更加准确;相对位置约束损失函数,统计标注图片中人脸相对于人体的位置,在人体框内确定一个人脸位置的锚点,训练时计算人脸预测框与人体锚点位置的欧式偏移量,以此作为约束人脸框和行人框的相对位置关系的损失函数,使得人脸框和行人框不会出现不正常的相对位置关系。
在一个具体的实施例中,步骤103中的所述基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息,包括:
对待识别视频进行解码,以获取待识别视频中的每帧图像;
若所述共同识别模块的处理能力超过预设值,则针对每帧图像进行人脸与人体的共同检测,以实时生成同时包括各行人的人脸信息、人体信息以及附属信息的结构化信息;其中,所述附属信息包括:待识别视频对应的摄像头的点位信息,待识别视频的时间信息。
具体的,在训练共同识别模型时,首先随机初始化模型的参数,将样本逐个送入模型进行计算,得到各个损失函数的各个损失,训练的目标是最小化各项损失,因此,对其求导得到梯度,利用链式法则进行反向传播,更新模型参数;对每个样本重复此过程,直至验证集的损失不再下降,也即达到最小值。
后续当实时视频流接入时,通过解码得到图像,根据共同识别模型的算法性能定时做检测,如果算法速度满足,可以逐帧做检测,通过本发明的技术方案对一帧处理一次即可同时完成对人脸和人体的检测,具体的检测结果如图3所示。
以此,本方案实现了以下技术效果:
1、同时完成对目标的检测和检测结果的校正,避免大量重复计算,提升效率;
2、对多类型目标进行整合,用一个统一的模型(即采用Faster RCNN的框架同时完成目标框的检测和校正)完成多个类型的目标检测,减少计算冗余和系统资源的占用;
3、实时检测的时候自动完成结构化信息(人脸和人体)的关联,直接得到完整的结构化信息。
实施例2
本发明实施例还公开了一种人脸与人体共同检测的设备,如图所示,包括:
获取模块201,用于获取标准数据;其中,标准数据中包含有标注各行人的人脸的与人体的位置的位置框信息;
修正模块202,用于通过所述标准数据中的位置框信息对共同识别模型进行修正;其中,所述共同识别模型是基于Faster RCNN生成的;
检测模块203,用于基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息;其中所述结构化信息中同时包括各行人的人脸信息和人体信息。
在一个具体的实施例中,所述获取模块201,用于:
获取不同场景下的监控视频;
对监控视频中的图像中的各行人进行识别;
针对识别出各行人进行人脸所在的位置以及人体所在位置标注为不同的位置框,以生成位置框信息;
整合所识别的图像以及其中的位置框信息生成标准数据。
在一个具体的实施例中,所述修正模块202,用于执行下述操作:
步骤A、随机初始化共同识别模型的参数;其中,所述参数包括:对应损失函数的参数;所述损失函数用于对共同识别模型进行修正;
步骤B、将所述标准数据中的位置框信息依次通过进行了初始化后的共同识别模型进行计算,以获取对应各所述损失函数的损失;
步骤C、通过对各所述损失函数进行求导得到梯度,并通过链式法则进行反向传播,得到更新后的各参数;
步骤D、重复步骤B以及步骤C,直到损失不再下降,以得到最终的参数;
步骤E、通过最终的参数完成对共同识别模型的修正。
在一个具体的实施例中,所述损失函数包括:分类损失函数、位置回归损失函数、相对位置约束损失函数;
其中,所述分类损失函数,用于对图像中的候选框进行人脸/行人/背景的分类,以获取人脸框和行人框,并去除掉背景上的候选框;
所述位置回归损失函数,用于修正人脸框和行人框的位置和大小,提高定位的准确度;
所述相对位置约束损失函数,用于保证人脸框和行人框的相对位置关系正常。
在一个具体的实施例中,所述检测模块203,用于:
对待识别视频进行解码,以获取待识别视频中的每帧图像;
若所述共同识别模块的处理能力超过预设值,则针对每帧图像进行人脸与人体的共同检测,以实时生成同时包括各行人的人脸信息、人体信息以及附属信息的结构化信息;其中,所述附属信息包括:待识别视频对应的摄像头的点位信息,待识别视频的时间信息。
以此,本发明公开了一种人脸与人体共同检测的方法和设备,其中,该方法包括:获取标准数据;其中,标准数据中包含有标注各行人的人脸的与人体的位置的位置框信息;通过所述标准数据中的位置框信息对共同识别模型进行修正;其中,所述共同识别模型是基于Faster RCNN生成的;基于修正后的共同识别模型对待识别视频中图像进行人脸与人体的共同检测,以输出实时的结构化信息;其中所述结构化信息中同时包括各行人的人脸信息和人体信息。以此实现了高效的同时识别,节约了资源,且提高了实用性以及保证了人脸与人体的对应关系。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。