图像处理设备、摄像设备、图像处理方法

文档序号:6491719阅读:275来源:国知局
专利名称:图像处理设备、摄像设备、图像处理方法
技术领域
本发明涉及对输入的图像中的面部等被摄物体的类别进行判别的技术。
背景技术
以往,在图像识别或声音识别的领域内,已知有通过用计算机软件、或采用了并行图像处理专用处理器的硬件实现专用于特定的识别对象的识别处理算法,来检测识别对象的技术。
特别是,作为从包含面部的图像中将该面部作为特定的识别对象来检测的技术,以往已公开了一些文献(例如参照专利文献1~5)。
根据其中的一种技术,对于输入图像,使用被称作标准面部的模板搜索面部区域,之后,对眼、鼻孔、嘴这样的候选特征点,使用局部模板认证人物。但是,在该技术中,开始时使用模板在面部整体上进行匹配,从而检测面部区域,因此,不适应多个面部的尺寸或面部方向的变化,为了应对这种情况,需要准备与尺寸或面部方向对应的多个标准面部并用各个标准面部进行检测,但这不仅使面部整体的模板的尺寸大,而且要花费更多的处理成本。
另外,根据另一种技术,从面部图像求得眼和嘴的候选群,对照将其组合后的面部候选群和预先存储的面部结构,查找与眼和嘴对应的区域。在该技术中,输入图像中的面部数为1个或数量较少,另外,面部具有一定程度的大小,输入图像中的大部分区域是面部,背景很少,假定这样的图像为输入图像。
另外,根据另一种技术,分别求取多个候选的眼、鼻、嘴,并根据预先准备的特征点间的位置关系检测面部。
另外,根据另一种技术,当检查面部的各部分的形状数据与输入图像的一致度时,变更形状数据,而且,根据以前求出的各部分的位置关系确定各面部元素的搜索区域。在该技术中,保存虹膜、嘴、鼻等的形状数据,在先求出2个虹膜、接着求出嘴、鼻等时,根据该虹膜的位置,限定嘴、鼻等面部元素的搜索区域。就是说,该算法不是并行地检测虹膜(眼)、嘴、鼻这样的构成面部的面部元素,而是先检测虹膜(眼),使用该结果依次检测嘴、鼻这样的面部元素。在这种方法中,假定图像中只有1个面部并且已准确地求得了虹膜,当所检出的虹膜是错误检测时,就不能准确地设定嘴或鼻等其他特征的搜索区域了。
另外,根据另一种技术,在输入图像中移动设定了多个判断要素取得区域的区域模型,在各点,判断在这些判断要素取得区域内有无判断要素,并对面部进行识别。在该技术中,为了与尺寸不同的面部或转动了的面部相对应,需要准备尺寸不同的区域模型或转动了的区域模型,但当该尺寸的面部或该转动角度的面部实际上不存在时,将进行很多无用的计算。
另外,识别图像中的面部表情的方法,以往也公开了几种(例如参照非专利文献1、2)。
其中的一种技术,以凭借目视正确地将面部的部分区域从帧图像中分割出来为前提。而在另一种技术中,自动地进行面部图案的大致定位,但当进行特征点的定位时,需要依靠人的目视进行微调整。另外,在其他的技术(例如,参照专利文献6)中,利用肌肉的活动或神经系统连接关系等将表情的要素代码化,并决定情绪。但在该技术中,表情识别中所需要的部位的区域已被固定,但应考虑到,由于面部的方向变化或动作,可能会没有包含识别所需要的区域,或相反可能包含了不需要的区域,因而将对表情识别的精度产生影响。
除此以外,还研究出检测与作为客观地描述面部的表情动作的方法而众所周知的FACS(Facial Action Coding System)的Action Unit对应的变化并识别表情的系统。
另外,在其他的技术(例如参照专利文献7)中,实时地估计面部的表情,使三维面部模型变形,从而再现表情。在该技术中,根据包含面部区域的输入图像与不包含面部区域的背景图像的差分图像和表示肤色的色度,来检测面部,在将检测出的面部区域二值化后,检测面部的轮廓线。然后,在该轮廓线内的区域上,求取眼和嘴的位置,并根据眼和嘴的位置求取面部的转动角,在进行了转动校正后,进行二维离散余弦变换,估计表情,并根据其空间频率分量的变化量变换三维面部模型,从而进行表情的再现。但是,肤色的检测易受照明变化或背景的影响。因此,在该技术中,在最初的肤色抽取处理中,引起被摄物体的未检测或误检测的可能性很高。
另外,作为根据面部图像进行个人识别的方法,Turk等人的Eigenface(本征脸)法是众所周知的(例如参照非专利文献3、4)。在该方法中,对多个面部图像的浓淡值矢量的集合,进行主成分分析,预先求出被称作本征脸的标准正交基底,利用这些基底,对所输入的面部图像的浓淡值矢量进行Karhunen-Loeve展开,从而求得维数压缩后的面部图案。然后,将该维数压缩后的图案作为用于识别的特征矢量。
作为使用用于识别的特征矢量实际识别个人的方法之一,在上述文献中,公开了这样一种方法,求出输入图像的维数压缩后的面部图案与所保存的各个人的维数压缩后的面部图案的距离,并将表示最近距离的图案所属的类识别为所输入的面部图像所属的类、即个人。这种方法,基本上是用某些方法检测图像中的面部的位置,之后,求出对该面部区域进行了尺寸标准化和转动校正后的面部图像,并将该校正后的面部图像作为输入图像。
另外,作为现有技术还公开了一种能够实时地识别面部的图像处理方法(例如参照专利文献8)。在该方法中,首先,从输入图像中分割出任意的区域,并判别该区域是否是面部区域。接着,当该区域是面部区域时,将进行了仿射(affine)变换和对比度校正的面部图像与学习数据库中的已登录的面部进行匹配,估计是同一人物的概率。然后,根据该概率,从所登录的人物中输出与输入面部相同的可能性最高的人物。
另外,作为现有的表情识别装置之一,还公开了一种根据表情判断情绪的技术(例如参照专利文献6)。所谓情绪,一般是用于表达愤怒、悲伤等感情的,按照上述技术,根据相关规则从面部的各特征中抽出预定的表情要素,并从该预定的表情要素中抽出表情要素信息。此处,表情要素表示眼的开闭、眉的动作、额头的动作、唇的上下,唇的开闭、下唇的上下,这些表情要素中,关于眉的动作由左眉的斜度或右眉的斜度等表情要素信息构成。
接着,基于预定的表情要素定量化规则,根据构成所得到的表情要素的表情要素信息,计算将表情要素定量化后的表情要素代码。进一步,利用预定的情绪变换式,根据按每个情绪类别所确定的预定的表情要素代码,计算每个情绪类别的情绪量。然后,在情绪类别中将情绪量的最大值判断为情绪。
面部的各特征的形状或长度因个人的不同而具有很大的差异。例如,在作为严肃面孔的无表情图像中,外眼角已下垂的人或眼本来就细的人等,从来自一个图像的主观的观点看,有时乍看起来好象喜悦但本人却是严肃的面孔。进一步,面部图像的面部尺寸或面部的方向并不是一定的,当面部尺寸变动时或面部转动时,需要根据面部的尺寸变动或面部的转动变动将识别表情所需要的特征量标准化。
另外,输入图像中除表情场面或作为严肃面孔的无表情场面外,还有将假定为包含作为会话场面的非表情场面的日常场面的时间序列图像作为输入图像,例如,有时将与惊讶的表情类似的会话场面中发出“お”声或与喜悦的表情类似的发出“い”“え”声等非表情场面错误地判断为表情场面。
专利文献1日本特开平9-251534号公报专利文献2日本专利2767814号专利文献3日本特开平9-44676号公报专利文献4日本专利2973676号专利文献5日本特开平11-283036号公报专利文献6日本专利2573126号专利文献7日本专利3062181号公报专利文献8日本特开2003-271958号公报非专利文献1G Donate,T.J.Sejnowski,el.al,“ClassifyingFacial Actions”IEEE Trans.PAMI,vol.21,no.10,Oct,1999非专利文献2Y.Tian,T.Kaneda,and J.F.Cohn“RecognizingAction Unite for Facial Expression Analysis”IEEE Tran.PAMI vol.23,no.2,Feb,2001非专利文献3赤松茂,“コンピユ一タによゐ颜の認識-サ一ベイ-”電子情報通信学会誌Vol.80 No.8,pp.2031-2046,Aug.1997非专利文献4M.Turk,A.Pentland,“Eigenfaces forrecognition”J.Cognitive Neurosci.,vol.3,no.1,PP.71-86,Mar,1991发明内容本发明是鉴于以上的问题而完成的,其目的在于提供一种简便地判别图像中的面部是谁的面部,并判别该面部的表情的技术。
本发明另一目的在于,在检测图像中的面部、判别表情、判别个人中,以简便的方法应对被摄物体的位置或方向的变化。
本发明进一步的目的在于,提供一种对例如面部表情中的个人差异或表情场面等具有鲁棒性的、更准确地判断图像中的被摄物体的类别的技术。另外,提供一种即使面部的尺寸变动时或面部转动时也能准确地判断表情的技术。
为了达到本发明的目的,本发明的图像处理设备具有例如以下的结构。
即,其特征在于,包括输入装置,输入包含被摄物体的图像;被摄物体区域确定装置,从上述输入装置输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的被摄物体的区域;以及判别装置,利用由上述被摄物体区域确定装置所确定的上述被摄物体的区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的被摄物体图像的各上述局部特征的检测结果,判别上述被摄物体的类别。
为了达到本发明的目的,本发明的图像处理设备具有例如以下的结构。
即,其特征在于,包括输入装置,连续地输入包含面部的帧图像;面部区域确定装置,从上述输入装置输入的帧图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述帧图像中的面部区域;以及判别装置,在与由面部区域确定装置在上述输入装置输入的第1帧图像中所确定的面部区域位置上对应的、作为上述第1帧后边的帧的第2帧的图像中的区域内,根据由上述面部区域确定装置检测出的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
为了达到本发明的目的,本发明的图像处理设备具有例如以下的结构。
即,其特征在于,包括输入装置,输入包含面部的图像;面部区域确定装置,从上述输入装置输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的面部区域;第1判别装置,利用由上述面部区域确定装置检测出的上述面部区域中的各上述局部特征的检测结果、和预先从各面部图像得到的各上述局部特征的检测结果,判别上述输入装置输入的图像中的面部是谁的面部;以及第2判别装置,利用由上述面部区域确定装置检测出的上述面部区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
为了达到本发明的目的,本发明的图像处理方法具有例如以下的结构。
即,其特征在于,包括输入步骤,输入包含被摄物体的图像;被摄物体区域确定步骤,从上述输入步骤输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的被摄物体的区域;以及判别步骤,利用上述被摄物体区域确定步骤中检测出的上述被摄物体的区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的被摄物体图像的各上述局部特征的检测结果,判别上述被摄物体的类别。
为了达到本发明的目的,本发明的图像处理方法具有例如以下的结构。
即,其特征在于,包括输入步骤,连续地输入包含面部的帧图像;面部区域确定步骤,从上述输入步骤输入的帧图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述帧图像中的面部区域;以及判别步骤,在与由面部区域确定步骤在由上述输入步骤输入的第1帧图像中所确定的面部区域位置上对应的、作为上述第1帧后边的帧的第2帧图像中的区域内,根据由上述面部区域确定步骤检测出的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
为了达到本发明的目的,本发明的图像处理方法具有例如以下的结构。
即,其特征在于,包括输入步骤,输入包含面部的图像;面部区域确定步骤,从上述输入步骤输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的面部区域;第1判别步骤,利用上述面部区域确定步骤中检测出的上述面部区域中的各上述局部特征的检测结果、和预先从各面部图像得到的各上述局部特征的检测结果,判别上述输入步骤输入的图像中的面部是谁的面部;以及第2判别步骤,利用上述面部区域确定步骤中检测出的上述面部区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
为了达到本发明的目的,例如本发明的摄像设备上述的图像处理设备;以及摄像装置,当由上述判别装置判断出的表情是预定的表情时,拍摄被输入到上述输入装置的图像。
为了达到本发明的目的,本发明的图像处理方法具有例如以下的结构。
即,其特征在于,包括输入步骤,输入包含面部的图像;第1特征量计算步骤,对由上述输入步骤输入的图像中的面部的预定部位群,分别求取特征量;第2特征量计算步骤,对包含预定表情的面部的图像中的该面部的上述预定部位群,分别求取特征量;变化量计算步骤,根据在上述第1特征量计算步骤中求得的特征量和在上述第2特征量计算步骤中求得的特征量,求取上述预定部位群各自的特征量的变化量;得分计算步骤,根据上述变化量计算步骤中对上述预定部位群分别求得的变化量,对上述预定部位群分别计算得分;以及判断步骤,根据在上述得分计算步骤中对上述预定部位群分别计算出的得分,判断上述输入步骤所输入的图像中的面部的表情。
为了达到本发明的目的,本发明的图像处理设备具有例如以下的结构。
即,其特征在于,包括输入装置,输入包含面部的图像;第1特征量计算装置,对由上述输入装置输入的图像中的面部的预定部位群分别求取特征量;第2特征量计算装置,对包含预定表情的面部的图像中的该面部的上述预定部位群分别求取特征量;变化量计算装置,根据由上述第1特征量计算装置求得的特征量和由上述第2特征量计算装置求得的特征量,求取上述预定部位群各自的特征量的变化量;得分计算装置,根据由上述变化量计算装置对上述预定部位群分别求得的变化量,对上述预定部位群分别计算得分;以及判断装置,根据由上述得分计算装置对上述预定部位群分别计算出的得分,判断由上述输入装置输入的图像中的面部的表情。
为了达到本发明的目的,例如本发明的摄像设备的特征在于,包括上述的图像处理设备;摄像装置,拍摄要输入到上述输入装置的图像;以及存储装置,存储由上述判断装置判断后的图像。
根据本发明的结构,能够简便地判别图像中的面部是谁的面部,并判别该面部的表情。
并且,在检测图像中的面部、判别表情、判别个人中,能以简便的方法应对被摄物体的位置或方向的变化。
进而,能够对例如面部表情的个人差异或表情场面等具有鲁棒性,并能够更准确地判断图像中的被摄物体的类别。
另外,即使面部的尺寸变动时或面部转动时也能准确地判断表情。
本发明的其他特征和优点,将通过以下参照附图进行的说明得到明确。此外,在附图中,对相同或相似的结构赋予相同的参照标号。


附图包含在说明书内构成本说明书的一部分,表示本发明的实施方式,并与其记述一起用于说明本发明的原理。
图1是表示本发明第1实施方式的图像处理设备的功能结构的图。
图2是用于判别摄影图像中的面部的表情的主处理的流程图。
图3是表示本发明第2实施方式的图像处理设备的功能结构的图。
图4是表示图3中示出的结构的动作的时序图。
图5是表示本发明第3实施方式的图像处理设备的功能结构的图。
图6是表示图5中示出的结构的动作的时序图。
图7A是表示一次特征的图。
图7B是表示二次特征的图。
图7C是表示三次特征的图。
图7D是表示四次特征的图。
图8是表示用于进行图像识别的神经网络的结构的图。
图9是表示各特征点的图。
图10是用于说明在图9所示的面部区域中求取使用了一次特征和三次特征的特征点的处理的图。
图11是表示本发明第1实施方式的图像处理设备的基本结构的图。
图12是表示将本发明第1实施方式的图像处理设备应用于摄像设备的例的结构的图。
图13是表示本发明第4实施方式的图像处理设备的功能结构的图。
图14是用于判别摄影图像中的面部是谁的面部的主处理的流程图。
图15A是表示在个人判别处理中使用的特征矢量1301的图。
图15B是表示二次特征的右开V字特征检测结果的图。
图15C是表示左开V字特征检测结果的图。
图15D是表示包含面部区域的摄影图像的图。
图16是以表的形式示出3个识别器中在学习时分别使用的数据的图。
图17是表示本发明第5实施方式的图像处理设备的功能结构的图。
图18是用于判别摄影图像中的面部是谁的面部、且判别是怎样的表情的主处理的流程图。
图19是表示由综合部1708管理的数据的结构例的图。
图20是表示本发明第6实施方式的图像处理设备的功能结构的图。
图21是表示本发明第6实施方式的图像处理设备进行的主处理的流程图。
图22是表示表情判别数据的结构例的图。
图23是表示本发明第7实施方式的图像处理设备的功能结构的框图。
图24是表示特征量计算部6101的功能结构的框图。
图25是表示边缘图像(edge)中的眼区域、脸颊区域、嘴区域的图。
图26是表示面部的特征点抽取部6113检测的各特征点的图。
图27是用于说明“眼的线边缘的形状”的图。
图28是为了根据作为一例的在变化量上存在着个人差异的特征即眼的边缘的长度的变化量计算得分而参照的曲线图。
图29是为了根据变化量不存在个人差异的特征、即眼和嘴的端点距离的长度的变化量,来计算得分而参照的曲线图。
图30是利用由得分计算部6104求得的每个特征点的得分,判断输入图像中的面部表情是否是“特定的表情”时的判断处理的流程图。
图31是示出与表示喜悦的表情对应的得分分布的一例的图。
图32是表示本发明第8实施方式的图像处理设备的功能结构的框图。
图33是表示表情判断部6165的功能结构的框图。
图34是使横轴为固有地赋予时间序列图像的每一个的图像序号、使纵轴为得分总和与阈值线之差,表示出从作为严肃面孔的无表情场面变化为喜悦表情场面时的得分总和与阈值线之差的图。
图35是使横轴为时间序列图像的图像序号、纵轴为得分总和与阈值线之差,表示出作为非表情场面的会话场面的得分总和与阈值线之差的图。
图36是由表情确定部6171进行的、在从图像输入部6100连续输入的图像中决定喜悦的表情的开始时刻的处理的流程图。
图37是由表情确定部6171进行的、在从图像输入部6100连续输入的图像中决定喜悦的表情的结束时刻的处理的流程图。
图38是表示本发明第9实施方式的图像处理设备的功能结构的框图。
图39是表示特征量计算部6212的功能结构的框图。
图40是表示与表情选择部6211选定的各表情(表情1、表情2、表情3)对应的特征量的图。
图41是表示根据各变化量计算每种表情的得分的情况的示意图。
图42是根据由得分计算部计算出的眼的形状的得分,判断眼是否闭着的处理的流程图。
图43是示出参照面部的眼的边缘、即睁开眼时的眼的边缘的图。
图44是示出闭上眼时的眼的边缘的图。
图45是表示本发明第12实施方式的图像处理设备的功能结构的框图。
图46是表示特征量抽取部6701的功能结构的框图。
图47是表示图像的面部中的眼、鼻的重心位置的图。
图48是示出左右各内眼角和鼻的重心的图。
图49是示出没有任何变化时的左右眼间距离、左右眼与鼻间距离、及眼鼻间距离的图。
图50是示出有尺寸变动时的左右眼间距离、左右眼与鼻间距离、及眼鼻间距离的图。
图51是示出有上下转动变动时的左右眼间距离、左右眼与鼻间距离、及眼鼻间距离的图。
图52是示出有左右转动变动时的左右眼间距离、左右眼与鼻间距离、及眼鼻间距离的图。
图53是示出无表情时的左右眼的端点间距离的图。
图54是示出笑脸时的左右眼的端点间距离的图。
图55A是判断尺寸变动、左右转动变动、上下转动变动的处理的流程图。
图55B是判断尺寸变动、左右转动变动、上下转动变动的处理的流程图。
图56是示出有尺寸变动、左右转动变动、上下转动变动的任何一种变动时的左右眼间距离、左右眼与鼻间距离、及眼鼻间距离的图。
图57是示出有上下转动变动和尺寸变动时的左右眼间距离、左右眼与鼻间距离、及眼和鼻间距离的图。
图58是从左右眼和鼻的位置检测开始,根据上下、左右转动变动和尺寸变动将各特征量标准化,并进行表情判断处理的流程图。
图59是表示本发明第13实施方式的摄像设备的功能结构的框图。
图60是表示摄像部6820的功能结构的图。
图61是表示图像处理部6821的功能结构的框图。
图62是表示特征量抽取部6842的功能结构的框图。
图63是表示表情判断部6847的功能结构的框图。
图64是表示本发明第14实施方式的摄像设备的功能结构的框图。
具体实施例方式
以下,参照附图详细说明本发明优选的实施方式。
图1是表示本实施方式的图像处理设备的功能结构的图。本实施方式的图像处理设备,从图像中检测面部并判别其表情,由以下各部构成摄像部100、控制部101、面部检测部102、中间检测结果保存部103、表情判别部104、图像保存部105、显示部106、记录部107。以下,对各部进行说明。
摄像部100,根据来自控制部101的控制信号对图像进行拍摄,并将该拍摄到的图像(摄影图像)输出到面部检测部102、图像保存部105、显示部106或记录部107。
控制部101,进行用于控制本实施方式的图像处理设备整体的处理,与摄像部100、面部检测部102、中间检测结果保存部103、表情判别部104、图像保存部105、显示部106、记录部107连接,对各部进行控制,使各部按适当的时序动作。
面部检测部102,进行在来自摄像部101的摄影图像中检测面部区域(摄影图像中所包含的面部图像的区域)的处理。该处理,换句话说就是求取摄影图像中的面部区域的数量、摄影图像中的面部区域的坐标位置、面部区域的尺寸、面部区域在摄影图像中的转动量(例如当面部区域为矩形时,表示该矩形在摄影图像中向哪个方向倾斜了多少的转动量)的处理。以下,将这些信息(摄影图像中的面部区域的数、摄影图像中的面部区域的坐标位置、面部区域的尺寸、面部区域在摄影图像中的转动量)统称为“面部区域信息”。因此,通过求取面部区域信息,能够确定摄影图像中的面部区域。
这些检测结果,输出到表情判别部104。另外,还将检测处理过程中得到的后述的中间检测结果输出到中间检测结果保存部103。中间检测结果保存部103,保存从面部检测部102输出的上述中间特征检测结果。
表情判别部104,接收从面部检测部102输出的面部区域信息的数据和从中间检测结果保存部103输出的上述中间特征检测结果的数据。然后,根据这些数据,从图像保存部105读入摄影图像的全部或一部分(一部分的情况下,只是面部区域的图像),通过后述的处理,判别读入的图像中的面部的表情。
图像保存部105,暂时保存从摄像部100输出的摄影图像,并根据控制部101的控制信号将保存着的摄影图像的全部或一部分输出到表情判别部104、显示部106、以及记录部107。
显示部106,例如由CRT或液晶屏等构成,显示从图像保存部105输出的摄影图像的全部或一部分、或由摄像部100拍摄的摄影图像。
记录部107,由硬盘驱动器或将信息记录在DVD-RAM、压缩闪存(注册商标Compact Flash)等存储介质上的装置构成,记录保存在图像保存部105中的图像、或由摄像部100所拍摄的摄影图像。
以下,对通过上述各部的动作执行的用于判别摄影图像中的面部的表情的主处理,用表示该处理的流程图的图2进行说明。
首先,摄像部100根据来自控制部101的控制信号对图像进行摄影(步骤S201)。所拍摄的图像的数据,显示在显示部106上,同时输出到图像保存部105,进一步输入到面部检测部102。
然后,面部检测部102,用所输入的摄影图像,进行检测该摄影图像中的面部区域的处理(步骤S202)。对该面部区域的检测处理,进行更详细的说明。
参照图7A、7B、7C、7D,说明用于检测摄影图像的局部特征和确定面部区域的一系列的处理,图7A是表示一次特征的图,图7B是表示二次特征的图,图7C是表示三次特征的图,图7D是表示四次特征的图。
首先,检测作为最基本(primitive)的局部特征的一次特征。作为一次特征,如图7A所示,有纵特征701、横特征702、右上斜特征703、右下斜特征704这样的特征。此处,所谓“特征”,如取纵特征701为例,则是表示纵向的边缘图段(edge segment)。
在摄影图像中检测各方向的图段的技术,是众所周知的,用该技术从摄影图像检测各方向的图段,并生成从摄影图像只检测出纵特征的图像、从摄影图像只检测出横特征的图像、从摄影图像只检测出右上斜特征的图像、从摄影图像只检测出左上斜特征的图像。由此,4个图像(一次特征图像)的尺寸(纵横的像素数)与摄影图像相同,所以在特征图像和摄影图像中各个像素一一对应。另外,在特征图像中,使检测出的特征部分的像素值与其他部分的像素值为不同值,例如,使特征部分的像素值为1,其他部分的像素值为0。因此,如果在特征图像中有像素值为1的像素,则可以假设在摄影图像中与其对应的像素是构成一次特征的像素。
通过按如上方式生成一次特征图像群,能够检测摄影图像中的一次特征。
接着,从摄影图像中检测将所检出的一次特征群的任何一个组合后的二次特征群。作为二次特征群,如图7B所示,有右开V字特征710、左开V字特征711、水平平行线特征712、垂直平行线特征713这样的特征。右开V字特征710,是将作为一次特征的右上斜特征703和右下斜特征704组合后的特征;左开V字特征711,是将作为一次特征的右下斜特征704和右上斜特征703组合后的特征;水平平行线特征712,是将作为一次特征的横特征702组合后的特征;垂直平行线特征713,是将作为一次特征的纵特征701组合后的特征。
与一次特征图像的生成一样,生成从摄影图像中只检测出右开V字特征710的图像、从摄影图像中只检测出左开V字特征711的图像、从摄影图像中只检测出水平平行线特征712的图像、从摄影图像中只检测出垂直平行线特征713的图像。由此生成的4个图像(二次特征图像)的尺寸(纵横的像素数)与摄影图像相同,所以在特征图像和摄影图像中各个像素一一对应。另外,在特征图像中,检测出的特征部分的像素值与其他部分的像素值为不同值,例如,特征部分的像素值为1,其他部分的像素值为0。因此,如果在特征图像中有像素值为1的像素,则可以假设在摄影图像中与其对应的像素是构成二次特征的像素。
通过按如上方式生成二次特征图像群,能够检测摄影图像中的二次特征。
接着,从摄影图像中检测将所检出的二次特征群的任何一个组合后的三次特征群。作为三次特征群,如图7C所示,有眼特征720、嘴特征721这样的特征。眼特征720是将作为二次特征的右开V字特征710、左开V字特征711、水平平行线特征712以及垂直平行线特征713组合后的特征,嘴特征721是将作为二次特征的右开V字特征710、左开V字特征711以及水平平行线特征712组合后的特征。
与一次特征图像的生成一样,生成只检测出眼特征720的图像、从摄影图像中只检测出嘴特征721的图像。由此生成的2个图像(三次特征图像)的尺寸(纵横的像素数)与摄影图像相同,所以在特征图像和摄影图像中各个像素一一对应。另外,在特征图像中,检测出的特征部分的像素值与其他部分的像素值为不同值,例如,特征部分的像素值为1,其他部分的像素值为0。因此,如果在特征图像中有像素值为1的像素,可以假设在摄影图像中与其对应的像素是构成三次特征的像素。
通过按如上方式生成三次特征图像群,能够检测摄影图像中的三次特征。
接着,从摄影图像中检测将所检出的三次特征群组合后的四次特征。四次特征在图7D中是面部特征本身。面部特征是将作为三次特征的眼特征720、嘴特征721组合后的特征。
与一次特征图像的生成一样,生成检测出面部特征的图像(四次特征图像)。由此生成的四次特征图像的尺寸(纵横的像素数)与摄影图像相同,所以在特征图像和摄影图像中各个像素一一对应。另外,在特征图像中,检测出的特征部分的像素值与其他部分的像素值为不同值,例如,特征部分的像素值为1,其他部分的像素值为0。因此,如果在特征图像中有像素值为1的像素,则可以假设在摄影图像中与其对应的像素是构成四次特征的像素。因此,通过参照该四次特征图像,能够利用例如像素值为1的像素的重心位置求出面部区域的位置。
此外,当使该面部区域为矩形时,为求得表示该矩形相对于摄影图像向哪个方向倾斜了多少的信息,可以通过求取该矩形相对于摄影图像的斜度来求得上述转动量。
按照如上方式,可以求得上述面部区域信息。所求得的面部区域信息,如上所述,输出到表情判别部104。
另外,上述各特征图像(在本实施方式中为一次特征图像、二次特征图像、三次特征图像、四次特征图像),作为上述中间检测结果输出到中间检测结果保存部103。
这样,通过检测摄影图像中的四次特征,能够求出摄影图像中的面部区域。而且,通过对整个摄影图像进行如上所述的面部区域的检测处理,即使摄影图像中包含多个面部区域,也能检测出各面部区域。
此外,关于上述面部区域的检测处理,也可以用通过并行分层处理进行图像识别的神经网络实现。对此,在以下文献中有所记述,即M.Matsugu,K.Mori,el.al,“Convolutional Spiking Neural NetworkModel for Robust Face Detection”,2002,International Conference OnNeural Information Processing(ICONIP02)。
参照图8说明神经网络的处理内容。图8是表示用于进行图像识别的神经网络的结构的图。
该神经网络,在输入数据的局部区域中,分层地处理参与对象或几何学的特征等的识别(检测)的信息,其基本结构为所谓的Convolutional网络结构(LeCun,Y.and Bengio,Y.,1995,“Convolutional Networks for Images Speech,and Time Series”inHandbook of Brain Theory and Neural Networks(M.Arbib,Ed.)、MITPress,pp.255-258)。在最终层(最上层)得到想要检测的被摄物体是否存在的信息、和如果存在则其在输入数据上的位置信息。如将该神经网络应用于本实施方式,则从该最终层得到摄影图像中是否存在面部区域的信息、和如存在面部区域则该面部区域在摄影图像上的位置信息。
在图8中,数据输入层801,是输入图像数据的层。最初的特征检测层(1,0),在以整个画面的各位置为中心的局部区域(或以整个画面上的预定采样点的各点为中心的局部区域)上,在同一部位以多个标尺或解析度以多个特征类别数检测由数据输入层801输入的图像图案的局部的低次特征(除特定方向分量、特定空间频率分量等几何学特征外也可以包含色分量特征)。
特征综合层(2,0),具有预定的接受域结构(以下,所谓接受域是表示与其紧邻的前面的层的输出元的耦合范围、所谓接受域结构是表示其耦合负载的分布),对来自特征检测层(1,0)的位于同一接受域内的多个神经元的输出进行综合(局部平均化、基于最大输出检测等的子采样等运算)。该综合处理,通过在空间上模糊来自特征检测层(1,0)的输出,具有容许位置偏差或变形等的作用。另外,特征综合层内的神经元的各接受域,在同一层内的神经元之间具有共通的结构。
作为后续层的各特征检测层(1,1)、(1,2)、...、(1,M)和各特征综合层(2,1)、(2,2)、...、(2,M),与上述的各层同样,前者((1,1)、...),在各特征检测模块中进行多个不同特征的检测,后者((2,1)、...),对来自前级的特征检测层的关于多个特征的检测结果进行综合。前者的特征检测层,耦合(布线)成接受属于同一通道的前级的特征综合层的细胞元输出。作为由特征综合层进行的处理的子采样,对来自同一特征类别的特征检测细胞集团的从局部区域(该特征综合层神经元的局部接受域)的输出进行平均化等处理。
为了用图8中示出的神经网络检测图7A、7B、7C、7D所示的各特征,通过使用于各特征检测层的检测的接受域结构成为用于检测其特征的结构,能够进行各特征的检测。另外,还准备了使最终层的面部检测层的面部检测中使用的接受域结构适合于各种尺寸或各种转动量的结构,在面部特征的检测中,当得到了面部存在这样的结果时,根据用哪种接受域结构进行了检测,能够得到该面部的大小或方向等面部数据。
回到图2,接着,控制部101参照在步骤S202中由面部检测部102进行的面部区域检测处理的结果,判断在摄影图像中是否存在面部区域(步骤S203)。作为该判断方法,例如判断是否得到了四次特征图像,当得到了时判断为在摄影图像中存在面部区域。除此之外,还可以判断在(面部)特征检测层内的各神经元中是否存在输出值在某基准值以上的神经元,并假定为在基准值以上的神经元指示的位置上存在着面部(区域)。在这种情况下,当不存在基准值以上的神经元时,假定为面部不存在。
然后,当步骤S203中的判断处理的结果为在摄影图像中不存在面部区域时,由面部检测部102将该意思通知控制部101,因此将处理返回到步骤S201,控制部101控制摄像部100,对新的图像进行摄影。
另一方面,当存在面部区域时,由面部检测部102将该意思通知控制部101,并使处理进入步骤S204,控制部101将图像保存部105中所保存的摄影图像输出到表情判别部104,并将中间检测结果保存部103中所保存的特征图像输出到表情判别部104,表情判别部104利用所输入的特征图像和面部区域信息,进行判断摄影图像中的面部区域所包含的面部的表情的处理(步骤S204)。
此外,从图像保存部105输出到表情判别部104的图像在本实施方式中假定为整个摄影图像,但并不限定于此,例如也可以由控制部101利用面部区域信息确定出摄影图像中的面部区域,并仅将该面部区域的图像输出到表情判别部104。
以下,更详细地说明由表情判别部104进行的表情判断处理。如上所述,为判别面部表情,检测作为一般的表情描述法的FACS(FacialAction Coding System)中所使用的Action Unit(AU),根据检测出的AU的种类,能够进行表情判别。在AU中,有使眉的外侧上扬、使嘴唇横着拉长等,通过AU的组合可以描述人们的所有表情,因此,在原理上,如果能检测出全部的AU就可以判别所有的表情。但是,AU有44个,检测出全部是不容易的。
因此,在本实施方式中,如图9所示,将眉的端点(B1~B4)、眼的端点(E1~E4)、嘴的端点(M1、M2)作为在表情判别中使用的特征,通过求出这些特征点的相对位置的变化来判别表情。在这些特征点的变化中可以记述若干个AU,并可以进行基本的表情判别。此外,各表情的各特征点的变化,作为表情判别数据保存在表情判别部104中,在表情判别部104的表情判别处理中使用。
图9是表示各特征点的图。
图9中示出的用于表情检测的各特征点,为眼和眉等的端部,该端部的形状大致为右开的V字、左开的V字,因此,例如相当于图7B中示出的二次特征的右开V字特征710、左开V字特征711。
另外,在表情判别中使用的特征点的检测,在面部检测部102的面部检测处理的中间阶段进行。然后,将该面部检测处理的中间处理结果保存在中间特征结果保存部103内。
但是,右开V字特征710、左开V字特征711,除了在面部以外,也存在于背景等各种位置。因此,用由面部检测部102得到的面部区域信息确定二次特征图像中的面部区域,并在该区域内检测右开V字特征710、左开V字特征711的端点、即眉的端点、眼的端点、嘴的端点。
因此,如图9所示,在面部区域内,设定眉、眼的端点的搜索范围(RE1、RE2)和嘴的端点的搜索范围(RM)。然后,参照该设定好的搜索范围内的像素值,在构成右开V字特征710、左开V字特征711的像素群中,在图9的水平方向上检测两端的像素的位置,并以检测出的位置作为特征点的位置。此外,预先设定与面部区域的中心位置对应的该搜索范围(RE1、RE2、RM)的相对位置。
例如,在搜索范围RE1内,在构成右开V字特征710的像素群中,在图9的水平方向上端点的像素的位置为B1、E1,因此将其作为眉、眼的任何一个的一端的位置。并且,参照各位置B1、E1的垂直方向的位置,将位于上侧的作为眉的一端的位置。在图9中B1与E1相比处于上侧的位置,因此将B1作为眉的一端的位置。
这样,能够求出眼、眉的一端的位置。同样,在搜索范围RE1内,对左开V字特征711进行相同的处理,从而能够求出眼、眉的另一端的位置B2、E2的位置。
按照如上所述的处理,能够求出眼、眉、以及嘴的两端的位置,即各特征点的位置。此外,由于特征图像和摄影图像尺寸相同、且各像素一一对应,特征图像中的各特征点的位置,也可以直接作为摄影图像中的位置。
此外,在本实施方式中,在求取各特征点的处理中使用了二次特征,但并不限定于此,也可以使用一次特征或三次特征的任何一种或其组合。
例如,除右开V字特征710、左开V字特征711以外,也可以使用图7C中示出的作为三次特征的眼特征720和嘴特征721、及作为一次特征的纵特征701、横特征702、右上斜特征703、右下斜特征704。
用图10说明使用一次特征和三次特征求取特征点的处理。图10是用于说明在图9所示的面部区域中求取使用了一次特征和三次特征的特征点的处理的图。
如图10所示,设定眼搜索范围(RE3、RE4)和嘴搜索范围(RM2),然后,参照该设定好的搜索范围内的像素值,求取配置有构成眼特征720、嘴特征721的像素群的范围。并且,为了涵盖该范围,设定眉、眼的端点的搜索范围(RE5、RE6)和嘴的端点的搜索范围(RM3)。
然后,在各搜索范围(RE5、RE6、RM3)内,在由纵特征701、横特征702、右上斜特征703、右下斜特征704构成的连续的线段上进行跟踪,其结果是,在水平方向上求出两端的位置,能够求出眼、眉、嘴的两端。一次特征基本上是边缘抽取,因此,对各检测结果,通过使某阈值以上的区域细线化并跟踪其结果,能够检测端点。
以下,说明用求得的各特征点进行的表情判别处理。为了消除表情判别的个人差异,首先对无表情时的面部图像进行面部检测处理,并求出各局部特征的检测结果。然后,用这些检测结果,求取图9或图10中示出的各特征点的相对位置,并将其数据作为成为基准的相对位置保存在表情判别部104内。并且,表情判别部104,参照该基准的相对位置和上述求得的各特征点的相对位置,进行求出各特征点从基准改变了多少、即“偏差”的处理。此外,所拍摄的图像中的面部的尺寸和预先拍摄的无表情时的面部的尺寸一般是不同的,因此,根据求得的各特征点中的相对位置、例如两眼间的距离,将各特征点的位置标准化。
然后,对每个特征点求取依赖于该变化的得分,并根据该得分的分布判别表情。例如,表示喜悦表情的表情,可以观察到(1)眼角下垂、(2)脸颊肌肉隆起、(3)嘴的端部上扬等特征,因此,在“从眼的端点到嘴的端点的距离”、“嘴的横向的长度”、“眼的横向的长度”上呈现很大的变化。然后,根据这些变化求得的得分分布,即为喜悦表情所特有的得分分布。
该特有的得分分布对于其他表情可以说也是同样的,因此,对分布的形状进行混合高斯近似并进行参数化建模,并通过判断参数空间内的距离的大小,求出所求得的得分分布与对每种表情设定的得分分布的相似度判别。然后,使与求得的得分分布的相似度较高的得分分布(距离较小的得分分布)表示的表情为作为判断结果的表情。
另外,对得分总和,也可以应用进行阈值处理的方法。该阈值处理,能更有效地用于准确地判别与表情场面类似的非表情场面(例如,会话中发出“い”声时的面部)和表情场面。此外,也可以进行得分分布形状的判别和总和的阈值处理的任何一种处理。这样,通过得分分布和得分总和的阈值处理进行表情的判断,从而能够准确地识别表情场面并提高检测率。
通过以上的处理,能够判断面部的表情,因此,表情判别部104,输出与所判断的表情对应的代码(对各种表情单独设定的代码)。该代码,例如可以是序号,其表现方法并无特别的限定。
接着,表情判别部104,判断所判断的表情是否是预先设定的特定的表情(例如笑脸),并将该判断结果通知控制部101(步骤S205)。
此处,当由直到步骤S204的处理所判断的表情与预先设定的特定的表情相同时,例如在本实施方式的情况下,当表情判别部104输出的“表示表情的代码”和表示预先设定的特定的表情的代码一致时,控制部101将由图像保存部105保存着的摄影图像记录在记录部107内。另外,当记录部107是DVD-RAM、压缩闪速存储器(注册商标)时,控制部101控制记录部107,将摄影图像记录在DVD-RAM、压缩闪速存储器(注册商标)等记录介质内(步骤S206)。另外,也可以将记录的图像作为面部区域的图像、即特定的表情的面部图像。
另一方面,当由直到步骤S204的处理所判断的表情与预先设定的特定的表情不同时,例如在本实施方式的情况下,当表情判别部104输出的“表示表情的代码”和表示预先设定的特定的表情的代码不一致时,控制部101控制摄像部100,对新的图像进行摄影。
此外,当所判断的表情是特定的表情时,除上述以外,例如,在步骤S206中,也可以由控制部101控制摄像部100,一边对下一个图像进行摄影,一边将所拍摄的图像保存在记录部107内。另外,控制部101也可以控制显示部106,将所拍摄的图像显示在显示部106上。
一般地说,表情不会急剧地变化,而是有一定程度的连续性,因此,当上述步骤S202、步骤S204中的处理在较短的时间内结束时,大多是与示出特定表情的图像连续的图像也表示着同样的表情。因此,为了使步骤S202中检测出的面部区域更加清晰,也可以由控制部101设定摄影部100的摄影参数(曝光校正、自动对焦、颜色校正等摄像系统的摄像参数),进行再次摄影,并使其显示、记录那样地动作。
图11是表示本实施方式的图像处理设备的基本结构的图。
1001是CPU,利用存储在RAM1002和ROM1003内的程序和数据进行本设备整体的控制,并执行上述表情判断的一系列的处理。另外,CPU1001在图1中相当于上述控制部101。
1002是RAM,具有暂时存储从外部存储装置1007或记录介质驱动器1008载入的程序和数据、通过I/F1009从摄像部100输入的图像数据等的区域,并且还具有由CPU1001执行各种处理所需的区域。在图1中,中间检测结果保存部103和图像保存部105相当于该RAM1002。
1003是ROM,例如存储本设备整体的引导程序和设定数据等。
1004、1005分别为键盘、鼠标,分别用于对CPU1001输入各种指示。
1006是显示装置,由CRT或液晶屏等构成,能够显示由图像和文字等构成的各种信息。在图1中相当于显示部106。
1007是外部存储装置,起着硬盘驱动装置等大容量信息存储装置的作用,这里保存着OS(操作系统)或CPU1001为了执行上述表情判断的一系列处理而执行的程序等。而且,该程序根据来自CPU1001的指示被读出到RAM1002内并由CPU1001执行。此外,当通过程序实现图1中示出的面部检测部102、表情判别部104时,该程序包含与该面部检测部102、表情判别部104相当的程序。
1008是存储介质驱动装置,将记录在CD-ROM或DVD-ROM等存储介质内的程序和数据读出,并输出到RAM1002或外部存储装置1007。此外,也可以将CPU1001为了执行上述表情判断的一系列处理而执行的程序记录在该存储介质内,并由存储介质驱动装置1008根据来自CPU1001的指示将其读出到RAM1002内。
1009是I/F,用于将图1中示出的摄像部100与本设备连接,将摄像部100所拍摄的图像的数据通过I/F1009输出到RAM1002。
1010是将上述各部连接的总线。
接着,参照图12说明将本实施方式的图像处理设备安装在摄像设备内从而当被摄物体为特定表情时对其进行摄影的情况。图12是表示将本实施方式的图像处理设备应用于摄像设备的例的结构的图。
图12中的摄像设备5101,包括包含摄影镜头和变焦摄影用驱动控制机构的成像光学系统5102,CCD或CMOS图像传感器5103,摄像参数的测量部5104,视频信号处理电路5105,存储部5106,产生摄像动作的控制、摄像条件的控制等的控制用信号的控制信号产生部5107,兼作EVF等取景器使用的显示器5108,频闪发光部5109,记录介质5110等。还包括上述图像处理设备5111作为表情检测装置。
该摄像设备5101,由图像处理设备5111进行例如从所拍摄的图像中检测人物面部图像(检测存在位置、尺寸、转动角度)和检测表情的处理。而且,当该人物的位置信息和表情信息等从图像处理设备5111输入到控制信号产生部5107时,控制信号产生部5107,根据来自摄像参数测量部5104的输出,产生最适于拍摄该人物的图像的控制信号。具体地说,例如,可以将在摄影区域的中央以预定值以上的尺寸面向正面得到人物的面部图像、并具有微笑的表情的时刻作为摄影时刻。
通过这样将上述的图像处理设备用于摄像设备,将能够进行面部检测和表情检测,并在基于该检测的时刻进行最佳的摄影。此外,在以上的说明中,对将上述的处理设备设置为图像处理设备5111的摄像设备5101进行了说明,但当然也可以将上述算法作为程序来安装,并作为由CPU进行动作的处理装置安装在摄像设备5101内。
另外,作为可以应用于摄像设备的图像处理设备,并不限定于本实施方式,也可以应用以下说明的实施方式的图像处理设备。
如上所述,本实施方式的图像处理设备,由于使用一次特征、二次特征这样的局部特征,所以不仅能够确定摄影图像中的面部区域,而且能够更简便地进行表情的判断处理,而无需重新进行嘴或眼等的检测处理。
另外,即使摄影图像中的面部的位置和方向各种各样,也能求出上述各局部特征,其结果是,能够进行表情的判断处理,因此,能够按照摄影图像中的面部的位置和方向等进行稳健的表情判断。
另外,按照本实施方式,在进行多次摄影的过场中,可以仅对特定的表情进行摄影。
此外,在本实施方式中用于检测面部区域的图像是摄影图像,但并不限定于此,也可以是预先保存着的图像,还也可以是下载的图像。
在本实施方式中,并行地进行第1实施方式中的面部检测区域的检测处理(步骤S202)和表情判别处理(步骤S204)。由此,能以更高的速度进行整体的处理。
图3是表示本实施方式的图像处理设备的功能结构的图。在本实施方式的结构中,中间检测结果保存部303的结构及图像保存部305的结构与第1实施方式中的结构实质上不同。
中间检测结果保存部303,进一步由中间检测结果保存部A313和中间检测结果保存部B314构成。而且,图像保存部305也同样地由图像保存部A315和图像保存部B316构成。
接着,用图4的时序图说明图3中示出的结构的动作。
在图4的时序图中,“A”表示按A模式动作,“B”表示按B模式动作。所谓“图像摄影”的A模式,表示在将所拍摄的图像保存在图像保存部305内时将其保存在图像保存部A315内,所谓B模式,表示将其保存在图像保存部B316内。以下,图像摄影的A模式和B模式交替地切换,摄像部300响应该切换进行图像的摄影,因此摄像部300连续地对图像进行摄影。摄影的时序,由控制部101提供。
另外,所谓“面部检测”的A模式,表示在面部检测部302的面部区域处理中将中间检测结果保存在中间检测结果保存部303内时将其保存在中间检测结果保存部A313内,所谓B模式,表示将其保存在中间检测结果保存部B314内。
进一步,所谓“表情判别”的A模式,表示在表情判别部304的表情判别处理中利用保存在图像保存部A315中的图像和保存在中间检测结果保存部A313中的中间检测结果、以及面部检测部302的面部区域信息判别表情,所谓B模式,表示利用保存在图像保存部B316中的图像和保存在中间检测结果保存部B314中的中间特征检测结果、以及面部检测部302的面部区域信息判别表情。
以下,说明本实施方式的图像处理设备的动作。
首先,通过以图像摄影的A模式进行图像的摄影,将所拍摄的图像保存在图像保存部305的图像保存部A315内。并且,将图像显示在显示部306上,进一步将图像输入到面部检测部302。接着,在面部检测部302中,对所输入的图像,进行与第1实施方式同样的处理,从而进行生成面部区域信息的处理。然后,如果在图像中检测出面部,则将面部区域信息的数据输入到表情判别部304。另外,将在该面部检测处理的过程中得到的中间特征检测结果保存在中间检测结果保存部303的中间检测结果保存部A313内。
接着,并行地进行B模式的图像摄影和B模式的面部检测处理、A模式的表情判别处理。在B模式的图像摄影中,将所拍摄的图像保存在图像保存部305的图像保存部B316内。并且,将图像显示在显示部306上,进一步将图像输入到面部检测部302。然后,在面部检测部302中,对所输入的图像,进行与第1实施方式同样的处理,从而进行生成面部区域信息的处理,并将中间将处理结果保存在中间检测结果保存部B314内。
另外,与上述B模式的图像摄影和B模式的面部检测处理并行地进行A模式的表情判别处理。在A模式的表情判别处理中,由表情判别部304,利用来自面部检测部302的面部区域信息和保存在中间检测结果保存部A313中的中间特征检测结果,对从图像保存部A315输入的图像判别面部的表情。当由表情判别部304判断的表情为所希望的表情时,记录图像保存部A315的图像并结束处理。
当由表情判别部304判断的表情与所希望的表情不同时,接着,并行地进行A模式的图像摄影、A模式的面部区域检测处理以及B模式的表情判别处理。在A模式的图像摄影中,将所拍摄的图像保存在图像保存部305的图像保存部A315内。并且,将图像显示在显示部306上,进一步将图像输入到面部检测部302。接着,在面部检测部302中,对所输入的图像,进行检测面部区域的处理。同时,在并行地进行的B模式的表情判别处理中,由表情判别部304,利用来自面部检测部302的面部区域信息和保存在中间检测结果保存部B314中的中间检测结果,对从图像保存部B316输入的图像检测面部的表情。
以下,直到由表情判别部304判别的表情被判断为特定的表情为止,反复进行同样的处理。然后,当判别为所希望的表情时,如果表情判别处理是A模式,则记录图像保存部A315的图像并结束处理,如果是B模式,则记录图像保存部B316的图像并结束处理。
各处理中的模式的切换由控制部101进行,其时序为在控制部101检测到由面部检测部302进行的面部检测处理结束的时刻进行模式的切换。
这样,由于图像保存部305由图像保存部A315和图像保存部B316构成、且中间检测结果保存部303由中间检测结果保存部A313和中间检测结果保存部B314构成,所以能够并行地进行图像摄影、面部区域检测处理以及表情判别处理,结果,能够提高判别表情的图像的摄影速度。
本实施方式的图像处理设备,其目的在于,通过将第1、2实施方式中的面部检测部102进行的面部区域检测处理和表情判别部104进行的表情判别处理并行地进行,提高系统整体的性能。
在第2实施方式中,图像摄影和面部区域检测处理要比表情判别处理花费更多的动作时间,利用这种情况,将表情判别处理与下一个图像的摄影及下一个图像中的面部区域的检测处理并行地进行。与此不同,在本实施方式中,在面部检测处理中,第1实施方式的检测图7D中示出的四次特征量的处理与从一次特征量中检测三次特征量相比花费更多的处理时间,利用这种情况,面部区域信息利用前图像的检测结果,在眼或嘴这样的表情检测中使用的特征点的检测结果利用当前图像的检测结果。由此,能够实现面部区域检测处理和表情判别处理的并行处理。
图5是表示本实施方式的图像处理设备的功能结构的图。
摄像部500对时间序列图像或动图像进行摄像,并将各帧的图像数据输出到面部检测部502、图像保存部505、显示部506、记录部507。在本实施方式的结构中,实质上,面部检测部502和表情判别部504与第1实施方式中的不同。
面部检测部502,进行与第1实施方式的面部区域检测处理相同的处理,但当该处理结束时,将结束信号输出到表情判别部504。
表情判别部504,进一步具有包含前图像检测结果保存部514的结构。
以下,用图6所示的时序图说明图5中示出的各部进行的处理。
当由摄像部500对最初的帧的图像进行摄影时,将该图像的数据输入到面部检测部502。在面部检测部502中,通过对所输入的图像进行与第1实施方式同样的处理生成面部区域信息,并输出到表情判别部504。输入到表情判别部504的面部区域信息,被保存在前图像检测结果保存部514内。而且,在该过程中得到的中间特征检测结果,输入并保存在中间检测结果保存部503内。
接着,当由摄像部500对下1个帧的图像进行摄影时,将该图像的数据输入到图像保存部505。并且,将该所拍摄的图像显示在显示部506上,进一步将图像输入到面部检测部502。之后,面部检测部502,通过进行与第1实施方式同样的处理生成面部区域信息。当该面部区域检测处理结束时,面部检测部502,将该中间特征的检测结果输入到中间检测结果保存部503,并且输出表示应由表情判别部504进行的一系列的处理结束的信号。
然后,当表情判别部504的判别结果的表情不是所希望的表情时,将由面部检测部502得到的面部区域信息保存在表情判别部504的前图像检测结果保存部514内。
在表情判别部504中,当从面部检测部502接收到上述结束信号时,利用与保存在前图像检测结果保存部514中的前图像(一个或一个以上的前面帧的图像)对应的面部区域信息601、保存在图像保存部505中的当前图像(当前的帧的图像)、以及保存在中间检测结果保存部503中的当前图像的中间特征检测结果602,进行对当前图像的表情判别处理。
即,对与在一个或一个以上的前面帧的图像中由面部区域信息确定的区域在位置上对应的原图像中的区域,利用从该区域得到的中间检测结果进行表情判别处理。
如果对前图像摄影的时间与对当前图像摄影的时间之差很短,那么各图像中的面部区域的位置就没有很大的变化。因此,如上所述,通过对面部区域信息使用从前图像得到的结果并将图9、图10中示出的搜索区域设定得更大,能够抑制由前图像与当前图像的面部区域的位置等的偏差所带来的影响,并能进行表情的判别处理。
当由表情判别部504判断的表情是所希望的表情时,记录图像保存部505中的图像并结束处理。当由表情判别部504判别的表情与所希望的表情不同时,对下一个图像进行摄影,由面部检测部502进行面部检测处理,并由表情判别部504利用所拍摄的图像、保存在前图像检测结果保存部514中的对应于前图像的面部检测结果、以及保存在中间检测结果保存部503中的中间处理结果,进行表情的判别处理。
以下,直到由表情判别部504判别的表情为所希望的表情为止,反复进行同样的处理。然后,当判别为所希望的表情时,记录图像保存部505中的图像并结束处理。
这样,利用保存在前图像检测结果保存部514中的对应于前图像的面部区域信息和保存在中间检测结果保存部503中的中间特征检测处理结果进行表情的判别处理,从而能够并行地进行面部区域检测处理和表情判别处理,结果,能够提高判别表情的图像的摄影速率。
在上述实施方式中说明了用于判别面部的表情的技术,而在本实施方式中,说明用于判别该面部是谁的面部、即判别与面部对应的个人的技术。
图13是表示本实施方式的图像处理设备的功能结构的图。本实施方式的图像处理设备,由下述各部构成摄像部1300、控制部1301、面部检测部1302、中间检测结果保存部1303、个人判别部1304、图像保存部1305、显示部1306、记录部3107。以下,对各部进行说明。
摄像部1300,根据来自控制部1301的控制信号对图像进行摄影,并将该拍摄到的图像(摄影图像)输出到面部检测部1302、图像保存部1305、显示部1306或记录部1307。
控制部1301,进行用于控制本实施方式的图像处理设备整体的处理,与摄像部1300、面部检测部1302、中间检测结果保存部1303、个人判别部1304、图像保存部1305、显示部1306、记录部1307连接,对各部进行控制,以使各部按适当的时序动作。
面部检测部1302,进行在来自摄像部1301的摄影图像中检测面部区域(摄影图像中所包含的面部图像的区域)的处理。该处理,换句话说就是这样的处理,判别摄影图像中有无面部区域,当存在面部区域时求面部区域的数、摄影图像中的面部区域的坐标位置、面部区域的尺寸、面部区域在摄影图像中的转动量(例如设面部区域为矩形时,表示该矩形在摄影图像中向哪个方向倾斜了多少的转动量)。以下,将这些信息(摄影图像中的面部区域的数、摄影图像中的面部区域的坐标位置、面部区域的尺寸、面部区域在摄影图像中的转动量)统称为“面部区域信息”。因此,通过求取面部区域信息,能够确定摄影图像中的面部区域。
这些检测结果,输出到个人判别部1304。另外,还将检测处理过程中得到的后述的中间检测结果输出到中间检测结果保存部1303。
中间检测结果保存部1303,保存从面部检测部1302输出的上述中间特征检测结果。
个人判别部1304,接受从面部检测部1302输出的面部区域信息的数据和从中间检测结果保存部1303输出的上述中间特征检测结果的数据。然后,根据这些数据,进行该面部是谁的面部的判别处理。关于该判别处理,将在后文中详细说明。
图像保存部1305,暂时保存从摄像部1300输出的摄影图像,并根据控制部1301的控制信号,将所保存的摄影图像的全部或一部分输出到显示部1306、记录部1307。
显示部1306,例如由CRT或液晶屏等构成,显示从图像保存部1305输出的摄影图像的全部或一部分、或由摄像部1300拍摄的摄影图像。
记录部1307,由硬盘驱动器或将信息记录在DVD-RAM、压缩闪速存储器(注册商标)等记录介质上的装置构成,记录保存在图像保存部1305中的图像、或由摄像部1300拍摄的摄影图像。
以下,对由上述各部的动作执行的用于判别摄影图像中的面部是谁的面部的主处理,用表示该处理的流程图的图14进行说明。
首先,摄像部1300,根据来自控制部1301的控制信号对图像进行摄影(步骤S1401)。所拍摄的图像的数据,显示在显示部1306上,并且输出到图像保存部1305,进一步输入到面部检测部1302。
然后,面部检测部1302,用所输入的摄影图像,进行检测该摄影图像中的面部区域的处理(步骤S1402)。对该面部区域的检测处理用与第1实施方式相同的方式进行,因此其说明从略,但本实施方式的面部检测处理的主要特征在于,作为面部检测处理中的中间处理结果,检测出眼和嘴、眼或嘴的端点这样的在个人识别中有用的特征。
接着,控制部1301,参照在步骤S1402中由面部检测部1302进行的面部区域检测处理的结果,判断在摄影图像中是否存在面部区域(步骤S1403)。作为该判断方法,例如判断(面部)特征检测层内的各神经元中是否存在输出值在某基准值以上的神经元,并假定在基准值以上的神经元指示的位置上存在面部(区域)。而且,当不存在基准值以上的神经元时,假定面部不存在。
然后,当步骤S1403中的判断处理的结果为在摄影图像中不存在面部区域时,面部检测部1302将该意思通知控制部1301,因此将处理返回到步骤S1401,控制部1301,控制摄像部1300,对新的图像进行摄影。
另一方面,当存在面部区域时,面部检测部1302将该意思通知控制部1301,因此使处理进入步骤S1404,控制部1301,将面部检测部1302的中间检测结果信息保存在中间检测结果保存部1303内,同时将面部检测部1302的面部区域信息输入到个人判别部1304。
此处,面部的数,如上所述,可以由基准值以上的神经元数求得。此外,基于神经网络的面部检测,对面部的尺寸变动或转动变动是稳健的,因此,对图像中的1个面部,超过了基准值的神经元不限于1个。一般情况下具有多个。因此,根据超过了基准值的神经元间的距离将超过了基准值的神经元汇总,从而求出图像中的面部数数。而且,将这样汇总后的多个神经元的平均位置或重心位置作为面部的位置。
转动量或面部的大小按以下方式求出。如上所述,作为检测面部特征时的中间处理结果,取得眼或嘴的检测结果。就是说,如第1实施方式中的图10所示,用面部检测结果设定眼搜索范围(RE3、RE4)和嘴搜索范围(RM2),对于眼特征检测结果和嘴特征检测结果,能够在该范围内检测眼特征和嘴特征。具体地说,在这些范围的眼检测层的神经元和嘴检测层的神经元中,将超过了基准值的多个神经元的平均位置或重心位置作为眼(左右眼)、嘴的位置。并且,根据这3点的位置关系求出面部的大小或转动量。此外,当求取该面部的尺寸或转动量时,也可以只从眼特征检测结果求出两眼位置,就是说,不使用嘴特征,而是只从两眼位置求出面部的尺寸或转动量。
然后,个人判别部1304,利用面部区域信息和保存在中间检测结果保存部1303中的中间检测结果信息,进行摄影图像中的面部区域内所包含的面部是谁的面部的判别处理(步骤S1404)。
此处,说明个人判别部1304进行的判别处理(个人判别处理)。此外,在该说明中,首先对在该判别处理中使用的特征矢量进行说明,然后说明使用该特征矢量进行识别的识别器。
如在背景技术中所述,个人判别处理,一般与检测图像中的面部的位置或大小的面部检测处理分开独立进行。就是说,求取在个人判别处理中使用的特征矢量的处理,通常与面部检测处理是各自独立的。与此不同,在本实施方式中,从面部检测处理的中间处理结果求得在个人判别处理中使用的特征矢量,因此,要在进行个人判别处理的过程中求得的特征矢量的数比以往少即可,因此使整个处理更为简便。
图15A是表示在个人判别处理中使用的特征矢量1301的图,图15B是表示二次特征的右开V字特征检测结果的图,图15C是表示左开V字特征检测结果的图,图15D是表示包含面部区域的摄影图像的图。
此处,图15B、15C中的虚线,表示面部中的眼的边缘。该边缘,不是实际的特征矢量,而是为了易于理解V字特征检测结果与眼的关系而示出的。另外,在图15B中,1502a~1502d分别表示二次特征的右开V字特征检测结果中的各特征的神经元的点火分布区域,黑色表示大的值,白色表示小的值。同样,在图15C中,1503a~1503d分别表示二次特征的左开V字特征检测结果中的各特征的神经元的点火分布区域,黑色表示大的值,白色表示小的值。
另外,一般地说,如果是检测对象的平均的形状特征,则神经元的输出值为大的值,如果有转动或移动等变动,则输出值为小的值,因此,图15B、15C中示出的神经元的输出值的分布,从检测对象存在的坐标起向周围逐渐减弱。
如图15A中示意地示出的那样,在个人判别处理中使用的特征矢量1501,是保存在中间检测结果保存部1303内的中间检测结果之一,由二次特征的右开V字特征检测结果和左开V字特征检测结果生成。另外,该特征矢量,使用的不是图15D中示出的面部整体区域1505而是包含两眼的区域1504。更具体地说,可以认为在包含两眼的区域中分别排列右开V字特征检测层神经元的多个输出值和左开V字特征检测层神经元的多个输出值,通过比较相同坐标的输出值并选择大的值,生成特征矢量。
在背景技术中说明过的Eigenface法中,由被称作本征脸的基底对面部整体区域进行分解,并将其系数作为在个人判别中使用的特征矢量。就是说,在Eigenface法中,使用面部整体区域的特征进行个人判别。但是,如果是表示在个人之间不同倾向的特征,则不使用面部整体区域也可以进行个人判别。在图15D所示的包含两眼的区域的右开V字特征检测结果和左开V字特征检测结果中,包含着每个眼的大小、两眼间的距离、眉毛和眼的距离这样的信息,根据这些信息能够进行个人判别。
另外,Eigenface法,存在着易受照明条件的变化影响这样的缺点,但图15B、15C中示出的右开V字特征检测结果和左开V字特征检测结果,利用为了在照明条件或尺寸、转动变动下稳健地检测面部而训练过的接受域得到,因此,不易受照明条件或尺寸、转动变动的影响,适于生成用于进行个人判别的特征矢量。
进一步,如上所述,根据右开V字特征检测结果和左开V字特征检测结果生成用于进行个人判别的特征矢量,是非常简便的处理。这样,利用在面部检测处理的过程中得到的中间处理结果生成用于个人判别的特征矢量,是非常有用的。
在本实施方式中,利用所得到的特征矢量进行个人判别用的识别器,并无特别的限定,但作为一例有最邻近识别器。最邻近识别器是这样的方法,即将表示每个人的训练矢量作为原型存储,并根据所输入的特征矢量和最接近的原型所属的类识别对象。就是说,在上述的方法中,预先求出每个人的特征矢量并将其保存,求取从输入图像中求得的特征矢量与所保存的特征矢量的距离,并将表示最近距离的特征矢量的人作为识别结果。
另外,作为其他识别器,也可以使用由Vapnik等提出的SupportVector Machine(以下,记为SVM)。该SVM,按容差最大化基准从训练数据学习线性阈值元件的参数。
另外,还通过将被称作kernel trick的非线性变换进行组合,构成了识别性能优良的识别器(Vapnik,“Statistical Learning Theory”,JohnWiley & Sons(1998))。就是说,根据表示每个人的训练数据求出用于判别的参数,并根据该参数和从输入图像求得的特征矢量判别个人。SVM构成基本上识别2个类的识别器,因此,当判别多人时要将多个SVM组合后进行判别。
在步骤S1402中进行的面部检测处理,如上所述,使用了通过并行分层处理进行图像识别的神经网络。而且,检测各特征时使用的接受域,通过使用了大量的面部图像和非面部图像的学习而获得。就是说,可以认为,在进行面部检测处理的神经网络中,从输入图像中抽取在大量的面部图像中是通用的但与非面部图像却不通用的信息,并用该信息对面部和非面部进行区分。
与此不同,进行个人判别的识别器,设计成识别根据面部图像按每个人生成的特征矢量之差。就是说,对每个人准备多个表情和方向等稍有差别的面部图像,并将这些面部图像作为训练数据后,对每个人形成集群,使用SVM后,能够高精度地获得将各集群分离的面。
另外,如果是最邻近识别器,当提供数足够的原型时,具有能够达到贝斯差错概率的2倍以下的差错概率这样的理论根据,因而能够识别个人之间的差异。
图16是以表的形式示出在3个识别器中学习时分别使用的数据的图。即,图16的表,表示进行用于使面部检测识别器进行(包括A先生、B先生的)人面部检测的训练时使用的数据、进行用于使A先生识别器识别A先生的训练时使用的数据、以及进行用于使B先生识别器识别B先生的训练时使用的数据,在用于进行使用面部检测识别器的面部检测的训练时,将从用于采样的所有的人(A先生、B先生、其他的人)的面部图像求得的特征矢量作为正解数据使用,将不是面部图像的背景图像(非面部图像)作为非正解数据使用。
另一方面,在用于进行使用A先生识别器的A先生识别的训练时,将从A先生的面部图像求得的特征矢量用作正解数据,将从A先生以外的人(在图16为“B先生”、“其他人”)的面部图像求得的特征矢量用作非正解数据。至于背景图像,在训练时不使用。
同样,在用于进行使用B先生识别器的B先生识别的训练时,将从B先生的面部图像求得的特征矢量用作正解数据,将从B先生以外的人(在图16中为“A先生”、“其他人”)的面部图像求得的特征矢量用作非正解数据。至于背景图像,在训练时不使用。
因此,在检测作为三次特征的眼时使用的二次特征检测结果和在上述的个人判别中使用的二次特征检测结果,一部分共用,但如上所述,面部检测时用于检测眼特征的识别器(神经网络)和进行个人判别的识别器,不仅识别器的种类不同(即,第1实施方式中示出的神经网络与SVM或最邻近识别器不同),而且训练中使用的数据的组也不同,因此,即使使用共用的检测结果,从中抽取的用于识别的信息结果也不相同,前者可以检测眼,而后者可以判别个人。
此外,生成特征矢量时,如果由面部检测部1302得到的面部的尺寸或方向不在预定的范围内,则也可以对保存在中间检测结果保存部1303中的中间处理结果进行转动校正和尺寸标准化。个人判别的识别器,设计成能够够识别个人的细微差异,因此,将尺寸、转动统一,有使精度提高的倾向。转动校正和尺寸标准化,可以在从中间检测结果保存部1303读出时进行,以便将保存中间检测结果保存部1303中的中间处理结果输入到个人判别部1304。
通过以上的处理,可以进行面部的个人判别,因此,个人判别部1304,判断与所判断的个人对应的代码(对每个人单独设定的代码)是否与预先设定的与某个人对应的代码一致(步骤S1405)。该代码,例如可以是序号,其表现方法并无特别的限定。该判断结果通知控制部1301。
此处,当由直到步骤S1404为止的处理判断的个人与预先设定的特定的个人相同时,例如在本实施方式的情况下,当个人判别部1304输出的“表示个人的代码”与表示预先设定的特定的个人的代码一致时,控制部1301将保存在图像保存部1305中的摄影图像记录在记录部1307内。而且,当记录部1307是DVD-RAM、压缩闪速存储器(注册商标)时,控制部1301控制记录部1307,将摄影图像记录在DVD-RAM、压缩闪速存储器(注册商标)等记录介质内(步骤S1406)。另外,也可以将记录的图像作为面部区域的图像。
另一方面,当由直到步骤S1404为止的处理判断的个人与预先设定的特定的个人不同时,例如在本实施方式的情况下,当个人判别部1304输出的“表示个人的代码”与表示预先设定的特定的个人的代码不一致时,控制部1301控制摄像部1300,对新的图像进行摄影。
此外,当所判断的个人是特定的表情时,除上述以外,例如在步骤S1406中,也可以由控制部1301控制摄像部1300,一边对下一个图像进行摄影,一边将所拍摄的图像保存在记录部1307内。另外,控制部1301也可以控制显示部1306,将所拍摄的图像显示在显示部1306上。
另外,为了更清晰地对步骤S202中检测出的面部区域进行清晰地摄像,也可以由控制部1301设定摄像部1300的摄影参数(光校正、自动对焦、颜色校正等摄像系统的摄像参数),进行再次摄影,并使其显示、记录那样地动作。
如上所述,基于从分层地检测出的局部特征中检测最终的检测对象的算法,检测图像中的面部后,根据检测出的面部区域,不仅可以进行光校正、自动对焦、以及颜色校正等处理,还可以利用作为在该面部检测处理的过程中得到的中间特征检测结果的眼的候选检测结果和嘴的候选检测结果,使个人的判别无需进行用于检测眼或嘴的新的检测处理,具有能够在抑制处理成本的增加的同时对个人进行检测和摄影的效果。并且,可以进行能够适应面部的位置或尺寸等的变动的个人识别。
另外,本实施方式的图像处理设备,也可以是具有图11所示结构的计算机。而且,也可以适用于图12所示的摄像设备中的图像处理设备5111,在这种情况下,可以进行与个人的判别结果对应的摄影。
本实施方式的图像处理设备,对同1个图像进行上述第1实施方式中所述的面部区域检测处理、第1~第3实施方式中所述的表情判别处理、第4实施方式中所述的个人判别处理。
图17是表示本实施方式的图像处理设备的功能结构的图。基本上,是在第1实施方式的图像处理设备的结构中增加了第4实施方式的图像处理设备的结构和综合部1708。除综合部1708外,各部进行与上述实施方式中名称相同的部分相同的动作。即,来自摄像部1700图像,输出到面部检测部1702、图像保存部1705、记录部1707、显示部1706。面部检测部1702进行与上述实施方式相同的面部区域检测处理,并与上述实施方式同样地将检测处理结果输出到表情判别部1704、个人判别部1714。另外,还将该处理过程中得到的中间检测结果输出到中间检测结果保存部1703。表情判别部1704,进行与第1实施方式中的表情判别部104相同的处理。个人判别部1714,进行与第4实施方式中的个人判别部1304相同的处理。
综合部1708,接收面部检测部1702、表情判别部1704、个人判别部1714各自的处理结果的数据,利用这些数据,进行面部检测部1702检测出的面部是否是某特定的个人的面部的判断处理、并且当是特定的个人的面部时,进行该特定的面部是否是某特定的表情的判断处理。就是说,判别某特定的个人是否是特定的表情。
以下,对由上述各部的动作执行的用于判别摄影图像中的面部是谁的面部、且是怎样的表情的主处理,用表示该处理的流程图的图18进行说明。
从步骤S1801到步骤S1803的各步骤中的处理,分别与图14的从步骤S1401到步骤S1403的各步骤中的处理相同,因此其说明从略。即,在从步骤S1801到步骤S1803的处理中,由控制部1701和面部检测部1702判断在来自摄像部1700图像中是否存在着面部区域。
当存在时,使处理进入步骤S1804,表情判别部1704,通过进行与图2的步骤S204中的处理相同的处理,判别所检出的面部区域中的面部的表情。
然后,在步骤S1805中,个人判别部1714,通过进行与图14的步骤S1404中的处理相同的处理,对所检出的面部区域中的面部进行个人判别。
此外,步骤S1804、步骤S1805的各步骤中的处理,是对在步骤S1802中检测出的每个面部进行的处理。
接着,在步骤S1806中,综合部1708按每个面部,对从表情判别部1704输出的“与所判断的表情对应的代码”和从个人判别部1714输出的“与所判断的个人对应的代码”进行管理。
图19是表示该管理的数据的结构例的图。如上所述,表情判别部1704、个人判别部1714,共同对面部检测部1702检测出的每个面部进行表情判别和个人判别。因此,综合部1708,与每个面部所固有的ID(在图19中为数字1、2)相关联地管理“与所判断的表情对应的代码”和“与所判断的个人对应的代码”。例如,作为“与所判断的表情对应的代码”称作“笑脸”的代码和作为“与所判断的个人对应的代码”称作“A”的代码,与ID为1的面部相对应,因此与1的ID相关联地管理这些代码。这种管理当ID为2时也是一样。这样,综合部1708生成并保存用于管理各代码的表数据(例如具有图19所示的结构)。
之后,综合部1708,在步骤S1806中,通过参照该表数据判断特定的个人是否是某特定的表情。例如,如果假设用图19的表数据判断A先生是否是笑脸,则因图19的表数据中A先生是笑脸,所以判断为A先生在微笑。
当按如上方式判断的结果为特定的个人是某特定的表情时,综合部1708将该意思通知控制部1701,因此使处理进入步骤S1807,进行与图14的步骤S1406相同的处理。
另外,在本实施方式中连续地进行了面部检测处理和表情判别处理,但也可以使用第2、3实施方式中所述的方法。在这种情况下,能够缩短总的处理时间。
如上所述,根据本实施方式,通过从图像中检测面部、确定个人并确定其表情,可以从许多人中拍摄所希望的个人的所希望的表情的照片,例如,可以从许多孩子中对自己的孩子的笑脸的瞬间进行摄影。
就是说,如将本实施方式的图像处理设备应用于第1实施方式中所述的摄像设备的图像处理设备,能够进行个人判别处理、表情判别处理的两种处理,其结果是,可以进行特定的个人做出特定的表情时的摄影。进一步,通过识别特定的个人、表情,也可以作为人—机接口使用。
在本实施方式中,顺序地进行第5实施方式中所述的表情判别处理和个人判别处理。因此,能以更高的精度判别特定的个人的特定的表情。
图20是表示本实施方式的图像处理设备的功能结构的图。图20中示出的结构,与图18所示的第5实施方式的图像处理设备的结构相比,大体上相同,但在将个人判别部2014和表情判别部2004连接起来这一点,和使用了表情判别数据保存部2008来代替综合部1708这一点上不同。
图21是表示本实施方式的图像处理设备进行的主处理的流程图。以下,用图21说明本实施方式的图像处理设备进行的处理。
从步骤S2101到步骤S2103的各步骤中的处理,与图18的从步骤S1801到步骤S1803的各步骤中的处理相同,因而其说明从略。
在步骤S2104中,通过由个人判别部2014进行与步骤S1804相同的处理,进行个人判别处理。此外,步骤S2104中的处理,是对在步骤S1802中检测出的每个面部进行的处理。接着,在步骤S2105中,个人判别部2014,判断在步骤S2104中判断的面部是否是某特定的面部。例如,如第5实施方式所述,这通过参照管理信息(在这种情况下,为将各面部固有ID与表示个人的代码相关联的表)来完成。
然后,当表示特定的面部的代码与表示所判断的面部的代码一致时,即当在步骤S2104中判断的面部是某特定的面部时,个人判别部2014将该意思通知表情判别部2004,之后使处理进入步骤S2106,表情判别部2004,与第1实施方式同样地进行表情判别处理,但在本实施方式中,表情判别部2004在进行表情判别处理时,使用保存在表情判别数据保存部2008中的“与每个人对应的表情判别数据”。
图22是表示表情判别数据的结构例的图。如图22所示,预先为每个人准备出用于表情判别的参数。此处,所谓参数,除第1实施方式中所述的“眼的端点和嘴的端点的距离”、“嘴的横向的长度”、“眼的横向的长度”以外,还有“脸颊部分的影”和“眼下方的影”等。基本上,如第1实施方式所述,能根据与从无表情的图像数据生成的参照数据的差进行不依赖于个人的表情识别,但能通过检测依赖于个人的特别的变化而进行高精度的表情判别。
例如,对某特定的人物,如果假设当为笑脸时嘴向横向大大伸开、或在脸颊部分产生影、或在眼的下方产生影,则在对该人物的表情判别中,通过使用上述的特别的变化,可以进行精度更高的表情判别。
因此,表情判别部2004,接受表示个人判别部2014所判别的面部的代码,从表情判别数据保存部2008读出与该代码对应的表情判别用的参数。例如,当该表情判别数据具有如图22所示的结构时,如果个人判别部2014将像中的某个面部判别为A先生的面部并将表示A先生的代码输出到表情判别部2004,则表情判别部2004从表情判别数据保存部2008读出与A先生对应的参数(表示眼嘴间距离的变化率>1.1、脸颊区域边缘密度3.0、...的参数),并用该参数进行表情判别处理。
由此,表情判别部2004,检查通过进行第1实施方式中所述的处理求得的眼嘴间距离的变化率、脸颊区域边缘密度等是否在该参数指示的范围内,从而能以更高的精度进行表情判别。
回到图21,接着,表情判别部2004,判断在步骤S2106中判别的表情是否是预先设定的表情。这可以通过判别表示步骤S2106中判断的表情的代码与表示预先设定的表情的代码是否一致来完成。
并且,当一致时使处理进入步骤S2108,将该意思通知控制部1701,进行与图14的步骤S1406相同的处理。
这样,在确定每个人之后进行针对个人的表情判别,因此具有使表情识别的精度提高的效果。而且,通过从图像中检测面部、确定个人并确定其表情,可以从许多人中拍摄所希望的个人的所希望的表情的照片,例如,可以从许多孩子中对自己的孩子的笑脸的瞬间进行摄影。进一步,通过识别特定的个人、表情,也可以作为人机接口使用。
另外,在上述实施方式中,“某特定的个人”或“某特定的表情”,也可以由用户通过预定的操作部适当地设定。由此,在适当设定后当然还可以与其对应地变更表示它们的代码。
按照如上所述的本发明的结构,可以简便地进行图像中的面部是谁的面部或该面部的表情的判别。
另外,在图像中的面部的检测、表情判别、个人判别中,能以简便的方法与被摄物体的位置或方向的变动相对应。
本实施方式的图像处理设备的基本结构,具有图11中示出的结构。
图23是表示本实施方式的图像处理设备的功能结构的框图。
图像处理设备的功能结构,由以下各部构成图像输入部6100,按时间序列连续输入多个图像;特征量计算部6101,从由图像输入部6100输入的图像(输入图像)中抽取判别表情所需要的特征量;参照特征保存部6102,从预先准备的严肃面部(无表情)的参照面部中抽取并保存识别表情所需要的参照特征;特征量变化量计算部6103,通过计算由特征量计算部6101抽出的特征量和由参照特征保存部6102所保存的特征量的差量,计算面部的各特征量从参照面部的变化量;得分计算部6104,根据由特征量变化量计算部6103抽出的各特征的变化量,对每个特征计算得分;以及表情判断部6105,根据由得分计算部6104计算出的得分的总和,进行输入图像中的面部的表情的判断。
此外,图23中示出的各部也可以由硬件构成,但在本实施方式中,图像输入部6100、特征量计算部6101、特征量变化量计算部6103、得分计算部6104、表情判断部6105各部由程序构成,该程序存储在RAM1002内,通过CPU1001执行该程序,实现各部的功能。另外,参照特征保存部6102是RAM1002内的预定的区域,但也可以作为外部存储装置1007内的区域。
以下,更详细地说明图23中示出的各部。
图像输入部6100,作为输入图像,输入将从摄像机等得到的动图像按每1帧分割后的时间序列的面部图像。即,按照图11的结构,各帧的图像的数据,从与I/F1009连接的摄像机等摄像设备100,通过该I/F1009逐次地输出到RAM1002。
特征量计算部6101,如图24所示,由以下各部构成眼、嘴和鼻位置抽取部6110、边缘图像生成部6111、面部的各特征边缘抽取部6112、面部的特征点抽取部6113、以及表情特征量抽取部6114。图24是表示特征量计算部6101的功能结构的框图。
以下,对图24中示出的各部进行更详细的说明。
眼、嘴和鼻位置抽取部6110,从由图像输入部6100输入的图像(输入图像)中确定面部的预定部位,即眼、嘴和鼻的位置(输入图像中的位置)。确定眼或嘴的位置的方法,例如,可以采用如下的方法,即准备眼、嘴和鼻的各自的模板,通过进行模板匹配抽取候选的眼、嘴和鼻,进一步,在该抽取后,通过使用由模板匹配得到的候选的眼、嘴和鼻的空间配置关系和作为颜色信息的肤色信息,进行眼、嘴和鼻位置的检测。检测出的眼和嘴的位置数据,输出到后级的面部的各特征边缘抽取部6112。
接着,由边缘图像生成部6111从由图像输入部6100得到的输入图像中抽出边缘,在对所抽出的边缘追加了边缘膨胀处理后进行细线化处理,从而生成边缘图像。例如,在边缘抽取中可以使用基于Sobel滤镜的边缘抽取,在边缘膨胀处理中可以使用8近似膨胀处理,在细线化处理中可以使用Hilditch细线化处理。此处,边缘膨胀处理和细线化处理,将由于使边缘膨胀而分裂的边缘联结并进行细线化处理,其目的是平滑地进行后述的边缘扫描和特征点抽取。所生成的边缘图像,输出到后级的面部的各特征边缘抽取部6112。
在面部的各特征边缘抽取部6112中,利用由眼、嘴和鼻位置抽取部6110检测出的眼和嘴的位置数据和边缘图像生成部6111生成的边缘图像,确定图25所示那样的边缘图像中的眼区域、脸颊区域、嘴区域。
眼区域设定为在区域内只包含眉毛和眼的边缘,脸颊区域设定为只包含脸颊的边缘和鼻的边缘,并进行区域确定以使嘴区域只包含上唇边缘、牙齿边缘、下唇边缘。
此处,说明这些区域的设定处理的一例。
眼区域的纵向宽度这样设定,从根据模板匹配和空间配置关系求得的左眼位置检测结果和右眼位置检测结果的中点起,向上为左右眼位置检测间距离的0.5倍、向下为左右眼位置检测间距离的0.3倍的区域,作为眼的纵向区域。
眼区域的横向宽度这样设定,从根据模板匹配和空间配置关系求得的左眼位置检测结果和右眼位置检测结果的中点起,在左右分别为左右眼位置检测间距的区域,作为眼的横向区域。
就是说,眼区域的纵向边长为左右眼位置检测间距离的0.8倍,横向边长为左右眼位置检测间距离的2倍。
嘴区域的纵向宽度这样设定,从根据模板匹配和空间配置关系求得的嘴位置检测结果的位置起,向上为鼻位置检测与嘴位置检测间距离的0.75倍、向下为左眼位置检测结果和右眼位置检测结果的中点与嘴位置检测结果的距离的0.25倍的区域,作为纵向区域。将嘴区域的横向宽度这样设定,从根据模板匹配和空间配置关系求得的嘴位置检测结果的位置起,在左右分别为左右眼位置检测间距离的0.8倍的区域,作为嘴的横向区域。
脸颊区域的纵向宽度这样设定,从根据模板匹配和空间配置关系求得的左眼位置检测结果和右眼位置检测结果的中点与嘴位置检测结果的中点(为面部的中心附近的点)起,在上下分别为左眼位置检测结果和右眼位置检测结果的中点与嘴位置检测结果的距离的0.25倍的区域,作为纵向区域。
脸颊区域的横向宽度这样设定,从根据模板匹配和空间配置关系求得的左眼位置检测结果和右眼位置检测结果的中点与嘴位置检测结果的中点(为面部的中心附近的点)起,在左右分别为左右眼位置检测间距离的0.6倍的区域,作为脸颊的横向区域。
就是说,脸颊区域的纵向边长为左眼位置检测结果和右眼位置检测结果的中点与嘴位置检测结果的距离的0.5倍,横向边长为左右眼位置检测间距离的1.2倍。
通过以上的区域的设定处理,如图25所示,在眼区域内,从上起第1个边缘6120和边缘6121判断为眉毛的边缘、第2个边缘6122和边缘6123判断为眼的边缘,在嘴区域内,当闭上嘴时,如图25所示,从上起第1个边缘6126判断为上唇边缘、第2个边缘6127判断为下唇边缘,当张开嘴时,从上起第1个边缘判断为上唇边缘、第2个边缘判断为牙齿的边缘、第3个边缘判断为下唇边缘。
以上的判断结果,作为表示以上3个区域(眼区域、脸颊区域、嘴区域)分别为眼区域、脸颊区域、嘴区域的哪个区域的数据、及各区域的位置和尺寸的数据,由面部的各特征边缘抽取部6112生成,并与边缘图像一起输出到面部的特征点抽取部6113。
面部的特征点抽取部6113,通过利用从面部的各特征边缘抽取部6112输入的上述各种数据对边缘图像中的眼区域、脸颊区域、嘴区域内的边缘进行扫描,检测后述的各特征点。
图26是表示面部的特征点抽取部6113检测的各特征点的图。如该图所示,所谓各特征点,是指各边缘的端点、边缘上的端点间的中点,这些点中,例如,通过参照构成边缘的像素值(此处假定构成边缘的像素值为1,不构成边缘的像素值为0),求取横向坐标位置的最大值、最小值,能够求得边缘的端点,边缘上的端点间的中点,可以作为在边缘上简单地取得端点间的中点的横向坐标值的位置求得。
面部的特征点抽取部6113,作为特征点信息求取这些端点的位置信息,并分别将眼的特征点信息(眼区域内的各边缘的特征点的位置信息)、嘴的特征点信息(嘴区域内的各边缘的特征点的位置信息)与边缘图像一起输出到后级的表情特征量抽取部6114。
此外,关于特征点,也可以与眼、嘴、鼻的位置检测同样地使用计算眼、嘴、或鼻的端点位置的模板等,并不限定于利用边缘扫描的特征点抽出。
表情特征量抽取部6114,根据由面部的特征点抽取部6113得到的各特征点信息,计算表情判别所需要的“额头周围的边缘密度”、“眉毛边缘的形状”、“左右眉毛边缘间的距离”、“眉毛边缘和眼的边缘间的距离”、“眼的端点和嘴端点的距离”、“眼的线边缘的长度”、“眼的线边缘的形状”、“脸颊周围的边缘密度”、“嘴的线边缘的长度”、“嘴的线边缘的形状”等特征量。
此处,所谓“眼的端点和嘴端点的距离”,是从图26的特征点6136(右眼的右端点)的坐标位置到特征点6147(唇的右端点)的坐标位置的纵向距离、同样是从特征点6141(左眼的左端点)的坐标位置到特征点6149(唇的左端点)的坐标位置的纵向距离。
另外,所谓“眼的线边缘的长度”,是从图26的特征点6136(右眼的右端点)的坐标位置到特征点6138(右眼的左端点)的坐标位置的横向距离、或从特征点6139(左眼的右端点)的坐标位置到特征点6141(左眼的左端点)的坐标位置的横向距离。
另外,所谓“眼的线边缘的形状”,如图27所示,计算由特征点6136(右眼的右端点)和特征点6137(右眼的中点)限定的线段(直线)6150、由特征点6137(右眼的中点)和特征点6138(右眼的左端点)限定的线段(直线)6151,并根据该计算出的2条直线6150和直线6151的斜度判断形状。
该处理,对求取左眼的线边缘的形状也是一样,只是采用的特征点不同。即,求出由特征点(左眼的右端点)和特征点(左眼的中点)限定的线段的斜度、由特征点(左眼的中点)和特征点(左眼的左端点)限定的线段的斜度,由此进行同样的判断。
另外,“脸颊周围的边缘密度”,是表示在上述脸颊区域内构成边缘的像素的数。由于脸颊肌肉隆起而产生“皱纹”,由此将产生长度、粗细程度不同的各种边缘,因此,作为这些边缘的量,对构成这些边缘的像素的数(像素值为1的像素的数)进行计数,并除以构成脸颊区域的像素数,从而能求出密度。
另外,所谓“嘴的线边缘的长度”,是表示当在嘴区域内对所有的边缘进行扫描并将构成边缘的像素中横向坐标位置最小的像素作为特征点(嘴的右端点)、将最大的像素作为特征点(嘴的左端点)时,从特征点(嘴的右端点)的坐标位置到特征点(嘴的左端点)的坐标位置的距离。
如上所述,为了求特征量而求出端点间的距离、由2个端点限定的线段的斜度、边缘密度,但这种处理换句话说就是求出各部位的边缘的长度或形状等的特征量。因此,在下文中,有时将这些边缘的长度或形状统称为“边缘的特征量”。
按照如上所述的方式,特征量计算部6101,能够从输入图像中求出各特征量。
回到图23,在参照特征保存部6102内,在进行表情判别处理之前,预先保存着通过由特征量计算部6101进行的上述特征量检测处理从作为严肃面孔的无表情图像中检测出的该无表情的面部的特征量。
因此,在以下说明的处理中,求出由特征量计算部6101通过上述特征量检测处理从输入图像的边缘图像中检测出的特征量距离该参照特征保存部6102保存的特征量发生了多大的变化,并根据该变化量进行输入图像中的面部表情的判别。因此,以下,有时将由参照特征保存部6102保存的特征量称为“参照特征量”。
首先,特征量变化量计算部6103,计算由特征量计算部6101通过上述特征量检测处理从输入图像的边缘图像中检测出的特征量与参照特征保存部6102保存的特征量的差。例如,计算由特征量计算部6101通过上述特征量检测处理从输入图像的边缘图像中检测出的“眼的端点和嘴端点的距离”与参照特征保存部6102保存的“眼的端点和嘴端点的距离”的差,并将其作为特征量的变化量。对每个特征量进行这种差计算,换句话说,就是求取各部位的特征量的变化。
此外,当计算由特征量计算部6101通过上述特征量检测处理从输入图像的边缘图像中检测出的特征量与参照特征保存部6102保存的特征量的差时,当然,是求取相同特征的特征量之间的差(例如,由特征量计算部6101通过上述特征量检测处理从输入图像的边缘图像中检测出的“眼的端点和嘴端点的距离”与参照特征保存部6102保存的“眼的端点和嘴端点的距离”的差计算),因此,各个特征量必须具有相关关系,但对这种方法并无特别的限定。
此外,该参照特征量对每个用户有时也有很大的差别,在这种情况下,该参照特征量尽管对某个用户适合,有时对其他用户就不适合。因此,也可以在参照特征保存部6102内存储多个用户的参照特征量。在这种情况下,在从上述图像输入部6100输入图像的前级,预先输入表示输入的是谁的面部图像的信息,当由特征量变化量计算部6103进行处理时,如果以该信息为基础确定参照特征量,则能够用每个用户的参照特征量计算上述的差,能更进一步地提高后述的表情判别处理的精度。
另外,在该参照特征保存部6102内也可以不保存每个用户的参照特征量,而是保存着通过由特征量计算部6101进行的上述特征量检测处理从平均的面部的无表情的图像中检测出的该无表情的面部的特征量。
这样,将由特征量变化量计算部6103求得的表示各部位的特征量的变化的各变化量的数据,输出到后级的得分计算部6104。
得分计算部6104,根据各特征量的变化量和预先求出的由存储器(例如RAM1002)保存的“权重”,计算得分。关于权重,预先按每个部位进行对变化量的个人差别等的分析,并根据该分析结果对每个特征量设定适当的权重。
例如,对眼的边缘的长度等变化量较小的特征和皱纹等在变化量上有个人差异的特征赋予小的权重,对眼和嘴的端点距离等在变化量上很难产生个人差异的特征赋予大的权重。
图28是为了根据作为一例的在变化量上存在着个人差异的特征即眼的边缘的长度的变化量计算得分而参照的曲线图。
横轴表示特征量变化量(以下,为用参照面部上的特征量标准化了的值),纵轴表示得分,例如,设眼的边缘的长度的变化量为0.4时,得分根据曲线计算为50分。当眼的边缘的长度的变化量为1.2时,得分也计算为50分,使其与变化量为0.3时一样,即使变化量随个人差异有很大的不同时也进行使得分差减小的加权。
图29是为了根据变化量不存在个人差异的特征即眼和嘴的端点距离的长度的变化量计算得分而参照的曲线图。
与图28一样,横轴表示特征量变化量,纵轴表示得分,例如,当眼和嘴的端点距离的长度的变化量为1.1时,根据曲线计算为50分。当眼和嘴的端点距离的长度的变化量为1.3时,根据曲线计算为55分。就是说,当变化量随个人差异有很大的不同时进行使得分差加大的加权。
即,“权重”,与得分计算部6104计算得分时的变化量区分幅度和得分幅度之比相对应。这样,通过进行对每个特征量设定权重这样的步骤,吸收特征量变化量的个人差异,进一步,由于表情判别不只取决于1个特征,能够减小误检测或未检测,并能提高表情判别(识别)率。
此外,在RAM1002内保存着图27、28中示出的曲线图的数据、即表示特征量的变化量和得分的对应关系的数据,用该数据计算得分。
由得分计算部6104求得的每个特征量的得分的数据,与表示各得分与哪个特征量对应的数据一起,输出到后级的表情判断部6105。
在RAM1002内,在进行表情判别处理之前,预先保存着由得分计算部6104通过上述处理在各种表情中求出的每个特征量的得分的数据。
因此,表情判断部6105,通过进行1每个特征量的得分的总和值与预定的阈值的比较处理2比较每个特征量的得分分布与每个表情的每个特征量的得分分布的处理进行表情的判别。
例如,表示喜悦表情的表情,可以观察到1眼角下垂2脸颊肌肉隆起3嘴的端部上扬等特征,因此,所计算的得分的分布,如图31所示,“眼的端点和嘴端点的距离”、“脸颊周围的边缘密度”、“嘴的线边缘的长度”的得分非常高,接着,“眼的线边缘的长度”、“眼的线边缘的形状”的得分也具有比其他特征量高的得分,成为喜悦表情所特有的得分分布。该特有的得分分布,对其他表情可以说也是同样的。图31是表示与喜悦的表情对应的得分分布的图。
因此,表情判断部6105,确定由得分计算部6104求出的每个特征量的得分的分布的形状最接近于哪种表情所特有的得分分布的形状,示出最接近的形状的得分分布的表情,就是应作为判断结果输出的表情。
此处,作为搜索形状最接近的得分分布的方法,例如,对分布的形状进行混合高斯近似并进行参数化建模,并通过判断参数空间内的距离的大小,求出所求得的得分分布和对每种表情设定的得分分布的相似度判别。然后,将与求得的得分分布的相似度较高的得分分布(距离较小的得分分布)表示的表情作为判断的候选。
接着,进行判断由得分计算部6104求得的每个特征量的得分的总和是否在阈值以上的处理。该比较处理,是能更有效地用于将与表情场面类似的非表情场面准确地判断为表情场面的处理。因此,当该总和值在预定的阈值以上时,将上述候选判别为最终判断的表情。另一方面,当该总和值小于预定的阈值时,将上述候选去除,并判断为输入图像中的面部为无表情或非表情。
另外,在上述得分分布的形状的比较处理中,也可以在上述相似度为一定值以下时判断为在该时刻输入图像中的面部为无表情或非表情,并且不进行得分计算部6104求得的每个特征量的得分的总和值与阈值的比较处理而结束处理。
图30是利用由得分计算部6104求得的每个特征点的得分判断输入图像中的面部表情是否是“特定的表情”时的判断处理的流程图。
首先,表情判断部6105,判断由得分计算部6104求得的每个特征量的得分的分布的形状是否近似于特定的表情所特有的得分分布的形状(步骤S6801)。例如当求得的得分分布与特定的表情的得分分布的相似度在预定值以上时,判断为“由得分计算部6104求得的每个特征量的得分的分布的形状近似于特定的表情所特有的得分分布的形状”。
当判断为近似时,使处理进入步骤S6802,接着,进行由得分计算部6104求得的每个特征量的得分的总和值是否在预定的阈值以上的判断处理(步骤S6802)。然后,当判断为在阈值以上时,将输入图像中的面部的表情判断为是上述“特定的表情”,并输出该判断结果。
另一方面,当在步骤S6801中判断为不近似时,如果在步骤S6802中判断为上述总和值小于阈值,则使处理进入步骤S6804,输出表示输入图像为非表情图像、或为无表情图像这种意思的数据(步骤S6804)。
此外,在本实施方式中,作为表情判别处理,进行了两种比较处理,即每个特征量的得分的总和值与预定的阈值的比较理,及每个特征量的得分分布与每种表情的每个特征量的得分分布的比较处理,但并不限定于此,也可以只进行其中任何一种比较处理。
根据本实施方式,通过以上的处理,进行得分分布的比较处理和与得分的总和值的比较处理,因此,能够准确地判别输入图像中的面部的表情是哪种表情。而且,还能够判别输入图像中的面部的表情是否是特定的表情。
图32是表示本实施方式的图像处理设备的功能结构的框图。对与图23相同的部分赋予相同的标号,其说明从略。此外,至于本实施方式的图像处理设备的基本结构,与第7实施方式相同、即与图11所示的相同。
以下,说明本实施方式的图像处理设备。如上所述,在本实施方式的图像处理设备的功能结构中,与第7实施方式的图像处理设备的功能结构的不同点是表情判别部6165。因此,在下文中,对表情判别部6165进行详细说明。
图33是表示表情判断部6165的功能结构的框图。如该图所示,表情判断部6165,由表情可能性判断部6170和表情确定部6171构成。
表情可能性判断部6170,利用从得分计算部6104求得的每个特征量的得分分布和各得分的总和值进行与第7实施方式相同的表情判断处理,并将该判断结果作为“表情的可能性判断结果”。例如,当进行是否是喜悦的表情的判断时,不是根据由得分计算部6104得到的得分分布和总和值判断为“是喜悦表情”,而是判断为“具有是喜悦表情的可能性”。
例如,在作为非表情场面的会话场面中发出“い”和“え”声时的面部的各特征变化,与喜悦场面的各特征变化是基本上完全相同的特征变化,因此,这种可能性判断,是为区别作为这些会话场面的非表情场面与喜悦场面而进行的。
接着,表情确定部6171,利用由表情可能性判断部6170得到的表情可能性判断结果,进行是某特定的表情这样的判断。图34是使横轴为固有地对时间序列图像中的每一个赋予的图像序号、纵轴为得分总和与阈值线之差,示出从作为严肃面孔的无表情场面变化为喜悦表情场面时的得分总和与阈值线之差的图。
图35是使横轴为时间序列图像的图像序号、纵轴为得分总和与阈值线之差,示出作为非表情场面的会话场面的得分总和与阈值线之差的图。
当参照图34的从无表情场面变化为喜悦表情场面的情况时,从初始过程起在中间过程中的得分变化变动很大,但过了中间过程后得分变动变得缓和,最终得分基本保持一定。就是说,呈现出这样的情况从自无表情场面变化到喜悦表情场面的初始过程起在中间过程中面部的眼和嘴等各部位产生急剧的变动,但从中间过程变为喜悦的过程期间眼和嘴的各特征的变动变得缓和,最终保持不变。
该面部的各特征的变动特性对其他表情可以说是一样的。相反,当参照图35的作为非表情场面的会话场面时,在眼和嘴的面部的各特征的变化与喜悦基本相同的发出“い”声的会话场面中,存在得分超过阈值线的图像。但是,在发出“い”声的会话场面中,与喜悦表情场面不同,面部的各特征总是发生急剧的变化,因此,即使得分在阈值线以上,也能观察到得分马上要变为阈值线以下的倾向。
因此,通过进行由表情可能性判断部6170执行表情的可能性判断并由表情确定部6171根据该表情可能性判断结果的连续性确定表情的步骤,可以更准确地判别会话场面和表情场面。
此外,在关于人进行的面部表情认知的视觉心理研究中,表情表露中的面部的动作、特别是速度是左右依据表情的感情类别判断的主要原因,这一点在M.Kamachi,V.Bruce,S.Mukaida,J.Gyoba,S.Yoshikawa,and S.Akamatsu,“Dynamic prope rties inftuence theperception of facial expression”Perception,vol.30,pp.875-887,July2001中也说得很清楚。
以下,详细说明表情可能性判断部6170、表情确定部进行的处理。
首先,假定可能性判断部6170对某输入图像(第m帧图像)判断为“是第1表情”。将该判断结果作为可能性判断结果输出到表情确定部6171。表情确定部6171并不立即输出该判断结果,而是代之以对由可能性判断部6170判断为是第1表情的次数进行计数。当可能性判断部6170判断为是与第1表情不同的第2表情时,该计数重置为0。
此处,表情确定部6171不立即输出该表情的判断结果(是第1表情的判断结果)的原因在于,如上所述,此处判断的表情仍存在着因上述种种原因引起的不明确的可能性。
可能性判断部6170对随后的第(m+1)帧输入图像、第(m+2)帧输入图像、...这样的各输入图像进行表情判断处理,当表情确定部6171的计数值达到了n时,即,当可能性判断部6170对从第m帧起连续的n个帧全部判断为“是第1表情”时,表情确定部6171将表示该时刻是“第1表情的开始时刻”、即第(m+n)帧是开始帧的数据记录在RAM1002内,并将该时刻以后、直到可能性判断部6170判断为是与第1表情不同的第2表情的时刻为止作为喜悦的表情。
正如以上用图34所述的那样,在表情场面中一定期间的得分总和与阈值之差保持不变、即在一定期间内持续着相同的表情。相反,当在一定期间不持续着相同的表情时,如以上用图35所述,有可能是作为非表情场面的会话场面。
因此,如果通过可能性判断部6170进行的上述处理判断在一定期间(此处为n个帧)相同表情的可能性,则开始将该表情作为最终的判断结果输出,因此,能够消除上述的作为非表情场面的会话场面等导致的表情判断处理中成为干扰的因素,能进行更准确的表情判断处理。
图36是由表情确定部6171进行的在从图像输入部6100连续输入的图像中确定喜悦的表情的开始时刻的处理的流程图。
首先,当可能性判断部6170的可能性判断结果为表示是喜悦时(步骤S6190),使处理进入步骤S6191,当表情确定部6171的计数值达到了p(图36中假定p=4)时(步骤S6191),即,当可能性判断部6170的可能性判断结果是连续p个帧判断为喜悦时,将该时刻判断为“喜悦开始”,并将表示该意思的数据(例如当前的帧序号数据、及表示喜悦开始的标志数据)记录在RAM1002内(步骤S6192)。
通过以上的处理,能够确定喜悦表情的开始时刻(开始帧)。
图37是由表情确定部6171进行的在从图像输入部6100连续输入的图像中确定喜悦的表情的结束时刻的处理的流程图。
首先,表情确定部6171,参照在步骤S6192中记录在RAM1002内上述标志数据,判断当前喜悦的表情是否已开始且尚未结束(步骤S6200)。如后文所述,喜悦的表情结束后标志数据就被改写为结束的意思,因此,通过参照该数据,能够判断当前喜悦的表情是否结束了。
当喜悦的表情尚未结束时,使处理进入步骤S6201,当由表情可能性部6170连续q(图37中假定q=3)个帧判断为不存在是喜悦的可能性时(表情确定部6171的计数值为q个帧连续为0时),将该时刻判断为“喜悦结束”,并将上述标志数据改写为“表示喜悦结束的数据”后记录在RAM1002内(步骤S6202)。
但是,当在步骤S6201中表情可能性部6170没有连续q个帧判断为不存在是喜悦的可能性时(表情确定部6171的计数值不是q个帧连续为0时),作为最终的表情判断结果,将输入图像中的面部的表情判断为“喜悦继续”,不对上述数据进行操作。
并且,喜悦表情结束后,表情确定部6171,将从开始时到结束时的各帧中的表情判断为“喜悦”。
这样,通过确定表情开始图像和表情结束图像并将其间的图像全部判断为表情图像,能够抑制对其间的图像的表情判断处理的误判断等的发生,整体上能提高的表情判断处理的精度。
此外,在本实施方式中,以用于判断“喜悦”表情的处理为例进行了说明,但显然即使该表情是“喜悦”以外的表情其处理内容也基本相同。
图38是表示本实施方式的图像处理设备的功能结构的框图。对进行与图23基本相同动作的部分赋予相同的标号,其说明从略。至于本实施方式的图像处理设备的基本结构,与第7实施方式相同、即与图11所示的相同。
本实施方式的图像处理设备,输入至少1个的输入图像中的面部的表情是何种表情的候选,判断输入图像中的面部的表情是该输入的至少1个表情中的哪一个。
以下,对本实施方式的图像处理设备进行更详细的说明。如上所述,在本实施方式的图像处理设备的功能结构中,与第7实施方式的图像处理设备的功能结构的不同点在于,表情选择部6211、特征量计算部6212、表情判断部6105。因此,在下文中,对表情选择部6211、特征量计算部6212、表情判断部6105进行详细说明。
表情选择部6211,用于输入至少1个的表情的候选。在输入中例如可以用键盘1004或鼠标1005,在显示装置1006的显示画面上所显示的用于选择多个表情的GUI上,选择至少1个的表情。此外,所选定的结果作为代码(例如序号)输出到特征量计算部6212、特征量变化量计算部6103。
特征量计算部6212,进行从由图像输入部6100输入的图像中的面部,求取用于识别由表情选择部6211选定的表情的特征量的处理。
表情判断部6105,进行判别从图像输入部6100输入的图像中的面部是由表情选择部6211选定的表情中的哪一种的处理。
图39是表示特征量计算部6212的功能结构的框图。此外,在该图中对与图24相同的部分赋予相同的标号,其说明从略。以下,对图39中示出的各部进行说明。
每个表情的特征量抽取部6224,利用由面部的特征点抽取部6113得到的特征点信息,计算与表情选择部6211选定的表情对应的特征量。
图40是表示与表情选择部6211选定的各表情(表情1、表情2、表情3)对应的特征量的图。例如,按照该图,为了识别表情1需要计算特征1~4,为了识别表情3需要计算特征2~5。
例如,当假定由表情选择部6211选定了喜悦表情时,喜悦表情所需要的特征为眼和嘴的端点距离、眼的边缘的长度、眼的边缘的斜度、嘴的边缘的长度、嘴的边缘的斜度、脸颊周围的边缘密度6个特征,这样不同表情需要单独设定的特征量。
假定在RAM1002内预先记录有表示这种识别各表情所需要的特征量的表(表示图40中举例示出的对应关系的表)、即在从表情选择部6211输入的表示表情的代码、和表示为了识别该表情而求取怎样的特征量的数据之间建立对应关系的表。
如上所述,从表情选择部6211输入与选定的表情对应的代码,因此,特征量计算部6212,通过参照该表,能够确定用于识别与该代码对应的表情的特征量,其结果是,能够计算与表情选择部6211选定的表情对应的特征量。
回到图38,接着,后级的特征量变化量计算部6103,与第7实施方式同样地计算特征量计算部6212计算的特征量与参照特征保存部6102保存的特征量的差。
特征量计算部6212计算的特征量,其个数和种类随表情而不同。因此,本实施方式的特征量变化量计算部6103,从参照特征保存部6102读出并使用识别由表情选择部6211选定的表情所需要的特征量。识别由表情选择部6211选定的表情所需要的特征量的确定,可以参照特征量计算部6212所使用的上述的表来确定。
例如,喜悦表情所需要的要特征为眼和嘴的端点距离、眼的边缘的长度、眼的边缘的斜度、嘴的边缘的长度、嘴的边缘的斜度、脸颊周围的边缘密度6个特征,因此从参照特征保存部6102读出并使用与这6个特征相同的特征。
从特征量变化量计算部6103输出各特征量的变化量,因此,得分计算部6104进行与第7实施方式同样的处理。在本实施方式中,有时由表情选择部6211选择出多个表情,因此,对所选定的每个表情分别进行与第7实施方式同样的得分计算处理,对每个表情计算每个特征量的得分。
图41是表示根据各变化量计算每种表情的得分的情况的示意图。
表情判断部6105,对表情选择部6211选择出的多个表情的每一个求取得分的总和值。在该每个表情的总和值中,可以将具有最高值的表情作为输入图像中的面部的表情。
例如,在喜悦、悲伤、愤怒、惊讶、厌恶、恐怖的表情中,如果喜悦表情为最高得分总和,则将表情判断为喜悦表情。
本实施方式的图像处理设备,当判断了输入图像中的面部的表情时,进一步,判断表情场面中的表情的程度。本实施方式的图像处理设备的基本结构、功能结构,也可以应用第7~9的任何实施方式中的结构。
首先,在判断表情的程度的方法中,对由表情判断部判断为某特定的表情的输入图像,参照由得分计算部计算出的得分变化的趋势或得分总和。
由得分计算部计算出的得分总和与得分总和的阈值相比较,如果与阈值之差小,则判断为喜悦的程度小。相反,由得分计算部计算出的得分总和与阈值相比较,如果与阈值之差大,则判断为喜悦的程度大。这种方法,对喜悦的表情以外的其他表情也能够同样地判断表情的程度。
在上述实施方式中,也能够根据由得分计算部计算出的眼的形状的得分判断眼是否闭着。
图43是示出参照面部的眼的边缘、即睁开眼时的眼的边缘的图,图44是示出闭上眼时的眼的边缘的图。
由特征抽取部抽出的闭上眼时的边缘6316的长度,与参照图像的眼的边缘6304的长度相比完全没有变化。
但是,将图43的睁开眼时的眼的边缘6304的特征点6305和6306连接后得到的直线6308的斜度,与将图44的闭上眼时的眼的边缘6316的特征点6310和6311连接后得到的直线6313的斜度相比,当从睁眼的状态变化到闭眼的状态时,直线的斜度的变化量为负。
另外,从图43的睁开眼时的眼的边缘6304的特征点6306和6307得到的直线6309的斜度,与从图44的闭上眼时的眼的边缘6316的特征点6311和6312得到的直线6314的斜度相比,当从睁眼的状态变化到闭眼的状态时,直线的斜度的变化量为正。
因此,当眼的边缘的长度完全没有变化、从眼的边缘得到的上述左右2条直线的斜度的变化量的绝对值与参照图像的眼的边缘相比分别在某预定值以上、且一方为负的变化而另一方为正的变化时,可以判断为闭眼的可能性高,根据直线的斜度的变化量使在端部由得分计算部得到的得分减小。
图42是根据由得分计算部计算出的眼的形状的得分判断眼是否闭着的处理的流程图。
如上所述,判断与眼的形状对应的得分是否在阈值以下,如果在阈值以下则判断为眼闭着,否则判断眼没有闭着。
图45是表示本实施方式的图像处理设备的功能结构的框图。对进行与图23基本相同动作的部分赋予相同的标号,其说明从略。此外,至于本实施方式的图像处理设备的基本结构,与第7实施方式相同、即与图11所示的相同。
特征量抽取部6701,如图46所示,由以下各部构成鼻、眼和嘴位置计算部6710、边缘图像生成部6711、面部的各特征边缘抽取部6712、面部的特征点抽取部6713、以及表情特征量抽取部6714。图46是表示特征量抽取部6701的功能结构的框图。
标准化特征变化量计算部6703,计算从特征量抽取部6701得到的各特征量和从参照特征保存部6702得到的各特征量之比。此外,当假定为检测笑脸时,由标准化特征变化量计算部6703计算的各特征变化量,为“眼和嘴的端点距离”、“眼的边缘的长度”、“眼的边缘的斜度”、“嘴的边缘的长度”、“嘴的边缘的斜度”。进一步,根据面部的尺寸变动或面部的转动变动将各特征量标准化。
说明由标准化特征变化量计算部6703得到的各特征变化量的标准化方法。图47是表示图像的面部中的眼、鼻的重心位置的图。在图47中,6720、6721分别表示右眼、左眼的重心位置,6722表示鼻的重心位置。根据由特征量抽取部6701的鼻、眼和嘴位置计算部6710通过用鼻、眼、嘴各自的模板检测出的鼻的重心位置6722、眼的重心位置6720、6721,如图49所示,计算右眼位置与面部位置的水平方向距离6730、左眼位置与面部位置的水平方向距离6731、左右眼的垂直方向的坐标平均与面部位置的垂直方向距离6732。
右眼位置与面部位置的水平方向距离6730、左眼位置与面部位置的水平方向距离6731、左右眼的垂直方向的坐标平均与面部位置的垂直方向距离6732之比a∶b∶c,在面部尺寸发生了变动的情况下,如图50所示,右眼位置与面部位置的水平方向距离6733、左眼位置与面部位置的水平方向距离6734、左右眼的垂直方向的坐标平均与面部位置的垂直方向距离6735之比a1∶b1∶c1大体上没有变化,但尺寸没有变动时的右眼位置与面部位置的水平方向距离6730、与尺寸变动时的右眼位置与面部位置的水平方向距离6733之比a∶a1随面部尺寸的变动而变化。此外,当计算右眼位置与面部位置的水平方向距离6730、左眼位置与面部位置的水平方向距离6731、左右眼的垂直方向的坐标平均与面部位置的垂直方向距离6732时,如图48所示,除鼻和眼的重心位置以外也可以用眼的端点位置(6723、6724)、左右的各鼻腔位置或左右鼻腔位置的重心(6725)。计算眼的端点的方法,例如有对边缘进行扫描的方法、利用眼端点检测用模板的方法,关于鼻腔位置有利用鼻腔检测用模板检测左右鼻腔位置的重心或左右各鼻腔位置的方法。用于判断变动的特征间距离,也可以使用左右的内眼角间距离等其他的特征。
进一步,图49的面部不转动时的左右眼的垂直方向的坐标平均与面部位置的垂直方向距离6732、与如图51所示左右眼的垂直方向的坐标平均与面部位置的垂直方向距离6738之比c∶c2,随面部的上下转动,比值变化。
另外,如图52所示,右眼位置与面部位置的水平方向距离6739、与左眼位置与面部位置的水平方向距离6740之比a3∶b3,图49的面部不左右转动时的右眼位置与面部位置的水平方向距离6730、与左眼位置与面部位置的水平方向距离6731之比a∶b,这两个比相比较,比值发生变化。
另外,当面部左右转动时,也可以使用图53中示出的参照图像(无表情时的图像)的右眼端点间距离d1和左眼端点间距离e1之比g1(=d1/e1)、和图54中示出的输入图像(笑脸时的图像)的右眼端点间距离d2和左眼端点间距离e2之比g2(d2/e2)的比值g2/g1。
图55A、图55B是判断尺寸变动、左右转动变动、上下转动变动的处理的流程图。用图55A、图55B的流程图说明判断尺寸变动、左右转动变动、上下转动变动的处理,但此时将图49用作“在未变动状态下用直线将眼和鼻的位置间连接起来的图”、将图56用作“无尺寸变动、左右转动变动但有上下转动变动后的用直线将眼和鼻的位置间连接起来的图”。
首先,在步骤S6770中,进行比值a∶b∶c与a4∶b4∶c4是否相同的判断。该“相同”的判断,并不限定于“完全相同”,只要是“两者的比值之差在某容许范围内”,就可以判断为“相同”。
当在步骤S6770的判断中判断为比值a∶b∶c与a4∶b4∶c4相同时,使处理进入步骤S6771,判断为“无变化、或仅尺寸变动”,进一步,使处理进入步骤S6772,判断a/a4是否为1。
当a/a4为1时,使处理进入步骤S6773,判断为“无尺寸变动和转动变动”。而当在步骤S6772中判断为a/a4不是1时,使处理进入步骤S6774,判断为“仅尺寸变动”。
另一方面,当在步骤S6770的判断处理中判断为比值a∶b∶c与a4∶b4∶c4不同时,使处理进入步骤S6775,判断为“上下转动、左右转动、上下转动且尺寸变动、左右转动且尺寸变动、上下转动且左右转动、上下转动且左右转动且尺寸变动中的任何一种”。
然后,使处理进入步骤S6776,判断比值a∶b与a4∶b4是否相同(此处的关于“相同”的判断与步骤S6770中的相同),当判断为相同时,使处理进入步骤S6777,判断为“上下转动、上下转动且尺寸变动中的任何一种”。之后,使处理进入步骤S6778,判断a/a4是否为1。当判断a/a4不是1时,使处理进入步骤S6779,判断为“上下转动且尺寸变动”。而当判断a/a4为1时,使处理进入步骤S6780,判断为“仅上下转动”。
另一方面,当在步骤S6776中判断为比值a∶b与a4∶b4不同时,使处理进入步骤S6781,与步骤S6778同样地判断a/a4是否为1。
然后,当a/a4为1时,使处理进入步骤S6782,判断为“左右转动、上下转动且左右动中的任何一种”。之后,使处理进入步骤S6783,判断c/c3是否为1。当判断为c/c3不是1时,使处理进入步骤S6784,判断为“上下转动且左右转动”,而当判断为c/c3是1时,使处理进入步骤S6785,判断为“左右转动”。
另一方面,当在步骤S6781中判断为a/a4不是1时,使处理进入步骤S6786,判断为“左右转动且尺寸变动、上下转动且左右转动且尺寸变动中的任何一种”。之后使处理进入步骤S6787,判断(a4/b4)/(a/b)是否大于1。
当(a4/b4)/(a/b)大于1时,使处理进入步骤S6788,判断为“向左转动”。之后使处理进入步骤S6789,判断比值a∶c与a4∶c4是否相同(“相同”的基准与步骤S6770相同),当相同时,使处理进入步骤S6790,判断为“左右转动且尺寸变动”。而当比值a∶c与a4∶c4不同时,使处理进入步骤S6793,判断为“上下转动且左右转动且尺寸变动”。
另一方面,当在步骤S6787中判断(a4/b4)/(a/b)在1以下时,使处理进入步骤S6791,判断为“向右转动”。之后使处理进入步骤S6792,判断比值b∶c与b4∶c4是否相同(“相同”的基准与步骤S6770相同)。当相同时,使处理进入步骤S6790,判断为“左右转动且尺寸变动”。而当比值b∶c与b4∶c4不同时,使处理进入步骤S6793,判断为“上下转动且左右转动且尺寸变动”。在各步骤中使用的比值等,并不限定于流程图中所写的比值。例如,在步骤S6772、步骤S6778、步骤S6781中,也可以使用b/b4、(a+b)/(a4+b4)等。
通过以上的处理,可以进行面部的尺寸变动或面部的转动变动时的判别。进一步,当判别了这些变动时,通过由标准化特征变化量计算部6703将得到的各特征变化量标准化,在面部的尺寸发生了变动时或面部发生了转动时都能进行表情的识别。
特征量标准化方法,例如,当只是尺寸变动时,用图49和图50进行说明,只需将从输入图像得到的所有特征变化量翻1/(a1/a)倍即可。也可以不是1/(a1/a)而是使用1(1b/b)、1/((a1+b1)/(a+b))、1/(c1/c)或其他的特征。另外,如图57所示,当上下转动且尺寸变动了时,在将受上下转动的影响的眼的端点与嘴的端点距离翻(a5/c5)/(a/c)倍之后,将所有的特征量翻1/(a1/a)倍即可。当上下转动了时,也同样不限定于使用(a5/c5)/(a/c)。这样,通过判断面部的尺寸变动、上下左右转动变动并将特征变化量标准化,在面部的尺寸发生了变动时或面部发生了上下左右转动变动时都能进行表情的识别。
图58是从左右眼和鼻的位置检测开始根据上下、左右转动变动和尺寸变动将特征量标准化并进行表情判断处理的流程图。
在步骤S6870中检测出左右眼的重心坐标和鼻的重心坐标后,在步骤S6871中进行左右上下转动变动或尺寸变动的判断,当无左右上下转动变动时,在步骤S6872中判断为不需要特征变化量的标准化,通过计算与参照特征量之比计算特征量的变化量,在步骤S6873中进行每个特征量的得分计算,并在步骤S6874中计算根据各特征量变化量计算出的得分总和。另一方面,当在步骤S6871中判断为有左右上下转动变动或尺寸变动时,在步骤S6875中判断为需要各特征变化量的标准化,通过对各特征量计算与参照特征量之比计算特征量的变化量,并根据上下左右转动变动或尺寸变动将特征量的变化量标准化,然后,在步骤S6873中进行每个特征量变化量的得分计算,并在步骤S6874中计算根据各特征量变化量计算出的得分总和。
之后,根据计算出的得分总和,在步骤S6876中与第1实施方式同样地进行输入图像中的面部表情的判断。
图59是表示本实施方式的摄像设备的功能结构的框图。如该图所示,本实施方式的摄像设备,由摄像部6820、图像处理部6821、图像二次存储部6822构成。
图60是表示摄像部6820的功能结构的图,摄像部6820,如图60所示,大体上由成像光学系统6830、固体摄像元件6831、视频信号处理6832、图像一次存储部6833构成。
成像光学系统6830,例如是镜头,众所周知,使外界的光对后级的固体摄像元件6831成像。固体摄像元件6831,例如是CCD,众所周知,将由成像光学系统6830所形成的像转换为电信号,结果将摄像图像作为电信号输出到后级的视频信号处理电路6832;视频信号处理电路6832,对该电信号进行A/D转换,并作为数字信号输出到后级的图像一次存储部6833。图像一次存储部6833,由例如闪存等存储介质构成,存储该摄像图像的数据。
图61是表示图像处理部6821的功能结构的框图。图像处理部6821由以下各部构成图像输入部6840,读出存储在图像一次存储部6833中的摄像图像数据并将其输出到后级的特征量抽取部6842;表情信息输入部6841,输入后述的表情信息并输出到后级的特征量抽取部6842;特征量抽取部6842;参照特征保存部6843;变化量计算部6844,通过计算特征量抽取部6842抽出的特征量之比进行变化量计算;变化量标准化部6845,根据转动上下变动或尺寸变动将由变化量计算部6844计算出的各特征的变化量标准化;得分计算部6846,根据由变化量标准化部6845标准化后的各特征的变化量计算每个变化量的得分;以及表情判断部6847。图61中示出的各部,只有无特别说明,与上述实施方式中名称相同的部分具有相同的功能。
此外,在表情信息输入部6841中,通过由摄影者选择想要摄影的表情输入摄影表情信息。就是说,当摄影者想要拍摄笑脸时,选择笑脸摄影模式。由此,将只拍摄笑脸。因此,所谓该表情信息,是表示所选定的表情的信息。此外,要选择的表情不限定于1个,也可以是多个。
图62是表示特征量抽取部6842的功能结构的框图。特征量抽取部6842,如图62所示,由鼻、眼和嘴位置检测部6850、边缘图像生成部6851、面部的各特征边缘抽取部6852、面部的特征点抽取部6853、表情特征量抽取部6854构成。各部的功能与图46中示出的各部相同,因此其说明从略。
图像处理部6821中的图像输入部6840,读出存储在图像一次存储部6833中的摄像图像的数据,并输出到后级的特征量抽取部6842。特征量抽取部6842,根据从表情信息输入部6841输入的表情信息,抽取由摄影者选择的想要拍摄的表情的特征量。例如,当摄影者想要拍摄笑脸时,抽取笑脸识别所需要的特征量。
进一步,变化量计算部6844,通过计算抽出的各特征量与参照特征保存部6843保存的各特征量之比计算各特征量的变化量,并在变化量标准化部6845中根据面部的尺寸变动和面部的转动变动将由变化量计算部6844得到的各特征变化量之比标准化。然后,由得分计算部6846根据每个特征量的权重和各特征量的变化量进行得分计算。
图63是表示表情判断部6847的功能结构的框图。表情可能性判断部6860,与第8实施方式同样地通过对由得分计算部6846计算出的每个特征量的得分总和进行阈值处理,对由表情信息输入部6841得到的表情进行可能性判断;表情确定部6861,根据该表情可能性判断结果的连续性确定为是由表情信息输入部6841得到的表情。如果是由表情信息输入部6841得到的表情,则将由摄像部6820得到的图像数据存储在图像二次存储部6822内。
按照如上的方式,能够只记录摄影者想要的表情的图像。
此外,图像处理部6821的功能结构,并不限定于此,也可以应用上述各实施方式中的为了进行表情识别处理而构成的装置(或程序)。
图64是表示本实施方式的摄像设备的功能结构的框图。对与图59相同的部分赋予相同的标号,其说明从略。本实施方式的摄像设备,具有对第13实施方式的摄像设备进一步附加了图像显示部6873的结构。
图像显示部6873,由液晶屏等构成,显示记录在图像二次存储部6822中的图像。图像显示部6873上显示的图像,也可以只显示在图像处理部6821中由摄影者选定的图像。而且,也可以由摄影者选择将显示在图像显示部6873上的图像存储在图像二次存储部6822内或将其删除,为此,例如由触摸屏形式的液晶屏构成图像显示部6873,在该显示屏面上显示用于由摄影者选择将显示在图像显示部6873上的图像存储在图像二次存储部6822内或将其删除的菜单,可以由摄影者在显示屏面上选择其中任意一者。
根据如上所述的本实施方式的结构,能够对个人差异或表情场面等具有鲁棒性,并能够更准确地判断图像中的面部的表情。进而,即使面部的尺寸变动时或面部转动时也能更准确地判断图像中的面部的表情。
另外,在上述实施方式中,使被摄物体为面部,但不限于此,也可以是交通工具或建筑物等。
本发明的目的,当然也可以通过将记录了实现上述实施方式的功能的软件程序代码的记录介质(或存储介质)供给系统或装置并由该系统或装置的计算机(或CPU、MPU)读出并执行存储在记录介质内的程序代码来达到。在这种情况下,从记录介质读出的程序代码本身可以实现上述实施方式的功能,因而记录了该程序代码的记录介质也构成本发明。
另外,不仅可以通过由计算机执行所读出的程序代码实现上述实施方式的功能,而且当然也包括由运行在计算机上的OS(操作系统)等根据该程序代码的指示执行实际处理的全部或一部分并通过该处理实现上述实施方式的功能的情况。
进一步,当然也包括将从记录介质读出的程序代码写入到插入计算机内的功能扩展卡或与计算机连接的功能扩展单元所备有的存储器后由该功能扩展卡或功能扩展单元所备有的CPU等根据该程序代码的指示执行实际处理的全部或一部分并通过该处理实现上述实施方式的功能的情况。
在将本发明应用于上述记录介质时,在该记录介质内,可以存储与前面说明过的流程图对应的程序代码。
本发明,并不限定于上述的实施方式,在不脱离本发明的精神和范围的情况下,可以进行各种变更和变形。因此,为公开本发明的范围,附加以下的权利要求。
权利要求
1.一种图像处理设备,其特征在于,包括输入装置,输入包含被摄物体的图像;被摄物体区域确定装置,从上述输入装置输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的被摄物体的区域;以及判别装置,利用由上述被摄物体区域确定装置所确定的上述被摄物体的区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的被摄物体图像的各上述局部特征的检测结果,判别上述被摄物体的类别。
2.根据权利要求1所述的图像处理设备,其特征在于上述被摄物体区域确定装置包含分层型神经网络,上述判别装置将该分层型神经网络的中间层输出作为上述局部特征的检测结果来使用。
3.根据权利要求1所述的图像处理设备,其特征在于上述被摄物体是面部,该被摄物体的类别是面部表情。
4.根据权利要求3所述的图像处理设备,其特征在于上述被摄物体区域确定装置,在上述输入装置输入的图像中检测第1局部特征群,进而从上述图像中求取通过组合该第1局部特征群的任何一个而得到的第2局部特征群,通过反复进行这样的处理,求出第n局部特征群(n≥2);上述判别装置,在由上述被摄物体区域确定装置所确定的被摄物体的区域中,利用从上述第1局部特征群到第n局部特征群的任何一个局部特征群的各检测结果、和该各局部特征的预先作为基准求得的检测结果,判别上述面部的表情。
5.根据权利要求3所述的图像处理设备,其特征在于上述判别装置,计算上述面部区域中的各上述局部特征的相对位置和对上述面部区域中的各上述局部特征预先作为基准而求得的相对位置的偏差所对应的分布、与预先求得的与各种表情所对应的分布的哪一个相似度最高,判断为是相似度最高的分布所表示的表情。
6.根据权利要求3所述的图像处理设备,其特征在于上述输入装置,通过连续地进行在上述面部区域确定装置完成了确定面部区域的处理的时刻输入下一个图像的处理,进行连续地输入图像的处理;上述判别装置,在上述输入装置输入了图像的时刻,利用在其前级由上述输入装置输入的图像,根据上述面部区域确定装置所确定的面部区域中的各上述局部特征的相对位置与对上述面部区域中的各上述局部特征预先作为基准求得的相对位置的偏差,进行判别上述面部表情的处理。
7.根据权利要求1所述的图像处理设备,其特征在于上述被摄物体是面部;作为该被摄物体的类别,上述判别装置判别是谁的面部。
8.一种图像处理设备,其特征在于,包括输入装置,连续地输入包含面部的帧图像;面部区域确定装置,从上述输入装置输入的帧图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述帧图像中的面部区域;以及判别装置,在与由面部区域确定装置在上述输入装置输入的第1帧图像中所确定的面部区域位置上对应的、作为上述第1帧后边的帧的第2帧的图像中的区域内,根据由上述面部区域确定装置检测出的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
9.一种图像处理设备,其特征在于,包括输入装置,输入包含面部的图像;面部区域确定装置,从上述输入装置输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的面部区域;第1判别装置,利用由上述面部区域确定装置检测出的上述面部区域中的各上述局部特征的检测结果、和预先从各面部图像得到的各上述局部特征的检测结果,判别上述输入装置输入的图像中的面部是谁的面部;以及第2判别装置,利用由上述面部区域确定装置检测出的上述面部区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
10.根据权利要求9所述的图像处理设备,其特征在于,还包括管理装置,将上述第1判别装置对所关注的面部区域的判别结果和上述第2判别装置对该所关注的面部的判别结果,与确定上述所关注的面部的信息一起,作为管理信息进行管理;存储控制装置,参照上述管理信息,当由上述第1、第2判别装置判断为预定的个人做出预定的表情时,将包含上述所关注的面部的图像存储在预定的存储介质内。
11.根据权利要求9所述的图像处理设备,其特征在于上述第2判别装置,根据上述第1判别装置对所关注的面部是谁的面部进行判断后的结果,变更用于对该所关注的面部进行表情判别的参数。
12.一种图像处理方法,其特征在于,包括输入步骤,输入包含被摄物体的图像;被摄物体区域确定步骤,从上述输入步骤输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的被摄物体的区域;以及判别步骤,利用上述被摄物体区域确定步骤中检测出的上述被摄物体的区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的被摄物体图像的各上述局部特征的检测结果,判别上述被摄物体的类别。
13.一种图像处理方法,其特征在于,包括输入步骤,连续地输入包含面部的帧图像;面部区域确定步骤,从上述输入步骤输入的帧图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述帧图像中的面部区域;以及判别步骤,在与由面部区域确定步骤在由上述输入步骤输入的第1帧图像中所确定的面部区域位置上对应的、作为上述第1帧后边的帧的第2帧图像中的区域内,根据由上述面部区域确定步骤检测出的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
14.一种图像处理方法,其特征在于,包括输入步骤,输入包含面部的图像;面部区域确定步骤,从上述输入步骤输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定上述图像中的面部区域;第1判别步骤,利用上述面部区域确定步骤中检测出的上述面部区域中的各上述局部特征的检测结果、和预先从各面部图像得到的各上述局部特征的检测结果,判别上述输入步骤输入的图像中的面部是谁的面部;以及第2判别步骤,利用上述面部区域确定步骤中检测出的上述面部区域中的各上述局部特征的检测结果、和针对预先作为基准而设定的面部图像的各上述局部特征的检测结果,判别上述面部的表情。
15.一种程序,其特征在于使计算机执行权利要求12所述的图像处理方法。
16.一种计算机可读取的存储介质,其特征在于存储有权利要求15所述的程序。
17.一种摄像设备,其特征在于,包括权利要求3所述的图像处理设备;以及摄像装置,当由上述判别装置判断出的表情是预定的表情时,拍摄被输入到上述输入装置的图像。
18.一种图像处理方法,其特征在于,包括输入步骤,输入包含面部的图像;第1特征量计算步骤,对由上述输入步骤输入的图像中的面部的预定部位群,分别求取特征量;第2特征量计算步骤,对包含预定表情的面部的图像中的该面部的上述预定部位群,分别求取特征量;变化量计算步骤,根据在上述第1特征量计算步骤中求得的特征量和在上述第2特征量计算步骤中求得的特征量,求取上述预定部位群各自的特征量的变化量;得分计算步骤,根据上述变化量计算步骤中对上述预定部位群分别求得的变化量,对上述预定部位群分别计算得分;以及判断步骤,根据在上述得分计算步骤中对上述预定部位群分别计算出的得分,判断上述输入步骤所输入的图像中的面部的表情。
19.根据权利要求18所述的图像处理方法,其特征在于在上述判断步骤中,通过比较在上述得分计算步骤中对上述预定部位群分别计算出的得分的分布、和按每种表情计算出的针对上述预定部位群的各个得分的分布,判断上述输入步骤所输入的图像中的面部的表情。
20.根据权利要求18所述的图像处理方法,其特征在于在上述变化量计算步骤中,根据在上述第1特征量计算步骤中求得的特征量与在上述第2特征量计算步骤中求得的特征量的差,求出上述预定部位群各自的特征量的变化量。
21.根据权利要求18所述的图像处理方法,其特征在于在上述变化量计算步骤中,根据在上述第1特征量计算步骤中求得的特征量与在上述第2特征量计算步骤中求得的特征量之比,求取上述预定部位群各自的特征量的变化量。
22.根据权利要求18所述的图像处理方法,其特征在于在上述判断步骤中,还求出在上述得分计算步骤中对上述预定部位群分别计算出的得分的总和,根据该求得的总和的值是否大于等于预定值,判断上述输入装置输入的图像是否是表情场面;进而参照该判断结果,判断上述输入步骤输入的图像中的面部的表情。
23.根据权利要求18所述的图像处理方法,其特征在于在上述第1、第2特征量计算步骤中,对上述预定部位群分别求取图像上的边缘,进而求取所求得的各个上述预定部位的边缘的端点;在上述变化量计算步骤中,对于上述预定部位群,利用边缘的长度的变化量、端点间的距离的变化量、2个端点构成的线段的斜度的变化量中的至少1个,分别求取特征量的变化量。
24.根据权利要求18所述的图像处理方法,其特征在于,还包括第2判断步骤,当在上述输入步骤中连续地输入各帧的图像时,将从上述第1判断步骤判断为连续的p个帧的各图像中的面部的表情为第1表情,到在该判断后上述第1判断步骤判断为连续的q个帧的各图像中的面部的表情为与上述第1表情不同的第2表情为止的各帧的图像中的面部表情,判断为第1表情。
25.根据权利要求18所述的图像处理方法,其特征在于在上述判断步骤中,求出在上述得分计算步骤中对上述预定部位群分别计算出的上述每个表情的得分的总和值,将具有最高的总和值的表情判断为上述输入步骤输入的图像中的面部的表情。
26.根据权利要求18所述的图像处理方法,其特征在于包括输入至少1个表示表情的信息的表情信息输入步骤;在上述第1特征量计算步骤中,在由上述输入步骤输入的图像中的面部上,对与上述表情信息输入步骤输入的信息所表示的表情对应的预定部位群,分别进行求取特征量的处理。
27.根据权利要求18所述的图像处理方法,其特征在于在上述变化量计算步骤中,根据在上述第1特征量计算步骤中求得的特征量和在上述第2特征量计算步骤中求得的特征量,求得上述预定部位群各自的特征量的变化量后,利用基于面部的尺寸变动或转动变动的标准化值,将上述预定部位群各自的特征量的变化量标准化后输出。
28.根据权利要求27所述的图像处理方法,其特征在于在上述特征变化量计算步骤中,根据在上述第1特征量计算步骤中求得的特征量和在上述第2特征量计算步骤中求得的特征量之比,求出上述预定部位群各自的特征量的变化量后,计算利用从上述第1特征量计算步骤得到的眼区域的重心位置、眼的端点位置、鼻区域的重心位置、左右鼻腔的重心位置、左右的各鼻腔位置中的至少1个而得到的两眼间水平及垂直方向距离、眼鼻间水平及垂直方向距离,和利用从上述第2特征量计算步骤得到的眼区域的重心位置、眼的端点位置、鼻区域的重心位置、左右鼻腔的重心位置、左右鼻腔位置中的至少1个而得到的两眼间水平距离、眼鼻间水平及垂直方向距离;通过利用由上述第1、第2特征量计算步骤得到的两眼间水平与垂直方向距离比、眼鼻间水平与垂直方向距离比中的至少1个,进行上述预定部位群各自的特征量的变化量的标准化。
29.根据权利要求27所述的图像处理方法,其特征在于在上述特征变化量计算步骤中,利用从上述第1特征量计算步骤得到的左眼右眼端点间距离比与从上述第2特征量计算步骤得到的左眼右眼端点间距离比之比,进行上述预定部位群各自的特征量的变化量的标准化。
30.一种图像处理设备,其特征在于,包括输入装置,输入包含面部的图像;第1特征量计算装置,对由上述输入装置输入的图像中的面部的预定部位群分别求取特征量;第2特征量计算装置,对包含预定表情的面部的图像中的该面部的上述预定部位群分别求取特征量;变化量计算装置,根据由上述第1特征量计算装置求得的特征量和由上述第2特征量计算装置求得的特征量,求取上述预定部位群各自的特征量的变化量;得分计算装置,根据由上述变化量计算装置对上述预定部位群分别求得的变化量,对上述预定部位群分别计算得分;以及判断装置,根据由上述得分计算装置对上述预定部位群分别计算出的得分,判断由上述输入装置输入的图像中的面部的表情。
31.一种摄像设备,其特征在于,包括权利要求30所述的图像处理设备;摄像装置,拍摄要输入到上述输入装置的图像;以及存储装置,存储由上述判断装置判断后的图像。
32.根据权利要求31所述的摄像设备,其特征在于还包括显示由上述第1判别装置判断后的图像的图像显示装置。
33.根据权利要求31所述的摄像设备,其特征在于当由上述判断装置判断出的面部的表情是预定的表情时,上述摄像装置进行拍摄。
34.一种程序,其特征在于使计算机执行权利要求18所述的图像处理方法。
35.一种计算机可读取的存储介质,其特征在于存储有权利要求34所述的程序。
全文摘要
输入包含面部的图像(S201);从输入的图像中检测多个局部特征,并利用该检测出的多个局部特征确定图像中的面部区域(S202);根据面部区域中的各局部特征的检测结果与针对面部区域中的各局部特征预先作为基准求得的检测结果的偏差,判别面部的表情(S204)。
文档编号G06T7/20GK1839410SQ20048002404
公开日2006年9月27日 申请日期2004年7月16日 优先权日2003年7月18日
发明者森克彦, 金田雄司, 真继优和, 御手洗裕辅, 铃木崇士 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1