图像检索系统及图像检索方法

文档序号:6619489阅读:402来源:国知局
专利名称:图像检索系统及图像检索方法
技术领域
本发明涉及从以模拟或数字方式记录的映像、静止图像等的图像数据中抽取特征量和属性信息,并利用所抽取的特征量和属性信息实施图像数据检索的图像检索系统及图像检索方法。
现有技术第1图表示作为以往的图像检索处理系统一例的在电子信息通信学会论文杂志D-II 1996年4月号(Vol.79-D-II N0.4,pp.476-483)中记载的系统的构成。这里,以静止图像为对象,由前处理部101的区域分割部103把图像分割成各个段,在被分割后的各段内附加关键。关键词包括概念关键词和场景记述关键词二种。概念关键词抽取部104利用预先分配给颜色信息的概念关键词根据各段的颜色及特征量取得概念关键词108。场景记述关键词记述部105从各段的图像特征量中取得“位置”、“颜色”、“形状”、“大小”、“方向”等有关谓词,有必要由用户107通过操作106从预先定义的谓词中选择出来,并予以记述,输出场景记述关键词109。在检索工具102中,预先设置了概念关键词和场景记述关键词,由用户111从预先设置的关键词中进行选择。特征鉴定部110根据用户所选择的关键词112与各图像中附加的关键词108、109实施特征量鉴定及图像检索处理。
但是在上述图像检索处理系统中,由于根据用户所选择的概念关键词和场景记述关键词等关键词及各图像中附加的关键词实施特征量的鉴定,并基于该特征量实施图像检索处理,所以只能通过特征量检索所有的图像,因而检索时间较长。
此外,在上述的图像检索处理系统中,由于未考虑各关键词的记述方法及存储方法等,所以有必要使图像服务器与作为客户的检索工具等一对一地对应,从而无法建立一种多个用户可通过网络利用各种检索工具实施图像检索的系统。
此外由于仅仅以静止图像为对象,所以难以检索运动图像。
为此,本发明考虑到了上述问题,其第1目的是提供能有效地实施图像检索处理的图像检索系统及图像检索方法。
此外本发明的第2目的是提供通过利用通用语法记述并生成检索关键词从而不依赖于分散在网络上的多个图像服务器的图像检索系统及图像检索方法。
本发明的第3目的是提供通过在从运动图像中抽取关键词时,不按帧单位而是按集中了多个帧的视频段单位抽取特征量,从而可容易地检索运动图像的图像检索系统及图像检索方法。

发明内容
本发明涉及的图像检索系统具备从输入图像数据中抽取图像特征量生成特征描述符的特征描述符生成部、与输入图像数据相关联蓄存所生成的特征描述符的图像信息蓄存部、基于附加于输入图像数据输入的属性信息生成属性表的属性表生成部、输入与属性信息相关的检索条件后,检索上述属性表,输出适合该检索条件的属性信息,同时在输入与特征描述符相关的检索条件后,检索图像信息蓄存部,输出适合该检索条件的图像数据的图像检索部。
这样便可以取得有效实施检索的效果。
本发明涉及的图像检索系统的属性表生成部,基于定义了属性表数据结构的语法生成属性表,图像检索部根据属性表的语法实施检索。
这样,可以取得短时高效检索的效果。
本发明涉及的图像检索系统的特征描述符生成部,基于定义了特征描述符数据结构的语法生成特征描述符,图像检索部根据特征描述符的语法实施检索。
这样,可以取得不依赖于分散在网络上的多个图像服务器实施图像检索的效果。
本发明涉及的图像检索系统的特征描述符生成部,按帧单位抽取特征量,按集中了多个帧的视频段单位生成特征描述符。
这样便可以取得可容易地实施运动图像检索的效果。
该发明涉及的图像检索系统的特征描述符生成部,把由帧内与帧间组成的压缩映像数据作为输入图像数据,在帧内情况下,抽取规定的编码单位区域内的各像素值的平均值矩阵,只累计视频段中包含的帧内成分,作为帧内的特征描述符生成根据帧内数求得的该累计值的平均值和标准偏差,另一方面,在帧间情况下,抽取规定的编码单位区域中各像素的运动矢量矩阵,求出帧内的运动矢量平均值,对该平均值实施阈值处理,对零行程长度分类并抽取,作为帧间的特征描述符生成通过在各视频段中包含的帧间数求得的平均值与零行程长度分类的平均值。
这样便可以取得较容易实施运动图像检索的效果。
该发明涉及的图像检索系统的特征描述符生成部,把非压缩映像数据作为输入图像数据,从非压缩映像数据中抽取特征量生成特征描述符,图像信息蓄存部使非压缩映像数据基于规定的映像压缩方式被压缩后的压缩映像数据与特征描述符组相关联蓄存。
这样,可以取得有效检索的效果。
该发明涉及的图像检索系统的图像检索部,对图像信息蓄存部进行检索,在输出适合于所指定的特征描述符的图像数据时,读出预先存储的规定条件式,并基于该规定条件式对是否适合所指定的特征描述符进行判断。
这样,可以取得有效检索的效果。
该发明涉及的图像检索系统的输入图像数据为由监视摄像机记录的监视图像。
这样,可以取得能发现入侵者的效果。
该发明涉及的图像检索系统的输入图像数据为被蓄存的视频邮件图像。
这样,可以取得用户能检索所需邮件的效果。
该发明涉及的图像检索系统的输入图像数据为被蓄存的广播节目图像。
这样,可以取得尽管用户未能准确记住节目信息,仍可以根据对映像的印象进行检索的效果。
该发明涉及的图像检索系统的输入图像数据为由摄像机记录的映像。
这样,可以取得以映像本身所具有的类似性作为关键码进行有效素材检索的效果。
该发明涉及的图像检索方法,从输入图像数据抽取图像特征量生成特征描述符,使所生成的特征描述符与输入图像数据相关联蓄存,同时基于附加于输入图像数据输入的属性信息生成属性表。
输入与属性信息相关的检索条件后检索属性表,并输出适合检索条件的属性信息,同时参照所输出的属性信息输入与特征描述符相关的检索条件后,检索上述所蓄存的图像数据,并输出适合该检索条件的图像数据。
这样,可以取得有效检索的效果。
该发明涉及的图像检索系统,由从输入图像数据抽取图像特征量生成特征描述符的特征描述符生成部、与输入图像数据的时空间结构相关联,在检索用描述数据中记述特征描述符的检索用描述数据生成部、将检索用描述数据与对应的输入图像数据一起蓄存的图像信息蓄存部、第1检索处理部、第2检索处理部、用户接口部组成,第2检索处理部把用户通过用户接口部传来的检索请求作为检索请求信息传送给第1检索处理部,同时接收从第1检索处理部传送的检索结果,并通过用户接口部向用户提示,第1检索处理部根据从第2检索处理部传送的检索请求信息对图像信息蓄存部所蓄存的输入图像数据的检索用描述数据进行分析,抽取特征描述符,基于所抽取的特征描述符实施适合判断处理求出检索结果,并把该检索结果传送给第2检索处理部,通过上述用户接口部向用户提示。
这样,可以取得基于特征描述符有效检索图像数据的效果。
该发明涉及的图像检索系统,具备用于计算由特征描述符生成部生成的特征描述符可靠度的特征描述符可靠度计算部,检索用描述数据生成部,与输入图像数据的时空间结构相关联把特征描述符及可靠度记述到检索用描述数据内,第1检索处理部根据由第2检索处理部所传送的检索要求信息对在图像信息蓄存部中蓄存的输入图像数据的检索用描述数据进行分析,抽取特征描述符及可靠度,基于所抽取的特征描述符及可靠度实施适合判断处理并求出检索结果,把该检索结果传送给第2检索处理部,通过用户接口部向用户提示。
这样,可以取得有效检索的效果。
本发明涉及的图像检索系统的第1检索处理部,在适合判断处理时基于特征描述符的可靠度,对基于特征描述符的适合判断的必要性进行评估,如果判断为没有必要进行适合性判断,则跳过适合判断处理。
这样,可以实现检索处理速度的高速化,取得进一步提高检索效率的效果。
该发明涉及的图像检索系统,具备基于由特征描述符可靠度计算部计算出的可靠度来决定各特征描述符的检索使用顺序的特征描述符检索顺序决定部,检索用描述数据生成部与输入图像数据的时空间结构相关联在检索用描述数据内记述特征描述符、可靠度及检索使用顺序,第1检索处理部根据由第2检索处理部传送来的检索请求信息对在图像信息蓄存部内蓄存的输入图像数据的检索用描述数据进行分析,抽取特征描述符、可靠度及检索使用顺序,并基于所抽取的特征描述符、可靠度及检索使用顺序进行适合判断处理,求出检索结果,进而将该检索结果传送给第2检索处理部,通过用户接口部向用户提示。
这样,可以取得基于特征描述符、可靠度及检索使用顺序有效检索图像数据的效果。
本发明涉及的图像检索系统的第2检索处理部把作为由用户通过用户接口部传送的检索请求的包括各特征描述符的检索使用顺序的检索请求信息传送给第1检索处理部,第1检索处理部根据由第2检索处理部传送来的检索请求信息中的检索使用顺序对特征描述符的检索顺序进行更新,实施符合来自用户的检索请求的检索处理。
这样,可以取得符合来自用户的检索请求的检索处理效果。
本发明涉及的图像检索系统的第1检索处理部,在实施适合判断处理时,基于各特征描述符的可靠度,决定在检索使用顺序确定的各检索步骤中的检索结果候补数,然后实施适合判断处理。
这样可以取得使检索处理实现高速化的效果。
本发明涉及的图像检索系统,具备视频数据再生服务器和视频数据解码再生部,输入图像数据是视频数据,第1检索处理部把代表由检索所确定的各视频数据的各关键图像数据作为检索结果向第2检索处理部传送,第2检索处理部接收来自第1检索处理部的作为检索结果的各关键图像数据,通过用户接口部向用户提示,视频再生服务器从用户接口部接收用户从各关键图像中选择确定的关键图像的再生请求,然后从图像信息蓄存部中读出代表其选择的关键图像的视频数据,向视频数据解码再生部传送,视频数据解码再生部从视频再生服务器接收所传送的视频数据进行解码及再生处理。
这样,可以取得有效地削减信息传送总量的效果。
本发明涉及的图像检索方法在从输入图像数据中抽取图像特征量生成特征描述符的同时,与输入图像数据的时空间结构相关联,在检索用描述数据中记述特征描述符,将检索用描述数据与所对应的输入图像数据一同蓄存,根据来自用户的检索请求对所蓄存的输入图像数据的检索用描述数据进行分析,抽取特征描述符,并基于所抽取的特征描述符实施适合判断处理,求出检索结果,并向用户提示该检索结果。
这样,可以取得基于特征描述符、可靠度及检索使用顺序有效实施图像数据检索的效果。
本发明涉及的图像检索方法,输入图像数据是视频数据,将代表由检索所确定的各视频数据的各关键图像数据作为检索结果向用户提示,接收用户从各关键图像中选择确定的关键图像的再生请求后,读出代表其所选择的关键图像的视频数据实施解码及再生。
这样,可以取得有效地削减信息传送总量的效果。


第1图是表示现有图像检索处理系统的例图。
第2图是说明本发明实施方式1中图像检索系统构成的方框图。
第3图是表示图像数据生成部处理的流程图。
第4图是表示根据图像属性文本信息生成文本信息示例(XML文本)的处理例图。
第5图是表示帧内帧间自适应编码图。
第6图是表示包括特征抽取处理及特征描述符生成处理的全部特征描述符组生成顺序的流程图。
第7图是表示特征描述符组生成处理的具体生成顺序的流程图。
第8图是表示运动分布特征化的量值例图。
第9图是表示帧内描述符组的意义图。
第10图是表示根据所抽取的特征量生成特征描述符组的处理例图。
第11图是表示分层生成并记述特征描述符组的例图。
第12图是表示图像检索部的处理流程图。
第13图是表示适合判断处理的流程图。
第14图是表示图像数据库生成部的另一构成例图。
第15图是表示本实施方式2下图像检索系统服务器侧的特征部分构成方框图。
第16图是表示本实施方式2下图像检索系统客户侧的特征部分构成方框图。
第17图是表示实施方式2下图像检索系统的检索处理过程流程图。
第18图是表示本实施方式2下图像检索系统所利用的检索用描述数据文件构成图。
第19图是表示在适合判断处理部中基于搜索优先的特征描述符适合判断处理的例图。
第20图是表示用户的主观特征与特征描述符之间的关系图。
实施方式以下为更详细说明本发明,根据附图对实施本发明的最佳方式作以说明。实施方式1在本实施方式1中,对可从在分散在网络上的多个即一个以上的数据库中蓄存的图像数据中检索出用户所需的图像数据并加以利用的图像检索系统作以说明。根据使用方法,图像数据可以是压缩静止图像(JPEG图像等)、压缩运动图像(MPEG图像等)或非压缩图像,对图像格式没有特别限制。在本实施方式1中,作为本发明的一例,虽然所设想的是通过互联网上的WWW(万维网)进行图像信息的传送与接收,但本发明并不局限于此,有线或无线通信业务及广播网业务等都适用于本系统。
第2图是说明本发明实施方式1下图像检索系统构成的方框图。以下,“等级”一词表示数据定义,“示例”一词表示基于等级定义以数值形式具体代表的数据,比如文件、变量等。
在第2图中,1是图像数据库生成部,2是表示与图像相关属性的文本信息的属性信息及图像数据,3是从图像数据中抽取规定特征量组的特征抽取部,4是基于依据其它图像数据库生成部1或与服务器通用的特征量描述数据等级的定义根据特征量组生成作为示例组的特征描述符组的特征描述符组生成部,5是对图像数据与特征描述符组实施成对蓄存的图像信息蓄存部。
此外在第2图中,6是基于依据其它图像数据库生成部1或与服务器通用的文本信息描述数据等级的定义根据属性信息生成作为示例组的属性表的属性表生成部,7是蓄存属性表的属性表蓄存部。此外8是图像检索部,9是根据作为检索对象的图像数据目录与关键图像选择所需检索的图像的用户接口部,10是基于用户接口部所指令的检索条件实施检索处理的检索处理部,11是显示所检索出来的关键图像及检索图像的显示部。此外在本实施方式1中,属性表与特征描述符总称统一定义为元数据。
此外在第2图中,服务器包括由特征抽取部3、特征描述符组生成部4、图像信息蓄存部5、属性表生成部6及属性表蓄存部7组成的图像数据库生成部1和图像检索部8的检索处理部10,图像检索部8的用户接口部9及显示部11构成客户侧,虽然服务器与客户侧构成本发明的图像检索系统,但本发明并不局限于这种构成,比如客户侧可以配备检索处理部10,或者服务器本身也另外配备用户接口部9及显示部11的客户侧功能。此外,还分别具有多个图像数据库生成部1或服务器及图像检索部8或客户部,并通过互联网等网络连接,通过这些多个图像数据库生成部1或服务器,基于上述的通用特征量描述数据等级及文本信息描述数据等级生成特征描述符组及属性表。
以下详细介绍各部的处理情况。(1)图像数据库生成部1的处理第3图中,通过流程图介绍图像数据库生成部1的处理情况。
这里所考虑的是把新的图像数据登录到图像数据库内的情况。图像数据库的登录主要包括二种处理。第1种处理是根据表示图像数据中附加的图像属性的文本信息生成属性表,并蓄存到属性表蓄存部7内。另一种处理是从图像数据中抽取特征量,生成特征描述符,并把图像数据与特征描述符蓄存到作为数据库的图像信息蓄存部5内。以下分别对各处理作以详细说明。
首先对从生成属性表到登录的处理过程(步骤ST1~ST3)作以详细说明。
首先抽取附加于图像信息内并随之输入的表示图像属性的文本信息(步骤ST1)。在比如图像数据是视频邮件的运动图像数据的情况下,表示图像属性的文本信息是指与运动图像数据一同传送的视频邮件的传送者、传送日期、标题名称等信息。由于这些信息表示视频邮件的运动图像数据的制作者与制作日期等,因而是一种表示运动图像数据属性的文本信息。此外,在另一示例中,在图像数据是由广播电台传送的电视广播等视频节目的情况下,表示图像属性的文本信息是指与视频节目一同传送的节目信息(演员、制片人、片名、播放日期等)。在设想把家庭用视频录像及数字相片等蓄存到家庭用服务器内的示例情况下,用户可以把有关摄影日期及被摄物的有关信息作为文本信息直接输入,也可以考虑以文本形式从录像机及照相机等装置传送到服务器内。
所抽取的文本信息在属性表生成部6内被以属性表形式实施示例化处理(步骤ST2)。属性表的数据形式包括比如通过XML(可扩展标记语言)记述的文件。
第4图表示生成作为基于图像属性文本信息的文本信息示例的XML文件的处理一例。
在第4图示例中,抽取作为属性信息的视频邮件中附加的文本信息,生成以XML语言记述所抽取的文本信息的文件。该XML文件是一种作为属性表构成单位的数据,属性表把针对各视频邮件制作的这些文件统一到一个表数据内。在XML文件的记述中,需要有用于规定文件结构的定义文件(DTD(Document Type Definition文件类型定义))。DTD用于规定文件结构中所包括的要素与要素之间的关系(某一要素是否在其它要素中出现等)及要素的出现顺序等。
在第4图所示的XML文件生成处理中,DTD表示在TextInfo要素中包括Category(目录)、Author(作者)、Date(日期)、Time(时间)、Title(名称)、Locator(定位符)等各要素,而且这些各要素是文字型数据。所抽取的文本信息根据该DTD被转换成XML文件。第4图中XML文件示例中的各要素值被包容在表示要素开始的标记<aaa>和表示要素结束的标记</aaa>之内,aaa表示由DTD定义的要素名称。即在被包容在<TextInfo>~</TextInfo>内的单位内记述与一个视频邮件相关的属性,对于作为检索对象的所有视频邮件,如果具有将这些数据统一到一起的属性表,则可以根据<TextInfo>~</TextInfo>单位下的属性对各视频邮件进行检索。
此外,属性表的数据形式并不局限于此,也可以基于预先定义的数据结构予以记述。比如作为属性表的数据形式,除了以XML文件形式记述之外,也可以是位流型的二进制数据。在这种情况下,与XML文件相同,需要用于定义二进制数据结构的语法,即用于规定各要素的设置方式及各要素所分配的位数等的先决条件。
按上述方法生成的属性表被蓄存到属性表蓄存部7内(步骤ST3)。此外,在图像数据与作为该属性信息的文本信息所蓄存的数据库不同的情况下,属性表中将包括多个图像数据蓄存地址,并被蓄存到属性表蓄存部7内。比如在WWW下,可以指定图像数据所在的网址(URL(通用资源定位符))。在第4图的示例中,作为属性表的XML文件中包括用于指定图像数据的URL的被称为“定位符”的要素,可以指定与各视频邮件的属性信息对应的图像数据地址。
以下对从抽取图像特征量到生成并登录特征量描述符的处理过程(步骤ST4~ST6)作以详细说明。
在本实施方式1下的特征描述符生成处理中,被输入并蓄存的图像数据是一种通过MPEG及H.261/H.263等规定的编码方式被压缩编码的视频(运动图像)位流。
首先在特征抽取部3内,通过图像位流抽取图像特征量(步骤ST4)。在本实施方式1中,从压缩视频位流中把运动信息、编码帧内的辉度及色差各直流成分数据作为特征量抽取。压缩视频位流设想采用MPEG和H.261/H.263等的国际标准编码方式,在这类方法中,视频帧信号被实施图5所示单位宏块下的运动补偿预测(以下称为间)/帧内(以下称为内)自适应编码。宏块由辉度信号16×16像素、色差信号8×8像素×2的图像数据构成。具体说,一个帧内的所有宏块都被实施帧内编码的情况称为帧内,在该情况下,可以只使该帧图像数据本身的压缩数据扩展及复原。在这样的帧内,帧内编码宏块的各信号直流成分可被视为是大致表示图像总体的数据(第5图中左侧最下部图示)。如图5所示,帧内通常大多根据随机访问等要求条件被周期性地插入视频信号内。
另一方面,在根据运动补偿预测对预测残余信号实施编码处理的帧间编码宏块内,由于只对运动预测中不近似的数据实施编码处理,因而该编码信息中最本质的数据是近似于宏块内主要图像信息的运动矢量(第5图中右侧最下部图示)。根据上述观点,在特征抽取部3内,帧内中各宏块的辉度及色差信号的直流成分与帧间编码宏块的运动矢量被作为图像特征量从图像位流中抽取。
在以下说明中,把规定期间内的帧群称为视频段。比如最简单的视频段规定为从一个帧内开始到下一个帧内之前的帧结束的帧单位组。另一种具有较长周期的帧组是指从一个帧内开始到另一个帧内之前的帧结束的帧群。视频段的长度可以根据视频段内的内容意义任意设定。
在本实施方式1中,基于由上述特征抽取部3抽取的特征量组,在特征描述符组生成部4内生成用于记述视频段的特征描述符组(步骤ST5)。以下对特征量组的抽取顺序和特征描述符组的生成顺序作以详细说明。
第6图是详细介绍包括第3图中步骤ST4的特征抽取处理及步骤ST5的特征描述符生成处理的全部特征描述符组生成顺序的流程图。
作为输入到特征抽取部3内的图像数据的视频位流可以是以预先切出的视频段为单位的位流,也可以是按多个视频段划分的历经上述长时间视频节目的位流。在后者的情况下,在特征抽取部3中,可以根据来自外部的指令或者通过在内部实施适当的识别处理确定出视频段单位,按该单位实施特征抽取及特征描述符组抽取的处理。以下主要介绍输入视频段单位位流情况下的处理。如上所述,视频段由从帧内开始的连续帧组构成。特征抽取按帧单位实施,而且帧内与帧间互相分开。在帧内情况下抽取辉度与色差信号的直流成分,在帧间情况下抽取运动矢量。
具体地说,首先在步骤ST7中,对帧的标题信息进行搜索,如果该帧是帧内(I-frame)(步骤ST7“Y是”),则通过步骤ST8把作为各宏块的各像素平均值矩阵的辉度与色差信号的直流成分数据抽取。在第6图中,宏块位置按帧的光栅扫描顺序以n表示,位置n上的宏块的辉度信号的直流成分以DCY[n]表示,色差信号的直流成分以DCU[n]、DCV[n]表示。n的最大值根据帧的水平与垂直像素数确定。在MPEG,H.26x系列等国际标准视频编码方式中,由于直流成分以在构成宏块的各自具有8×8像素的单位子码组中实施的DCT(离散余弦变换)(0,0)位置下的直流成分表示,所以可以对单位宏块内的该数据进行搜索,并抽取。但由于在辉度信号中1个宏块内有4个子码组,因而把4个子码组的直流成分的平均值作为辉度信号的直流成分。
在以下步骤ST9中,对帧内所对应的特征量进行累加。该步骤在特征描述符组生成部4中实施。具体地说,基于下列算式1对DCV[n]、DCU[n]、DCV[n]分别进行累加。(算式1)avgYsum[n]=avgYpre[n]+DCY[n];avgpreY[n]=avgsumY[n]avgUsum[n]=avgUpre[n]+DCU[n];avgpreU[n]=avgsumU[n]avgVsum[n]=avgVpre[n]+DCV[n];avgpreV[n]=avgsumV[n]stdYsum[n]=stdYpre[n]+DCY[n]*DCY[n];stdYpre[n]=stdYsum[n]stdUsum[n]=stdUpre[n]+DCU[n]*DCU[n];stdUpre[n]=stdUsum[n]stdVsum[n]=stdVpre[n]+DCV[n]*DCV[n];stdVpre[n]=stdVsum[n]这里,avgYpre[n],avgUpre[n],avgVpre[n],stdYpre[n],stdUpre[n],stdV[n]的各值在抽取处理开始时复位至零。
当帧内中的所有n位置下的抽取与累加处理结束后(步骤ST10“Y是”),视频段中的帧内出现次数计数器N1的读数增加,并转为下一个帧处理(步骤ST11“N否”)。如果视频段结束(步骤ST11“Y是”),便转为实施特征描述符组生成处理的步骤ST17。
以下对帧间的特征量抽取处理作以说明。
如果在步骤ST7中判断出不是帧内(步骤ST7“N否”),则在步骤ST12中判断该帧是否是正向(单向)预测的帧间(P-frame)。这里之所以限定为P-frame,是因为在MPEG中,除了P-frame之外,作为帧间,还有参照时间上过去及未来帧二方面的实施运动补偿预测的双向预测帧(B-frame)和称为变帧的通过对全景图像的变形合成使解码图像复原的预测变帧(步骤S-frame,S-VOP)等的帧编码类型,以便作区别。这里,对于帧间,只以仅参照过去的帧实施正向(单向)运动补偿预测的帧间(P-frame)为对象。因此,当在步骤ST12中判断为不是P-frame的情况下,(步骤ST12“N否”),不实施特征量的抽取,转为对下一帧的处理。
如果在步骤ST12中判断出是帧间(P-frame),(步骤ST12“Y是”),在特征抽取部3中抽取帧内的全部宏块的运动矢量MV[n](步骤ST13)。这里,MV[n]值以下列算式2表示。(算式2)MV[n]=xn2+yn2]]>xn位置n上的运动矢量的水平成分yn位置n上的运动矢量的垂直成分因此,如果在步骤ST14中判断出所有宏块的MV[n]都抽取完毕(步骤ST14“Y是”),则在步骤ST15中生成与该帧对应的帧间特征描述符组。该处理在特征描述符组生成部4内实施。
第7图以流程映像式表示在第6图的步骤ST15中实施的特征描述符组处理的具体生成顺序。首先对通过步骤ST13的处理所蓄存的1帧MV[n],求出作为帧内平均运动量的下列算式3的值(步骤ST15-1)。(算式3)CNP=1NΣn=0N-1MV[n]]]>式中N表示帧内的宏块总数。
接下来,在步骤ST15-2中,对各MV[n]实施下列算式4的阈值处理。(算式4) 对于所得到的新的运动矢量分布,按照光栅扫描顺序对MV’[n]进行扫描,求出下列运动分布特征量(步骤ST15-3)。
Nsr具有帧水平像素数1/3以下长度的零行程(短行程)数Nms具有帧水平像素数1/3以上2/3长度的零行程(中行程)数
Nlr具有帧水平像素数2/3以上长度的零行程(长行程)数此外,从第8图可以看出,存在多个短行程的帧内的运动复杂程度较高,其运动分布在一个较大的范围内,存在多个长行程的帧内,其运动只局限在局部。
当帧间中的所有n位置下的抽取与累加处理结束后(步骤ST14“Y是”),视频段中的帧间出现次数计数器Np的读数增加,并转为下一个帧处理(步骤ST16“N否”)。如果视频段结束(步骤ST16“Y是”),便转为实施特征描述符组生成处理的步骤ST17。
作为以上的结果,可以得到视频段中各帧间的特征描述符组(CNp,Nsr,Nms,Nlr,),为在步骤ST17中生成视频段的特征描述符组,对各帧间的特征描述符组进行累加。
如上所述,当视频段中所有帧的特征抽取或特征描述符的生成都结束后,最后在步骤ST17中生成视频段的特征描述符组。该处理也在特征描述符组生成部4内实施。
具体地说,在帧内情况下,利用累加的特征量avgYsum[n],avgUsum[n],avgVsum[n],stdYsum[n],stdUsum[n],stdYsum[n]和视频段内的帧内数N1生成下列算式5的特征描述符组(avgY[n],avgU[n],avgV[n],stdY[n],stdU[n],stdV[n])。(算式5)avgY[n]=avgYsum[n]/NIavgU[n]=avgUsum[n]/NIavgV[n]=avgVsum[n]/NIstdY[n]=stdYsum[n]NI-(avgY[n])2]]>stdU[n]=stdUsum[n]NI-(avgU[n])2]]>stdV[n]=stdVsum[n]NI(avgV[n])2]]>作为上述结果,生成帧内的nx6个特征描述符组。以下通过第9图对这些特征描述符组的意义作以说明。
各帧内各宏块的直流成分的求取与第9图中所作的各宏块位置上的图像数据平均亮度与色度相对时间方向的波形图等值。即avgY[n]的时间系列表示在各宏块位置n上亮度随时间方向的变化,avgU[n],avgV[n]的时间系列表示各宏块位置n上色度随时间方向的变化。此外,stdY[n]表示相对第9图波形平均(avgY[n])的标准偏差程度,stdU[n],stdV[n]也分别表示相对平均值(avgU[n],avgV[n])的标准偏差程度。因此,这些特征描述符组可以被看作是帧内系列的亮度与色度相对时间变化的特征化描述符。虽然把波形按原样作为描述符储存,而且描述符数量可以根据视频段长度无限增加,但由于采用上述描述符,在保持时间变化的特征而且不依赖于视频段长度的条件下,可以通过一定量的描述符记述有关视频段的亮度与色度的特征。
另一方面,对于帧间,将各帧间所生成的特征描述符组(CNp,Nsr,Nmr,Nlr)除以帧间总数Np,得出平均数。这样对于帧间,每个视频段生成4个特征描述符组。
此外,特征描述符组的结构便于提高检索方便性。特征描述符组的数据形式与属性表一样有时被设置为比如XML文件的形式。
第10图表示根据所抽取的特征量生成特征描述符组的处理一例。
如图10提示,由特征抽取部3从视频位流中抽取的特征量组根据DTD被转换为作为特征描述符组的XML文件。在图10所示的特征描述符组中包括与上述运动矢量相关的特征描述符组及与辉度、色差信号的直流成分相关的特征描述符组。被包容在<MotionInfo>~</MotionInfo>范围内的信息表示与运动矢量相关的特征描述符组,(CNp,Nsr,Nmr,Nlr)分别由Average(平均)、ShortRun(短行程)、MediumRun(中行程)、LongRun(长行程)的标记围住记述。
被包容在<ColourTexture>~</ColourTexture>内的信息表示与辉度、色差信号的直流成分相关的特征描述符组,其中被包容在<YDC>~</YDC>内的信息表示与辉度信号的直流成分相关的特征描述符组,(avgY[n],stdY[n])分别被包容在“平均、标准”标记内记述。同样,被包容在<UDC>~</UDC>或<VDC>~</VDC>内的信息表示与色差信号直流成分有关的特征描述符组,其中被包容在“平均、标准”标记内记述的信息表示(avgU[n],stdU[n]),(avgV[n],stdV[n])。
在第10图所示的特征描述符组中,除了与上述运动矢量有关的特征描述符组及与辉度、色差信号的直流成分有关的特征描述符组之外,还包括与媒体相关的辅助信息。第10图中被包容在<MediaInfo>~</MediaInfo>内的信息即表示此类信息,诸如MPEG-1和JPEG等的图像格式(格式)、CD、DVD等蓄存媒体种类(媒体)及其它表示彩色图像或单色图像的与颜色相关的信息、图像大小、其它图像的显示所必需具备的终端能力的信息等辅助信息也被包括在其中。用户在使所检索出的图像再生或显示时要用到这些信息,同时也可以作为检索条件予以指定。此外在辅助信息中还包括表示图像蓄存地址的信息。在第10图的示例中,被包容在<Locator>~</Locator>内的信息即表示此类信息,由URL指定。
作为第10图示例之外的其它特征描述符,还有记述图像意义特征的特征描述符组等。其示例有表示体育影片中所描写的选手所属体育队名称及影片中各人物之间的关系等的特征描述符。在设想把家庭用视频录像及数字相片等蓄存到家庭用服务器内的情况下,用户可以把被摄物所具有的有意义的特征作为文本信息直接输入进去,或者在设想把视频广播节目蓄存到家庭用服务器内的情况下,可以由节目信息自动抽取。
此外作为其它特征描述符组,对于帧间的特征描述符组(CNp,Nsr,Nmr,Nlr),不仅是视频段内的平均值,还可以按照与上述帧内的特征描述符组相同的方式计算出作为表示该时间变化的复杂程度即表示与运动的推移相关的复杂程度的指标的视频段内的分散度(标准偏差),并附加到特征描述符组中。这样,即使发生运动推移,也可以附加随时间变化的特征量。
此外,对帧内的特征描述符组也可以考虑实施与帧间的特征描述符组的生成相同的处理,削减特征描述符数量。比如根据下列算式6求出各帧内的(CV.NI,CU.NI,CV.NI)量。它们分别相当于第NI个与帧内相关的画面平均辉度及画面平均色差。(算式6)CY,NI=1NmbΣn=1NmbDCY,NI[n]]]>CU,NI=1NmbΣn=1NmbDCU,NI[n]]]>CV,NI=1NmbΣn=1NmbDCV,NI[n]]]>这些值可与帧间内的CNp同样使用,可以得到与画面内辉度及色差相对应的(Nsr,Nmr,Nlr)值。这些值的值组是记述辉度与色差在空间内的分布的复杂程度的量值。如果把这些值用作各帧内的特征描述符组,在得到视频段内的平均与分散(标准偏差)值后,在记述中也可以减少视频段的总描述符数。反之,也可以与帧内的特征描述符一样,按照更为详细的宏块精度对帧间的特征描述符组进行包括时间变化在内的记述。
此外在本实施方式1中介绍的帧内的单位宏块的特征描述符组中,为实现分层检索,也可以对特征描述符组实施如图11所示的从上位层到下位层的分层生成与记述。这样,可以实施从以总体画面为对象的整体辉度与色差变化到以画面内宏块为单位的局部辉度及色差变化的综合性记述,可根据需要实施检索处理。此外,如果另外指定层数,由于只需保留确定层数所需的特征描述符组数据,所以对特征描述符组的数据量也可以进行适当的调整。
此外,本实施方式1中的帧内特征描述符组数由于取决于宏块数,因而对于宏块数不同的视频段不能进行严密的适应性判定处理,为解决这一问题,可以根据用户请求检索与实际检索的各自图像数据的宏决数,实施适宜的任意特征描述符组的插补或减除,与宏块数吻合,使其达到匹配。这种情况虽然适用于对各种图像格式的视频内容混合在一起的数据库实施检索处理的情况,但在实际应用情况中(比如数字广播等),为与前导设备等适配,大多将图像格式统一起来,所以上述示例并不多见。此外,在本实施方式中,虽然在特征描述符组的记述中采用XML语言,但与属性定义表的情况相同,特征描述符组也不局限于XML,也可以基于预先定义的数据结构被记述。
如上所述,当通过步骤ST5的处理由特征描述符组生成部4生成特征描述符组时,所生成的特征描述符组与图像数据一同被蓄存在图像信息蓄存部5内(步骤ST6)。此外,特征描述符组的蓄存数据库也可能与图像数据的蓄存数据库不同。在该情况下,特征描述符组内最好包括表示图像数据存储位置的地址。在第10图的示例中,特征描述符组内包括一个称为“定位符”的要素,在该要素值内设定URL。(2)图像检索部8的处理以下对图像检索部8的处理作以说明。
第12图是表示图像检索部8的处理情况的流程图。图像检索处理主要包括二种处理方法。即基于属性表的检索和基于特征描述符组的特征类似度检索。
首先对基于属性表的检索处理作以详细说明。
首先,由用户通过用户接口部9输入检索条件(步骤ST18)。这里,输入比如需要检索的图像类别、图像制作日期及时间、图像制作者等文本信息。由用户输入的文本信息被传送给检索处理部10,在检索处理部10中,实施对属性表蓄存部7中蓄存的属性表的适合判断处理(步骤ST19)。比如以用户指定图像的制作日期与时间及图像制作者为检索条件为例。在第4图的示例中,搜索“日期、时间、作者”标记,与标记所包容的值对应即可。
作为对与属性表的适应性判定处理结果,如果存在与日期、时间、作者所有要素相一致的视频邮件的属性信息(步骤ST19“Y是”),则从属性表内抽取作为适应结果的与日期、时间、作者所有要素相一致的视频邮件的属性信息,并传送给显示部11(步骤ST20)。这样,由于作为图像数据属性信息的文本信息被实施结构化记述,因而可基于数据结构的定义,只抽取检索所必需的要素,从而能容易地达到匹配。
上述步骤ST20、ST21的处理一直重复到蓄存在属性表蓄存部7内的属性表最后一项(步骤ST21“N否”),当属性表的最后一项结束后(步骤ST21“Y是”),在步骤ST20中所处理的与用户检索条件相适合的所有属性信息都被转移到显示部11内。
当到所蓄存的属性表最后适合结果传送处理结束时(步骤ST21“Y是”),在显示部11上显示出适合用户检索条件的属性信息一览(步骤ST22)。在第4图示例中,其日期、时间、作者的要素值与用户的输入值一致的属性信息一览作为文本信息显示出来。此时,在图4示例所示的以XML文件格式记述属性数据的情况下,XML文件可在显示部内被转换为可通过浏览器显示的HTML形式。此外,此时通过向属性信息分配超链接,则可容易地进行下一个用户访问。如果图像数据是映像数据,而且具有规定的显示面积,则映像数据的关键帧可与属性信息一同显示,如果建立从关键帧数据到映像数据的链接,则用户可直观地访问映像数据。
如上所述,由于以预定的数据形式对属性表实施结构处理,因而可在用户侧通过规定数据形式的文件(比如DTD)对属性表的数据结构进行分析,可容易地转换成能显示出来的数据形式。
其次,如果所显示的属性表中存在所需的图像属性信息,用户在通过接口部9输入再生指令(步骤ST23)的同时,选择出需要再生的图像的属性信息(步骤ST24)。然后,在检索处理部10内,根据由用户选择的图像的属性信息中包含的地址(URL),把图像数据传送给显示部11,显示部11对该图像数据实施再生/显示(步骤ST25)。
另一方面,即使显示部11显示的属性表一览与所需图像的属性信息不一致,但如果存在与所需图像的属性信息相近的属性信息,或者与属性帧一同显示的关键帧与所需图像类似,则用户可以通过接口部9输入类似检索指令(步骤ST23),同时选择用于类似检索的与所需图像属性信息相近的属性信息(步骤ST26),这样,可通过图像信息蓄存部5检索与所需图像类似的图像。
即当用户通过接口部9输入类似检索指令(步骤ST23),并选择用于类似检索的属性信息(步骤ST26)后,检索处理部10实施基于特征描述符组的特征类似检索,通过步骤ST26从图像信息蓄存部5内抽取所选择图像的特征描述符组,实施与图像信息蓄存部5内蓄存的其它图像特征描述符组的适应性的判定处理(步骤ST27)。此外在以下说明中,与上述相同,以通过运动矢量和辉度及色差信号的直流成分相关的特征描述符组记述特征量的情况为例作以说明。
第13图是详细介绍第12图中步骤ST27的适合判断处理一例的流程图。
首先,对于作为视频段内的帧间特征描述符的运动矢量的4个相关特征描述符CNp,Nsr,Nmr,Nlr及作为帧内特征描述符的辉度与色差成分直流成分的Nmb个相关特征描述符avgY[n],avgU[n],avgV[n],stdY[n],stdU[n],stdV[n],分别基于通过步骤ST26选择的图像特征描述符组的各特征描述符数值,实施该各特长描述符是否处于由阈值规定的范围内的比较(步骤ST27-1~ST27-11),如果所有特征描述符值都是规定范围内的值,可判定为适合,否则为不适合。
然后,具有被判定为适合的特征描述符的图像地址信息(URL)被传送给显示部11(步骤ST28)。按上述方法,对剩余的特征描述符组按同样方法进行适合判断处理,直到特征描述符组表内的所有特征描述符组的适合判断处理都结束(步骤ST29“Y是”)。
这样,特征描述符组表内的所有特征描述符组的适合判断处理都结束后(步骤ST29“N否”),显示部11基于具有被判定为适合的特征描述符的图像地址信息从图像信息蓄存部5中调出图像,对该图像进行再生/显示(步骤ST22)。此外,在运动图像的情况下,把具有被判定为适合的特征描述符的运动图像的关键帧地址信息传送给显示部11,显示部11对该关键帧进行再生/显示。因此,用户通过接口部9从由显示部11显示的关键帧一览中选择出所需显示的运动图像(步骤ST24),对运动图像进行再生/显示(步骤ST25)。此外,也可以再次选出需进行类似检索的图像(步骤ST26),实施如上所述的类似检索(步骤ST27)。
因此,根据本实施方式1中的图像检索系统,在基于参照属性表的属性信息实施检索后,由于可以基于特征描述符实施检索,因而可以有效地进行检索。
此外对于步骤ST27的适合判断处理,可考虑采用其它各种方法。即在上述的第13图示例中,虽然对所有的特征描述符都附加相同的权重,然后进行相对阈值的比较处理,但在比如需对运动状态进行重点检索的情况下,也可以对帧间的特征描述符的比较处理结果加权,产生最终结果。此外,在第13图的示例中,虽然对每个特征描述符的比较结果以级联方式逐个连接,从而得到最终结果,但也可以对全部特征描述符的比较处理进行适当的规范化处理并使之结合起来,进行综合性判定。这种适合判断处理可以按照根据检索目的将特征描述符的数据最有效地用于检索的方式予以调整。
此外,在利用多种类型的特征描述符进行检索时,可以根据应用类型(检索系统、数据库等),在描述符方式下预先储存适合判断处理(检索算式)。由于可以通过根据标准的记述方法对判定处理本身进行记述,而且可以按照检索中使用的多个特征描述符用于检索的方法不取决于具体应用的方式进行记述,所以可以统一设置各种类型的应用。此外,比如还可以通过通用的适合判断处理对与互联网连接的用于同样特征描述符检索的其它数据库中的数据进行检索处理。比如下述(1)~(7)所示可以作为适合判断处理的记述示例。
(1)记述将多个特征描述符用于适合判断的方法。比如综合检索或级联检索等。
(2)附加取决于综合检索处理时的各特征描述符的重要性的权重系数。
(3)提供实施综合检索时的各特征描述符的规范化方法。
(4)提供将描述符用于检索的顺序。
(5)提供基于级联连接的检索情况下根据各特征描述符所得到的检索候补数。
(6)提供表示各特征描述符的记述精度(特征记述的正确程度)的数值。
(7)提供根据各特征描述符的匹配所得到的检索候补分别是以“与”方式输出还是以“或”方式输出的判断基准。
这些适合判断处理顺序的描述符可以通过具体应用所固有的固定方式记述,也可以采用在具体应用所容许的范围内由用户定制的构成。比如,通过用户从系统获取可用于检索的特征描述符种类信息,并根据其性质把反映本身喜好的独自的适合判断处理作为描述符予以更新,则用户便可以实施更为灵活的检索处理。虽然这种检索系统的定制设置可在某种程度上单独取决于具体应用,但通过建立通用标准记述格式,可以容易地设置到一个大范围系统中,此外还可以在各不同应用之间共享可用于检索的数据。
此外作为本系统的应用示例,本系统可适用于监视系统。比如在利用监视摄像机对侵入者进行监视的监视系统中,通过图像的运动特征量便可以检测出侵入者,因此记述图像运动特征量的元数据可与监视图像位流一道被登录到数据库内,监视图像的被记录日期及时间等信息被登录到属性表内。当用户使被记录的监视图像再生时,可输入作为检索关键码的日期与时间等文本信息,并把称为“侵入者”的关键词作为检索关键码输入进去。从登录表中选择候补检索图像,然后对候补检索图像中附加的元数据进行检索,显示出怀疑有侵入者存在的图像。用户可以从所显示出的图像选择所需的图像,使其再生。而且对于已经检索过的已显示出的映像,即使记不住准确的记录日期与记录时间,如想从蓄存映像中更详细地检索出这样的类似映像,也可以利用特征描述符组通过获取映像间的匹配向用户提供详细的检索结果。
此外作为本系统的另一应用例,本系统可适用于用户可从蓄存在便携终端等内的视频邮件和蓄存在家用服务器内的广播节目中检索出希望察看的邮件或广播节目并再生的系统。属性表由家用服务器内节目录像的日期及时间与从节目信息中抽取的节目名称及演员等信息组成。虽然可以根据输入用户所希望观看的节目信息进行检索,但在检索结果中没有所需信息时,也可以根据在映像上附加的特征描述符组进行类似检索。这样即使不能准确记住所需的节目信息,也可以凭借对映像的印象进行检索。
此外对于上述的特征量抽取部3、特征描述符组生成部4的运作及所抽取的特征量和所生成的特征描述符组,还有其它各种例子。比如,如图13所示,特征抽取部3从通过映像压缩编码部12被压缩编码之前的非压缩状态下的图像数据中抽取特征量,把它传送给特征描述符组生成部4。作为如此构成的系统的应用例比如包括,在边压缩长时间监视映像边蓄存的系统内,对来自摄像机的数字化输入映像实施直接运动物体和侵入物等的特征(颜色、形状、大小、运动量、方向等)检测,并作为特征量抽取,在特征描述符组生成部4内生成特征描述符组后,在映像压缩编码部12内经过压缩编码处理,然后被附加到视频段内并蓄存起来。在该例中,由于抽取保存作为图像数据的详细特征的非压缩映像的特征量,因而与从压缩数据中抽取特征量的情况相比,具有可以生成更详细的特征描述符(被摄物的种类与轨迹的记述等)的优点。另一方面,要生成详细的特征描述符需要复杂的演算处理系统,因此对特征抽取部3和特征描述符组生成部4要求具有更高的演算性能。
这样的系统不仅可用于监视,还可适用于与成本相比对其质量与可靠性更为重视的广播业务用摄像机。在该情况下,本实施方式下介绍的系统总体相当于广播节目制作用映像库系统。从摄像机得到的映像特征描述符组与被记录的映像一道被记录到数据库内,因此,可以以图像本身所具有的类似性作为关键码有效实施素材检索。此外,即使对于个人用摄像机,如果能通过配备压缩编码处理前简单的前期处理功能,生成与比如人物的面部图像有关的特征描述符,并与所对应的映像一道记录到媒体内(录像带、个人计算机或家用服务器中的硬盘),则可以通过特征描述符组的匹配从大量的未整理的映像中检索出与确定面部对应的映像。
在上述任一种应用中,通过采用属性表,可以根据记录映像的属性观点对多种媒体和数据库进行统一管理,可根据属性表的层次进一步简单地实施作为候补检索的映像追加及删除等,因此,不仅检索处理,系统构成本身也可以统一简单化。实施方式2在本实施方式2下,主要对将有关运动图像数据的运动量、亮度、颜色等多种特征描述符组合起来,构成特征描述符组,作为对它们进行检索的关键码使用的可反映用户意图的检索方针等的图像检索系统及图像检索方法的具体示例作以说明。此外在上述实施方式1下,虽然所说明的检索处理部10设置在服务器侧,但在本实施方式2下的图像检索系统中,检索处理部10设置在服务器侧与客户侧,服务器侧与客户侧通过2个网络A与B互相连接,这是一个特征。
第15图是表示本实施方式2的图像检索系统中服务器侧的特征部分构成的方框图。即第15图除了表示第2图中的特征描述符组生成部4的详细构成,还表示检索处理部10被分为二个检索处理部10A、10B后服务器侧的检索处理部10A的详细方框图,还示出了用于再生检索结果所必需的视频再生服务器218。
在第15图中,201是压缩视频数据,202是特征描述符生成部,203是特征描述符数据,204是特征描述符可靠度计算部,205是特征描述符可靠度,206是特征描述符检索使用顺序决定部,207是特征描述符检索使用顺序(检索优先度)数据,208是压缩视频数据存储位置信息,209是检索用描述数据生成部。
另外,210是检索用描述数据文件,211是检索用描述数据分析部,212是被分析的特征描述符数据等,213是适合判断处理部,214是适合判断处理结果,215是检索结果编码传送部,216是检索请求信息,217是检索结果信息,218是视频再生服务器,219是再生请求信息,220是再生控制部,221是再生内容确定信息,222是再生视频内容数据,223是视频数据传送部,224是分配视频数据。
第16图是主要表示本实施方式2下图像检索系统中客户侧的特征部分构成的方框图。即第16图表示第2图中检索处理部10被分为二个检索处理部10A、10B后客户侧的检索处理部10B的详细方框图,同时还表示用于为用户再生检索结果的视频解码再生部与用户之间的交互作用和用于显示再生映像等的用户接口等。
在第16图中,225表示网络A,227表示检索请求信息编码传送部,228表示检索结果接收显示部,229表示用户接口部,230表示来自用户的检索请求,231表示在用户接口部229上显示出的检索结果,232表示用户,233表示检索结果再生请求,234表示检索运动图像再生,235表示视频再生控制部,237表示网络B,239表示视频解码再生部。
此外在第16图所示的客户侧的检索处理部10B、视频再生控制部235及视频解码再生部239与第15图所示的服务器侧的检索处理部10A及视频再生服务器218之间通过网络A225和B237可收发检索请求信息216、检索结果信息217、再生请求信息219及分配视频数据224。这里,网络A225意味着比如与数据的传送高速度相比,可靠性更为重要的网络,比如意味着TCP/IP之类的网络。此外,网络B237意味着比如与数据的传送可靠性相比,实时传送的高速度更为重要的网络,比如意味着RTP/UDP/IP之类的网络。
此外,第16图中的用户接口部229相当于第2图中的客户部,表示兼有第2图中的用户接口部9与显示部11功能的客户应用。
如上所述,第15图所示的构成主要表示在服务器侧设置的部件,第16图所示的构成主要表示在客户侧设置的部件。从这些图中可看出,在本系统中,实际的检索适合判断处理等的检索处理本身在服务器侧的检索处理部10A中实施,客户侧按照规定的规则对检索处理中用户爱好等的请求信息进行编码处理,并传送给服务器侧,这样,服务器对该信息进行解释,并在检索处理中反映出来。
通过上述系统,可无需通过网络把存储大量的检索用视频描述数据的文件传送给客户侧,因此可以提高网络的使用效率。此外,虽然作为一种正常的检索结果提示形式,一般都把若干个候补检索内容提示给用户,但是也可以不把作为检索结果信息的所有候补检索视频数据都传送给客户侧,通过与实时视频再生系统的组合只把用户真正需要的检索结果传送给客户侧。这样也能取得提高网络整体使用效率的效果。
本系统的检索处理特征包括可以计算出相对多个视频特征描述符的表示各自所记述的可靠度的数值,并根据该数值确定检索所使用的顺序,将该数值作为描述数据的一部分存储到XML文件等检索用描述数据内。此外,由于与该检索使用顺序有关的描述符反映了与检索相关的用户爱好等,因而可以把它作为可根据来自客户侧的用户请求予以更新的数据,使其作为提供多种视频特征描述符的组合检索参数的描述符发挥作用。
此外,表示各特征描述符可靠性的数值被用于确定各特征描述符检索步骤中的检索结果减少候补数等的系统参数。以下把特征描述符检索使用顺序的描述符称为“检索优先度”,把表示各特征描述符可靠性的数值称为“可靠度”。二者的详细意义及使用方法在后文介绍。
第17图表示本系统中检索用描述数据的生成及检索处理的流程图。以下基于第15图~第17图对本实施方式2下的系统的详细运作作以说明。(1)检索用描述数据文件210的生成(步骤ST30~步骤ST33)首先,通过对作为附加检索用描述数据的输入图像数据的压缩视频数据201实施下述处理生成检索用描述数据文件210。以下把作为生成检索用描述数据的对象的压缩视频数据201称为视频段。如实施方式1中所述,视频段表示由任意数的帧群构成的单位视频数据。因此,视频段有时也表示比如一个电视节目和视频软件(以下把该情况称为“视频节目”),有时表示根据电视节目中确定意义内容分类的场景(以下称为“视频场景”)以及构成场景的各镜头画面(以下称为“视频镜头”)等。从帧数的观点出发,他们都是具有不同帧数的视频段。(1-1)检索用描述数据的构成第18图表示本实施方式2中构成检索用描述数据文件210的检索用描述数据构成的记述例。具体地说,检索用描述数据的结构是,视频节目240处在最上位层,构成视频节目240的视频场景(图中省略“场景”一词)243群处在次位层,构成各场景243的视频镜头(图中省略“镜头”一词)244群处在最下位层。此外在图中,视频段(视频节目240、视频场景243、视频镜头244)、检索优先度241及可靠度242以符号“口”表示,另一方面,各视频段,特别是记述视频镜头的特征描述符245~249群以符号“0”表示。在本系统中生成与视频镜头244有关的下列特征描述符组245~249。
·运动量245是一种与视频段中运动矢量的大小有关的特征描述符。
·运动方向246是一种与视频段中的运动矢量的方向有关的特征描述符。
·运动分布247是一种与视频段中运动矢量在画面内分布有关的特征描述符。
·亮度248是一种与视频段内的平均亮度有关的特征描述符。
·代表色249是一种与视频段内的代表色有关的特征描述符。
此外,在各位层240~244及特征描述符245~249中,设定将在后文介绍的可靠度242。
此外,在最上位层的视频节目240中附加一个检索优先度241。
随着检索使用顺序的变化,各特征描述符所代表的特征量将返回不同的结果。在本例中,由于在一开始从初期的大量数据库中抽取了能良好地适合于运动量的视频段,因而在最终向用户展示的检索结果中可以得到运动量方面具有很高类似度的结果。因此,通过把这样的信息附加到视频段上,用户可以持续地得到基于检索优先度241的信息的检索结果,此外由于用户可以对该信息进行动态性的变更,因而可以把适合用户意图的检索结果灵活地输出。
在本实施方式2下,由于假设从同一视频节目240中检索出与视频节目240中某种确定的视频镜头244类似的其它视频镜头244,所以在视频节目240中附加一个检索优先度241,而在与视频场景243和视频镜头244的层次相应的视频段内则不附加。
接下来对各特征描述符中设定的可靠度242作以说明。比如以与运动量有关的特征描述符为例,所谓可靠度242是一种以数值方式客观地表现该描述符如何正确地记述视频内容的运动量的指标。有关数值化方法在与各特征描述符的生成有关的说明项目中详述。在本实施方式2中,可靠度242包括对各视频镜头244的特征描述符245~249等计算及附加的可靠度242C、对各视频场景243附加的作为构成各视频场景243的全部视频镜头244的可靠度平均值的可靠度242B、作为对视频节目240附加的构成该视频节目240的全部视频场景243的可靠度平均值的可靠度242A。在构成检索用描述数据的各要素中附加的上述可靠度242主要用于检索优先度241的初期设定及检索处理阶段中的参数设定。详情后述。(1-2)检索用描述数据的生成处理(1-2-1)特征描述符的生成处理(步骤ST30)在各特征描述符的生成中,首先由特征抽取部3把特征描述符的生成所必需的运动矢量及直流成分值等图像特征量从压缩视频数据201中抽取,特征描述符生成部202基于这些特征量实施各特征描述符的生成(步骤ST30)。以下对各特征描述符的生成方法作以详述。(a)与运动量有关的特征描述符245以视频段中的第k项帧间(P-frame)为例,根据下列算式求出帧内所有宏块(1≤n≤N;N为帧内的宏块总数)的运动矢量MVk[n]的大小Ck[n].(算式7)Ck[n]=xn2+yn2]]>xn运动矢量MVk[n]的水平成分yn运动矢量MVk[n]的垂直成分接下来,求出1帧内所蓄存的Ck[n]的下列平均值及方差。(算式8)Ckavg=1NΣn=1NCk[n]]]>(算式9)σk2=1NΣn=1N(Ck[n]-Ckavg)2]]>通过上述计算可以得到与帧间k的运动量有关的特征描述符的数据组(Ckavg,σk2)。此外,要求出一个视频段的值,可以通过视频段内的帧间总数求出平均数。(b)与运动方向有关的特征描述符246根据下列算式10求出各帧间的运动矢量MVk[n]的角度Ak[n]。角度以Degree表示。(算式10)4k[n]=tan-1(yn/xn)另一方面,对帧内宏块设为Ak[n]=0。对于一帧内蓄存的Ak[n],根据下列算式11求出平均值。此外,要求出一个视频段的值,可以通过视频段内的帧间总数求出平均数。(算式11)Akavg=1NΣn=1NAk[n]]]>(c)与运动分布有关的特征描述符247对于在(a)中求出的帧间k内的各运动矢量Ck[n],实施下列阈值处理。(算式12) 对按上述方法得到的新运动矢量分布,按照光栅扫描顺序对Ck′[n]进行扫描,求出下列运动分布特征量。
SRk具有帧水平像素数1/3以下长度的零行程(短行程)数MRk具有帧水平像素数1/3以上2/3长度的零行程(中行程)数LRk具有帧水平像素数2/3以上长度的零行程(长行程)数此外如实施方式1中所示,从第8图中可以看出,存在多个短行程的帧内的运动复杂度较大,运动量分布在一个较大的范围内,在存在多个长行程的帧,运动只局限在局部。
因此,要求出一个视频段的值,可以通过视频段内的帧间总数求出平均数。(d)与亮度有关的特征描述符248采用帧内的辉度信号成分中所包含的各宏决的直流(DC)成分的直方图。DC成分数值范围为0~255,该范围被定量分为16个试样区,求出各试样的直方图。通过各试样视频段中的全部帧内数算出按各帧内求出的直方图平均数。最后,根据下列算式13求出所有帧内(N个)的平均数。(算式13)Havg(j)=1NΣi=0NHi(j),]]>j=0,K,15(e)与代表色有关的特征描述符249采用帧内的辉度及色差信号成分中包含的各宏块直流(DC)成分的直方图。DC成分数值范围为0~255,该范围被定量分为16个试样区,求出各试样的直方图。通过各试样视频段中的全部帧内数求出按各帧内求出的直方图平均数。最后,根据下列算式14求出所有帧内(N个)的平均数。(算式14)Havgk(j)=1NΣi=0NHik(j),]]>k色空间、j=0,K,15(1-2-2)可靠度的计算处理(步骤ST31)接下来在特征描述符可靠度计算部204中计算出在步骤ST30中求出的各特征描述符245~249的特征描述符可靠度242(与第15图中特征描述符可靠度205等值)(步骤ST31)。各特征描述符的计算方法在下文中介绍。(a)有关运动量245的特征描述符在抽取视频段内的全部帧间的(Ckavg,σk2)后,求出各要素对应的最终所得到的视频段值与各帧值的差分绝对值,把视频段中的最大值作为0,把最小值作为100,通过对全部帧的平均计算算出规范化后的各帧的差分绝对值。这样,该值成为以帧的记述精度为基准的表示视频段记述精度的值。特征描述符的可靠度是相对(Ckavg,σk2)的各可靠度平均值。(b)有关运动方向246的特征描述符在抽取视频段内全部帧间的Akavg后,求出最终得到的视频段值与各帧值的差分绝对值,把视频段中的最大值作为0,把最小值作为100,通过对全部帧的平均计算算出规范化后的各帧的差分绝对值。它成为表示相对帧记述精度的视频段记述精度的值。(c)有关运动量分布247的特征描述符在抽取视频段内全部帧间的(SRk,MRk,LRk)后,求出最终得到的视频段值与各帧值的差分绝对值,把视频段中的最大值作为0,把最小值作为100,通过对全部帧的平均计算算出规范化后的各帧的差分绝对值。它成为表示相对帧记述精度的视频段记述精度的值。作为特征描述符的可靠度是对应于(SRk,MRk,LRk)的各可靠度平均值。(d)有关亮度248的特征描述符对各直方图试样,求出最终得到的视频段值与各帧值之间的差分绝对值,把视频段中的最大值作为0,把最小值作为100,通过对全部帧的平均计算算出规范化后的各帧的差分绝对值。它成为表示相对帧记述精度的视频段记述精度的值。作为特征描述符的可靠度是对应于各直方图试样的可靠度平均值。(e)有关代表色249的特征描述符对各颜色空间的各直方图试样,求出最终得到的作为视频段的直方图与各帧的直方图之间的差分绝对值,把视频段中的最大值作为0,把最小值作为100,通过对全部帧的平均计算算出规范化后的各帧的差分绝对值。它成为表示相对帧记述精度的视频段记述精度的值。作为特征描述符的可靠度是对应于各直方图试样的各可靠度平均值。(1-2-3)检索优先度241的设定处理(步骤ST32)在视频节目240中包括的所有视频镜头244的特征描述符245~249及可靠度242的计算结束后,在特征描述符检索使用顺序决定部206中,实施相对视频节目240的检索优先度241的初期设定(步骤ST32)。虽然初期设定方法可以根据系统的设计自由规定,但在本实施方式2中,需要基于视频节目240中的所有特征描述符的可靠度242A决定。如果把视频节目240的各特征描述符的可靠度242A设为k,把视频场景m的各特征描述符可靠度242B设为k(m),把视频场景m中的视频镜头n的各特征描述符可靠度242C设为k(m,n),则在这些k,k(m),k(m,n)之间可建立下列关系。(算式15) (算式16) 因此,由于特征描述符中的k值越大,视频节目240中的内容记述状况便越好,因而按照k值从大到小的顺序决定检索优先度241。(1-2-4)检索用描述数据文件210的写出(步骤ST33)通过上述处理过程,在最终检索用描述数据生成部209内,按照第18图所示结构与压缩视频数据201的时空间结构相关联,在XML文件等格式下写入视频节目、视频场景、视频镜头的所有特征描述符及检索优先度和可靠度,通过上述方法生成检索用描述数据文件210,并把所生成的检索用描述数据文件210输出到图像信息蓄存部5内并存储起来(步骤ST33)。此外,在这一过程中,为了能便于参照所生成的检索用描述数据文件210所记述的是哪一种视频数据,压缩视频数据存储位置信息208也一同被编入文件内,作为检索用描述数据文件210向图像信息蓄存部5输出,在这种方法下,通过对文件的分析,便可以确定出作为记述对象的视频数据的所在位置。(2)检索处理接下来,对来自客户侧的由用户指定的要求(检索请求方视频镜头)所实施的检索处理作以详述。检索处理通过第15图所示的检索处理部10A及第16图所示的检索处理部10B被实施。
检索处理部10A对由客户侧传送来的检索请求信息216进行解释,对要求进行确定,通过利用图像信息蓄存部5中存储的检索用描述数据文件210实施的适合判断处理求出规定的检索结果,根据规定的规则对检索结果信息217进行编码,向客户侧返送。
检索处理部10B从用户接口部229接收来自用户的检索请求,根据规定的顺序对其进行编码处理,使之成为检索请求信息216,并向用户侧的检索处理部10A传送,同时,接收由用户按规定的规则传送的检索结果信息217,将其转换为可以向用户提示的格式,在用户接口部229上显示出来。
在本实施方式2中,如第18图所示,把所记述的视频节目240中确定的视频镜头244作为检索请求方视频段(要求),从同一视频节目240中检索出与询问类似的视频镜头。
对询问的视频镜头的确定方法可以有多种。比如一种方法是,视频节目制作侧预先把作为检索关键码的视频镜头当作询问予以登录,并把它提示给用户,使其从中任意指定一个,另一种方法是,用户在收听观看视频节目时,在任意位置上停止再生,把该时点下的视频镜头作为询问予以指定。以下对确定询问后的检索处理作以详述。(2-1)询问的确定及检索用描述数据的分析(步骤ST34~步骤ST36)该分析形式有用户首先从在用户接口部229上提示的询问表等中选定一项询问作为检索请求(步骤ST34)。服务器侧的图像信息蓄存部5预先把代表候补要求视频段的关键帧等数据以询问表的形式在用户接口部29上提示。
检索处理部10B通过检索请求信息编码传送部227把用于在服务器侧确定由用户指定的询问的信息作为检索请求信息216传送给检索处理部10A。这里的询问信息可以是作为比如视频节目及其构成要素的视频镜头的时间序列号,或者是适当的ID数据。另外,这种内容确定信息也可以在原检索用描述数据文件210中作为与内容的链接信息被记述,在向用户提示询问表时把内容确定信息附加上去,并传送给客户侧。
然后,在检索处理部10A中,由检索用描述数据分析部211接收由检索处理部10B传送来的检索请求信息216,检索用描述数据分析部211基于所接收的检索请求信息216,对与作为询问的视频镜头有关的检索用描述数据文件210进行确定,并对其进行分析,然后抽取特征描述符等数据(步骤ST35)。
此外,检索用描述数据分析部211预先抽取询问所属的视频节目的检索优先度241与各视频场景可靠度242B的数据,传送给适合判断处理部213,与询问相关的特征描述符等的数据被传送到适合判断处理部213内后,对询问所属的视频节目中的各视频镜头所对应的检索用描述数据文件210进行依次分析,并将其传送给适合判断处理部213(步骤ST36)。
此外,检索用描述数据文件210的构成方法可以任意确定,视频节目240内的所有视频镜头243的检索用描述数据可以被存储到一个文件内,也可以把各视频镜头244按文件分割。在后者情况下,最好附加用于由视频节目240的描述数据文件210确定各视频镜头244的描述数据文件的链接信息。(2-2)检索规则的决定及适合判断处理(步骤ST37~步骤ST38)适合判断处理由检索处理部10A的适合判断处理部213实施,其运作过程可大致分为检索规则的决定与基于各特征描述符的适合判断处理。(2-2-1)检索规则的决定适合判断处理部213基于从检索用描述数据分析部211接收的视频节目的检索优先度241及视频场景的可靠度242B的数据,设定检索规则与用于检索的参数(步骤ST37)。在本实施方式2中,基于后述第19图所示的检索优先度241决定作为检索规则的各特征描述符检索顺序,然后基于可靠度决定下列检索参数。
首先确定作为检索结果向用户返回的最终检索结果数T。可以由系统把该检索结果数作为缺省值予以保存,也可以作为用户请求按照用户接口部229→检索处理部10B→检索处理部10A的顺序传送。检索装置求出各视频场景中T个以下的检索结果,把作为候补检索的所有视频场景中的全部视频镜头中的T个上位适合判断结果视频镜头作为最终结果向用户返送。
基于可靠度k(m),根据下列算式17决定视频场景m在检索时的候补检索数Tk。(算式17)T0=T*5 式中,Pk是第K个(1≤K≤5)特征描述符的检索优先度(1≤Pk≤5)。通过该设定,可决定出在根据优先度顺序对各特征描述符检索的各步骤中的候补检索数Tk。由于每经过一道检索步骤,候补检索数Tk基本上都要被缩减一次,因而可以实现高速检索处理。由于在该检索中的某些情况下,用户真正需要的视频镜头在某些检索步骤中可能被遗漏,因而也可以考虑把各检索步骤中的候补检索数设为定数,利用可靠度决定其最终的候补检索。(b)基于阈值处理的检索跳越判定在各视频镜头的适合判断处理时,满足下列条件的视频镜头,即具有最高检索优先度的特征描述符的可靠度极低的视频镜头作为不适合检索条件的视频镜头被排除在候补适合判断处理以外。由于可靠度越接近0其可靠度被认为越低,越接近100其可靠度越高,所以下列算式18中的TH可以被适当地设定为较小的值。(算式18)
k(m,n)≤TH; Pk=1通过本判定,可以在适合判断处理之前把明显不适于候补检索结果的视频镜头排除在外,从而可以实现检索处理高速化。
另外在本实施方式2的说明中,虽然利用检索优先度最高的特征描述符进行判定,但除此之外也可以实现利用可靠度的各种跳越判定方法。此外在对各视频镜头实施适合判断处理时,需要针对每个视频镜头实施本实施方式2下的判定。(2-2-2)各特征描述符的适合判断处理根据下列基准,在各检索步骤中实施根据检索优先度241确定的特征描述符的适合判断处理。(步骤ST38)(a)与运动量相关的特征描述符对各数据间的所有欧几里得距离进行相加。为减小各数据要素的值域差,实施规范化处理。把询问设为Sq,把需被检索的视频镜头设为S,通过下列算式19确定Sq与S之间的匹配评估尺度D(Sq,S)。该D(Sq,S)越小者,其类似度越高,可判定为具有适合性。(算式19)W=Cavg(Sq)+σ2(Sq)D(Sq,S)=WCavg(Sq)|Cavg(Sq)-Cavg(S)|+Wσ2(Sq)|σ2(Sq)-σ2(S)|]]>(b)与运动方向相关的特征描述符通过下列算式20确定询问Sq及需被检索的视频镜头S之间的匹配评估尺度D(Sq,S)。该D(Sq,S)越小者,其类似度越高,可判定为具有适合性。(算式20)D(Sq,S)=|Aavg(Sq)-Aavg(S)|(c)与运动分布相关的特征描述符通过下列算式21确定询问Sq及需被检索的视频镜头S之间的匹配评估尺度D(Sq,S)。该D(Sq,S)越小者,其类似度越高,可判定为具有适合性。(算式21)D(Sq,S)=|SR(Sq)-SR(S)|+|MR(Sq)-MR(S)|+LR(Sq)-LR(S)|通过下列算式22确定询问Sq及需被检索的视频镜头S之间的匹配评估尺度D(Sq,S)。这里,Hi(S)表示第I项试样的直方图值。该D(Sq,S)越小者,其类似度越高,可判定为具有适合性。(算式22)D(Sq,S)=Σi=015|Hi(Sq)-Hi(S)|]]>(e)与代表色相关的特征描述符通过下列算式23确定询问Sq及试验S之间的匹配评估尺度D(Sq,S)。这里,{HiY(S),HiU(S),HiV(S)}表示第i项试样的直方图值。该D(Sq,S)越小者,其类似度越高,可判定为具有适合性。(算式23)D(Sq,S)=Σi=015[|HiR(Sq)-HiR(S)|+|HiG(Sq)-HiG(S)|+|HiB(Sq)-HiB(S)|]]]>第19图表示在适合判断处理部211中通过检索优先度241确定的特征描述符的适合判断处理一例。比如假设每个视频段有3个特征描述符D1~D3。检索优先度Pk(K为自然数)是用于规定各特征描述符Dk用于检索的顺序的值。比如,如果用D1表示与运动量有关的特征描述符,D2表示与运动分布有关的特征描述符,D3表示与亮度有关的特征描述符,则在第19图例中,适合判断处理部211首先利用与运动量有关的特征描述符D1对询问(检索请求视频镜头)250实施适合判断处理251,从由检索用描述数据分析部211传送的在图像信息存储部5内存储的多个数据库257中集中选择在运动量方面具有很高的类似度的并具有良好的适合性的视频段数据。利用有关运动量分布的特征描述符D2对该集中选择结果252实施适合判断处理253,集中选择在运动量分布方面具有很高类似度的并具有良好适应性的视频段数据,并利用与亮度有关的特征描述符D3对该结果254进一步实施适合判断处理255,集中选择在亮度方面具有很高类似度的并具有良好适合性的视频段数据,得到最后结果256(与第15图中的适合判断处理结果214相等)。(2-3)检索结果的提示与基于用户反馈的再检索(步骤ST39~步骤ST41)通过用户接口部229把基于上述检索规则及适合判断处理所选择的T个检索结果视频镜头信息向用户232提示(步骤ST39)。虽然提示方法可任意确定,但在本实施方式2下采用以下方法首先提示比如询问表,即基于规定的规则对代表检索结果视频镜头的关键帧数据和视频镜头的属性信息(视频镜头内的被摄体的名称等)进行编码处理,作为检索结果信息217传送给客户侧的检索处理部10B,检索处理部10B的检索结果接收显示部228接收由服务器侧传送来的对关键帧数据和属性信息进行编码处理后的检索结果信息217,并转换为可以在用户接口部229上显示的格式,传送给用户接口部229。通过上述处理,用户232便可以在用户接口部229上见到检索结果。
接下来,对基于用户反馈的再检索顺序作以说明。
虽然用户首先对通过基于检索优先度241和可靠度242等按上述方法确定的检索规则所得到的检索结果进行确认,但有时该结果与用户主观上的希望有差异。为能灵活地对应这种情况,本实施方式2构成一种用户可以改变检索优先度,并基于该变更值实施再检索的系统(步骤ST40)。
第20图表示用户特别着重的主观意义与特征描述符之间关系的一例。从该图中可以看出,当用户把确定的被摄体以一定方向运动的视频镜头作为询问加以选择时,极有可能期待一种“与运动方向特征类似的视频镜头”检索结果。但是,由于在最初的初始设定中根据可靠度决定检索优先度,因此该主观加权结果不一定能在检索过程中反映出来。
为此,本系统的构成为按照能如第20图所示使用户的主观意义在检索处理中反映出来的方式,可通过用户接口部229等改变检索优先度241。比如在上例中,用户232可以“把有关运动方向的特征描述符的检索优先度设定为更高的值”。这样,由于在检索处理中优先实施运动方向特征描述符的适合判断处理,因此在最终检索结果中,“运动方向“这一因素更易于得到更强烈的反映。
由用户232更新的检索优先度241通过检索请求信息编码传送部227根据一定的规则被编码,作为检索请求信息216的一部分通过网络A225被传送给服务器侧的检索处理部10A中的检索用描述数据分析部211。
为使传送来的检索优先度241的更新值能再次用于以后的检索处理,检索用描述数据分析部211将检索用描述数据文件210中的视频节目240所对应的检索优先度241的值更新为该更新值(步骤ST41)。
此外,检索用描述数据分析部211在连续几个检索处理结束后的时点下,在已更新为该时点下最新的检索优先度241的值的状态下,把检索用描述数据文件210再次存储到图像信息蓄存部5内。
通过上述构成,在用户根据同样的基准再次检索同一视频节目的情况下,可以在反映了过去的用户主观要求形态下实施再检索。
此外在多个不同用户232使用同一系统的情况下,检索用描述数据文件210也可以被设置为能存储各用户232的检索优先度241的文件构成。这样,通过建立适当的用户认证手续,便可以适宜地再现适合各用户232的检索规则。
通过采用上述的更新后的检索优先度241,并重复步骤ST37以后的检索处理过程,便可以实施再检索。至此,第17图所示的本系统中检索用描述数据生成及检索处理便结束。(3)视频镜头再生处理通过上述运作,可以把用户所需的检索结果传送到用户接口部229上。但是一般的检索结果中会提示多个候补检索内容,如果把它们都作为视频数据显示,则必须从服务器侧向客户侧传送大量的信息。因此如上所述,通过把代表视频镜头的关键帧数据提示到用户接口部229上,由此使图像有选择地再生的构成,可以有效地削减信息传送总量。为形成这种系统构成,在本实施方式2中,设置了第15图及第16图所示的视频再生服务器218、视频解码再生部239、再生控制部235等。用户232利用本功能可以使所选择的视频镜头及视频节目再生。
以下对用户232利用本功能使所选择的视频镜头及视频节目再生的运作过程作以说明。
首先,当用户232通过在用户接口部229上提示的关键帧选择所需再生的视频镜头244及视频节目240时,该选择信息将作为检索结果再生请求233从用户接口部229被传送给视频再生控制部235。
在视频再生控制部235中,按照规定的顺序把该检索结果再生请求233转换为再生请求信息219,通过网络A225传送给服务器侧的视频再生服务器218的再生控制部220。
也可以采用以下构成在再生控制部220中,根据再生请求信息219生成包括用于确定信息内容的内容确定信息等的再生内容确定信息221。如此形成的再生内容确定信息221在原检索用描述数据文件210中作为内容链接信息被预先记述,在向用户提示检索结果信息217时,在检索结果信息217中附加该内容确定信息,向客户侧传送,作为再生请求信息219使用。
这样,再生控制部220把基于所接收的再生请求信息219的再生内容确定信息221传送给图像信息蓄存部5,由图像信息蓄存部5对作为再生对象的视频内容数据222进行确定,把确定后的再生对象视频内容数据222传送给视频数据传送部223。
在视频数据传送部223中,把作为再生对象的视频内容数据222转换为可以实时传送的数据形式的分配视频数据224后,向网络B237传送。
此外,在视频数据传送部223内可以进行旨在向注重高速性的网络B237传送视频数据时能保证网络内或客户侧的可靠性的数据格式转换。比如,可以考虑把视频数据以视频帧为单位进行分割,并按单位附加时标,或者在传送单位数据包内附加优先度信息等。
另一方面,在客户侧,通过高速网络B237传送的分配视频数据224由视频解码再生部239接收,并基于另外从视频再生控制部235传送来的用于再生的必要控制信息262,在用户接口部229上以视频方式再生。此时,如果由于传送上的问题而致使传送数据可靠性下降,则视频解码再生部239及视频再生控制部235将实施旨在适宜补偿再生质量的质量管理控制。
如上所述,利用本实施方式2下的图像检索系统及检索方法,通过采用服务器及客户型系统构成,不仅在局部环境中,即使在IP网之类的分散网络环境中也能有效地检索分配视频数据。
此外,通过把检索优先度241及可靠度242作为检索用描述数据存储到图像信息蓄存部5内,检索系统可以基于这些值确定通用的检索规则的决定准则。
此外,通过检索优先度241的更新功能,用户可以优先实施基于视频内容的主观意义的检索。
另外,通过基于特征描述符的可靠度的适合判断处理的跳越控制,可以实现检索处理速度的高速化,提高系统效率。
此外,虽然在上述实施方式1、2中所介绍的被处理媒体只有视频数据,但本发明并不局限于此,对于附加语音及音频数据等的视频数据也可以构筑同样的构成系统。此外对于音频数据也可以另外配备基于特征描述符的检索系统,此外,如果音频数据仅仅附随于视频数据,也可以构成不将其列为检索对象的系统。如果音频数据被附加在视频数据中,可以构成在视频镜头再生处理中支持附随于视频数据并与其同步的音频数据的再生的系统。
此外,在本实施方式2中介绍的系统中,对于由特征抽取部3及特征描述符组生成部4构成的用于生成特征描述数据的模块、由图像信息蓄存部5构成的用于把特征描述数据登录到数据库内的模块、由检索处理部10A构成的用于接收来自用户的检索请求,实施检索并把结果返回的检索装置模块、主要由检索处理部10B构成的把用户的检索请求通知给检索装置并将返回的检索结果提示给用户的客户模块,不一定建立在同一硬件及软件上,也可以根据各自规定的接口独立地设置在硬件及软件上。从服务的观点出发,可以考虑以下方式的运用方法比如内容提供者生成特征描述数据,申请数据库登录。检索服务提供者把它们登录到数据库内,准备检索处理。用户按照本实施方式所述,指定检索服务提供者,或者根据标准化规定利用用于实施检索处理的客户工具实施检索。
产业上的可利用性如上所述,由于本发明涉及的图像检索系统及图像检索方法从图像数据中抽取特征量和属性信息,利用所抽取的特征量和属性信息实施图像数据检索,因而可以实施高效的图像检索处理。
权利要求
1.一种图像检索系统,其特征在于具备特征描述符生成部,从输入图像数据中抽取图像特征量生成特征描述符;图像信息蓄存部,与输入图像数据相关联蓄存所生成的上述特征描述符;属性表生成部,基于附加于输入图像数据输入的属性信息生成属性表;图像检索部,输入与属性信息相关的检索条件后检索上述属性表,输出适合该检索条件的属性信息,同时在输入与特征描述符相关的检索条件后,检索上述图像信息蓄存部,输出适合该检索条件的图像数据。
2.权利要求1记载的图像检索系统,其特征在于属性表生成部基于定义了属性表数据结构的语法生成该属性表,图像检索部根据上述属性表的语法对属性表进行分析、检索。
3.权利要求1记载的图像检索系统,其特征在于特征描述符生成部基于定义了特征描述符数据结构的语法生成该特征描述符,图像检索部根据上述特征描述符的语法对特征描述符进行分析、检索。
4.权利要求1记载的图像检索系统,其特征在于特征描述符生成部按帧单位抽取特征量,按集中了多个帧的视频段单位生成特征描述符。
5.权利要求4记载的图像检索系统,其特征在于特征描述符生成部把由帧内与帧间组成的压缩映像数据作为输入图像数据,在上述帧内情况下,抽取规定的编码单位区域内的各像素值的平均值矩阵,只累计视频段中包含的帧内成分,作为帧内的特征描述符生成根据帧内数求得的该累计值平均值和标准偏差,另一方面,在上述帧间情况下,抽取规定的编码单位区域中各像素的运动矢量矩阵,求出帧内的运动矢量平均值,对该平均值实施阈值处理,分类并抽取零行程长度,作为帧间的特征描述符生成分别根据在视频段中包含的帧间数求得的上述平均值和上述零行程长度分类的平均值。
6.权利要求1记载的图像检索系统,其特征在于特征描述符生成部把非压缩映像数据作为输入图像数据,从上述非压缩映像数据中抽取特征量生成特征描述符,图像信息蓄存部使上述非压缩映像数据基于规定的映像压缩方式被压缩后的压缩映像数据与特征描述符组相关联进行蓄存。
7.权利要求1记载的图像检索系统,其特征在于图像检索部对图像信息蓄存部进行检索,在输出适合于所指定的特征描述符的图像数据时,读出预先存储的规定的条件式,并基于该规定条件式对是否适合该指定的特征描述符进行判断。
8.权利要求1记载的图像检索系统,其特征在于输入图像数据是由监视摄像机记录的监视图像。
9.权利要求1记载的图像检索系统,其特征在于输入图像数据是被蓄存的视频邮件图像。
10.权利要求1记载的图像检索系统,其特征在于输入图像数据是被蓄存的广播节目图像。
11.权利要求1记载的图像检索系统,其特征在于输入图像数据是由摄像机记录的图像。
12.一种图像检索方法,其特征在于从输入图像数据中抽取图像特征量生成特征描述符,与输入图像数据相关联蓄存所生成的上述特征描述符,同时基于附加于输入图像数据输入的属性信息生成属性表,输入与属性信息相关的检索条件后检索上述属性表,输出适合该检索条件的属性信息,同时参照该输出的属性信息输入与特征描述符相关的检索条件后检索上述所蓄存的图像数据,并输出适合该检索条件的图像数据。
13.一种图像检索系统,其特征在于由特征描述符生成部,从输入图像数据抽取图像特征量生成特征描述符;检索用描述数据生成部,与输入图像数据的时空间结构相关联,在检索用描述数据中记述上述特征描述符;图像信息蓄存部,将检索用描述数据与对应的输入图像数据一起蓄存;第1检索处理部;第2检索处理部;用户接口部组成,上述第2检索处理部把用户通过上述用户接口部传来的检索请求作为检索请求信息传送给上述第1检索处理部,同时接收由上述第1检索处理部传送的检索结果,通过上述用户接口部向用户提示,上述第1检索处理部根据由上述第2检索处理部传来的上述检索请求信息对上述图像信息蓄存部所蓄存的输入图像数据的上述检索用描述数据进行分析,抽取上述特征描述符,基于所抽取的上述特征描述符实施适合判断处理求出检索结果,并把该检索结果传送给上述第2检索处理部,通过上述用户接口部向用户提示。
14.权利要求13记载的图像检索系统,其特征在于还具备特征描述符可靠度计算部,计算由特征描述符生成部所生成的特征描述符的可靠度,检索用描述数据生成部与输入图像数据的时空间结构相关联把上述特征描述符及可靠度记述到检索用描述数据内,第1检索处理部根据由第2检索处理部所传送的检索要求信息对图像信息蓄存部中蓄存的输入图像数据的上述检索用描述数据进行分析,抽取上述特征描述符及可靠度,并基于所抽取的上述特征描述符及可靠度实施适合判断处理,求出检索结果,把该检索结果传送给上述第2检索处理部,通过上述用户接口部向用户提示。
15.权利要求14记载的图像检索系统,其特征在于第1检索处理部在适合判断处理时基于特征描述符的可靠度,对基于特征描述符的适合判断的必要性进行评估,如果判断为没有必要进行适合性判断,则跳过适合判断处理。
16.权利要求14记载的图像检索系统,其特征在于还具备特征描述符检索顺序决定部,基于由特征描述符可靠度计算部计算出的可靠度决定各特征描述符的检索使用顺序,检索用描述数据生成部与输入图像数据的时空间结构相关联在检索用描述数据内记述上述特征描述符、可靠度及检索使用顺序,第1检索处理部根据由第2检索处理部传送来的检索请求信息对在图像信息蓄存部内蓄存的输入图像数据的上述检索用描述数据进行分析,抽取上述特征描述符、可靠度及检索使用顺序,基于所抽取的上述特征描述符、可靠度及检索使用顺序进行适合判断处理,求出检索结果,并将该检索结果传送给上述第2检索处理部,通过上述用户接口部向用户提示。
17.权利要求13记载的图像检索系统,其特征在于第2检索处理部作为通过上述用户接口部由用户传送的检索请求把包括各特征描述符的检索使用顺序的检索请求信息传送给第1检索处理部,上述第1检索处理部根据由上述第2检索处理部传送来的检索请求信息中的检索使用顺序对特征描述符的检索顺序进行更新,实施适合来自用户的检索请求的检索处理。
18.权利要求16记载的图像检索系统,其特征在于第1检索处理部在实施适合判断处理时,基于各特征描述符的可靠度决定出在检索使用顺序确定的各检索步骤中的检索结果候补数,并实施适合判断处理。
19.权利要求17记载的图像检索系统,其特征在于第1检索处理部在实施适合判断处理时,基于各特征描述符的可靠度决定出在检索使用顺序确定的各检索步骤中的检索结果候补数,并实施适合判断处理。
20.权利要求13记载的图像检索系统,其特征在于还具备视频数据再生服务器;视频数据解码再生部,输入图像数据是视频数据,第1检索处理部把代表由检索所确定的各视频数据的各关键图像数据作为检索结果向第2检索处理部传送,上述第2检索处理部接收来自上述第1检索处理部的作为检索结果的上述各关键图像数据,并通过用户接口部向用户提示,上述视频再生服务器从用户接口部接收用户从上述各关键图像中选择确定关键图像的再生请求后,从图像信息蓄存部中读出代表其选择的关键图像的视频数据,向上述视频数据解码再生部传送,上述视频数据解码再生部从上述视频再生服务器接收所传送的视频数据,进行解码及再生处理。
21.一种图像检索方法,其特征在于在从输入图像数据中抽取图像特征量生成特征描述符的同时,与输入图像数据的时空间结构相关联,在检索用描述数据中记述上述特征描述符,将检索用描述数据与所对应的输入图像数据一同蓄存,根据来自用户的检索请求对上述所蓄存的输入图像数据的检索用描述数据进行分析,抽取上述特征描述符,并基于所抽取的上述特征描述符实施适合判断处理,求出检索结果,向用户提示该检索结果。
22.权利要求21记载的图像检索方法,其特征在于输入图像数据是视频数据,将代表由检索所确定的各视频数据的各关键图像数据作为检索结果向用户提示,接收用户从上述各关键图像中选择确定关键图像的再生请求后,读出代表其选择的关键图像的视频数据,实施解码及再生处理。
全文摘要
通过用户接口部9输入属性表的检索条件后,检索处理部10对属性表蓄存部7中蓄存的属性表进行检索,把适合检索条件的属性信息输出到显示部11进行显示。接下来,通过用户接口部9输入类似检索的检索条件后,检索处理部10对图像信息蓄存部5中蓄存的图像数据进行检索,选择出具有适合检索条件的特征描述符组的图像数据,输出到显示部11进行显示。
文档编号G06T7/00GK1402853SQ00816574
公开日2003年3月12日 申请日期2000年12月1日 优先权日1999年12月2日
发明者关口俊一, 井须芳美, 西川博文, 山田悦久, 浅井光太郎 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1