专利名称:对普通声频可视数据信号描述的基本实体关系模型的利记博彩app
对有关专利申请的参考本专利申请是基于1999年7月3日归档的60/142,325号美国暂时的专利申请,并要求对其的优先权。本发明的背景I、本发明的领域。
本发明涉及用于描述多媒体信息的技术,更具体地是涉及到描述视频和图象信息,或声频信息的技术,以及这种信息的内容。所揭示的技术用于数字数据信号(如多媒体信号)的对内容敏感的索引和分类。
II、有关技术的描述随着全球因特网的成熟及区域网及局域网的广泛应用,数字多媒体信息已变得越来越为消费者及商业所接受。因此开发那些处理,过滤,搜索及组织数字多媒体信息,使得能从越来越庞大的原始信息中筛选有用信息的系统变得越来越重要。
在撰文当前专利申请时,已存在允许消费者/或商业搜索文本信息的解决方安葬。确实,如由yahoo.com,goto.com,excite.com等提供的许多基于文本的搜索引擎在万维网(www)上可以得到并存在于大多数被访问的web网站中,这表明对那样的信息提取技术有大量的需求。
不幸的是对多媒体内容不是那样,因为对这样的对象不存在公认的描述方法。
数字图形和视频的最近迅速增加为那些在搜索内容时有大量资源的最终用户带来了新的机遇。可视信息从许多不同的来源以许多不同的格式在各个不同的方面到处可得到。这是个优点,但同时也是挑战,因为用户在搜索这种内容时不能审阅大量数据。因此,必须让用户能有效地浏览内容,或根据他们特定的需要实现询问。但是为了在一个数字库中提供那样的功能,重要的是理解这些数据并合适地索引它。必须构造索引,并必须根据用户想如何访问这种信息来构造。
在传统的方法中,使用文本标记于索引,一个编目人员手工指定一组关键字或表达式来描述一个图形。然后用户能实现基于文本的询问或通过手工指定的编目浏览。与基于文本方法相反,在基于内容检索方面的现代技术将目光集中在基于它们可视内容的索引图象。用户能通过样本(如象此样本的图象)或用户设计图(如象此设计图的图象)实现询问。更现代的工作试图根据它们的内容自动分类图象一个系统分类每个图象并指定一个标签(如室内,室外,包含一面,等)。
在两个范例中有分类的议题,尤其在基于内容的检索方面,这经常被忽视。在合适的索引可视信息方面的主要困难可以归纳如下(1)在单个图形中有大量的信息(如索引什么?),和(2)可能有不同层次的描述(如如何索引?)。例如,考虑穿着一套制服的男士的画象。可能用术语“制服”或“男士”来标签此图象。术语“男士”转而能引出多个层次的信息概念上,(如在字典中男士的定义)物理上(大小,重量)和视觉上的(头发颜色,衣服)及其他。因此,一个分类标签包含明显的(如在图象中的人是男士而非女士),和隐含的或不确定信息(如单从那个术语不可能知道那个男士穿什么)。
在这方面,过去的尝试是提供多媒体数据库,它允许用户使用包含在图形中的视频对象中的如颜色,纹理和形状那样的特征搜索图形。但是,在20世纪末仍然不可能实现搜索因特网上或大多数区域网或局域网上的多媒体内容,因为不存在这方面内容的广泛共识的描述。此外,对多媒体内容搜索的要求不限于数据库,并扩展到如数字广播电视和多媒体电话那样的其他应用中。
通过运动图形专家组(Motion Picture Expert Group-“MPEG”)的MPEG-7的标准化的努力,一个开发此标准的工业界的试图已经形成一个多媒体描述架构。在1996年10月开始,MPEG-7致力于标准化多媒体数据的内容描述,以便于针对内容的应用,如多媒体搜索,过滤,浏览和综合。MPEG-7标准为对象的更完全的描述包含在国际标准化组织(International Organisation forStandardisation)文档ISO/IEC JTC1/SC29/WG11 N2460(1998.10)中,其内容在这是包含作为参考。
MPEG-7标准具有的目标是规定描述符以及用于描述符和它们关系的结构(称之为“描述型式”)的一组标准集以描述各种类型的多媒体信息。MPEG-7也提出定义其他描述符及对这些描述符和它们的关系的“描述型式”的标准化方法。此描述,即描述符及描述型式的结合应与内容本身有关联,以允许快速并有效地搜索及过滤用户感兴趣的东西。MPEG-7还建议标准化一个语言,来规定描述型式,即描述定义语言(Description Definition Language--“DDL”),和用于二进制编码多媒体内容描述的型式。
在撰文当前专利申请时,MPEG征求技术投标,它将优化的实现必要的描述型式,用于将来集成到MPEG标准中去。为了提供那样的优化描述型式,考虑3个不同的多媒体应用的方面。它们是分布式处理情况,内容交换情况,和允许个性化观看多媒体内容的格式。
关于分布式处理,描述型式必须提供多媒体内容的互换描述的能力,而与能进行多媒体内容分布式处理的任何平台,任何销售商及任何应用无关。可互操作的内容描述的标准化意味着,从各种来源来的数据能加入到各种分布或应用中,如多媒体处理器,编辑器,检索系统,过滤工具等。这些应用中的某些可以从第三方提供,产生一个能用此多媒体数据的标准化描述工作的多媒体工具的提供者的子工业。
用户应能访问各个内容提供者的网站来下载内容和由某些低层或高层处理获得的有关的索引数据,并进而访问若干工具提供者的网站来下载工具(如Java应用小程序),以便按照用户的个人兴趣以特别的方法处理异种数据描述,这种多媒体工具的一个例子是视频编辑器。如果与每个视频相关的描述是MPEG-7相容的,MPEG-7相容的视频编辑器能管理和处理来自各种来源的视频内容。每个视频可以带有变化的描述细节程度,如摄影机运动,场景剪辑,标准及物体分段。
从可互操作的内容描述标准得益非浅的第二情况是在各异种多媒体数据库之间交换多媒体内容。MPEG-7致力于提供表示,交换,翻译和重复使用多媒体内容的现有描述的方法。
当前,TV广播提供者,无线电广播提供者和其他内容提供者管理并存储巨量多媒体内容。此内容目前使用文本信息和专用的数据库人工描述。没有可互操作性的内容描述,内容的使用者需要投资人力来将由每个广播者使用的描述手工翻译成它们自己适用的型式。如果所有的内容提供者包含同样的型式的内容描述型式,多媒体内容描述的互换是可能的。
最后,应用该描述型式的多媒体播放者及观看者必须为用户提供创新的能力如由用户配置进行数据的多重观看。用户应能改变显示配置而不需要从内容的广播者以不同的程式再次下载数据。
上述的例子仅暗示了对于根据MPEG-7以标准方式提供的构造丰富的数据的可能的使用。不幸的是,当前尚无现成的技术能大体上满足分布式处理,内容改变或个性化观看等情况。尤其是,现有的技术不能根据一般的特征或语义关系提供捕捉嵌入在多媒体信息中的内容的技术或提供组织这种内容的技术。因此需要对一般的多媒体信息的有效的内容描述型式的技术。
在MPEG汉城会议(1999年3月)期间,根据DS1(静止图象),DS3++(多媒体),DS4(应用),尤其是根据MPEG-7 Evaluation AHL(Lancaster,U.K.1999年2月)(AHG on MPEG-7 Evaluation Logistics,“Report of the Ad-hoc Groupon MPEG-7 Evaluation Logistics”,ISO/TEC JTC1/SC29/WG11 MPEG 99/N4524,汉城韩国,1999年3月)的DS2(视频)组的某些建议产生了一个通用可视性描述型式(Generic Visual Description Scheme)(Video Group,“Generic VisualDescription Scheme for MPEG-7”,ISO/IEC JTC-1/SC29/WG11 MPEG99/N2694,汉城,韩国,1999年3月)。该通用可视性描述型式发展成对通用可视性描述型式的AHG描述型式(“AVDS”)(AHG on Description Scheme,“Generic Audio Visual Descrption Scheme for MPEG-7(Vo.3)”,ISO/IECJTC1/SC29/WG11 MPEG 99/M4677,温哥华,加拿大,1999年7月)。GenericAVDS描述了视频序列或映象的可视性内容,以及部分地描述了声频序列的内容,它不是针对多媒体或归档内容。
Generic AVDS的基本构成部分是语法结构DS,语义结构DS,语法-语义连接DS,和分析/语法模型DS。语法结构DS由区域树(region tree),片树(Segment tree),和片/区域关系图组成。类似地,语义结构DS由对象树(objecttree),事件树(event tree)和对象/事件(object/event)关系图组成。语法-语义连接DS提供将语法单元(区域,片段和片段/区域关系)与语义单元(对象,事件,和事件/对象关系)的正反向连接。分析/语法模型规定了语法与语义结构之间的设计/登记/概念的对应关系。通常称之为内容单元的语义和语法单元具有相关的属性。例如,用颜色/纹理,形状,2D-几何,运动,和变形描述一个区域。用类型,对象行为,和语义标记DS描述一个对象。
我们已认识到在Generic AVDS的当前描述中可能的缺点。Generic AVDS包括内容单元和实体—关系图。内容单元具有相关的特征,实体-关系图描述在内容单元中的一般关系。这是根据实体-关系(ER)建模技术(P.P-S,Chen,“The Entity-Relation Model-Toward a United View of Data,ACM Transaction onDatabase Systems,Vol.1,No.1,pp-9-36,1976年3月)。但是在Generic AVDS中对这些单元的当前描述太一般,以致不能成为描述声频-视频内容的有力工具。Generic AVDS也包括层次及层次之间的连接,这些通常是物理上的层次模型。因此,Generic AVDS是不同的概念的和物理的模型的混合。此DS的其他限止是语义和语法结构的刚性分隔,并缺乏其内容单元的明确及统一的定义。
根据对书面上内容的描述的传统方法,Generic AVDS描述了图象,视频序列,和部分地描述声频序列(1)文档的物理的或语法的结构的定义;内容表;(2)语义结构的定义,索引;和(3)语义概念出现处的位置的定义,它包括(1)语法结构DS;(2)语义结构DS;(3)语法-语义连接DS;(4)分析/语法模型DS(5)可视化DS;(6)元信息DS;和(7)媒体信息DS。
语法DS用于规定一幅图象或定义文档的内容表的视频序列的物理结构和信号特性。它包括(1)片段DS;(2)区域DS;和(3)片段/区域关系图DS。分割DS可用于确定片段树,后者规定了视频节目的线性时间结构。片段是在具有相关特征的视频序列中一组连续的帧,特征包括时间DS;元信息DS,媒体信息DS。一个特殊类型的片段,即一个镜头包括编辑效果DS,关键帧DS,马赛克DS,和摄象机运动DS。类似地,区域DS可用于定义区域树。一个区域可定义为去具有相关特征的一幅图象的一个视频序列中的一组互相连接的像素,这些特征包括几何DS,颜色/纹理DS,运动DS,变形DS,媒体DS,和元信息DS。片段/区域关系图DS规定了在片段和区域之间的一般关系,如“To The Left of-到其左边去”那样的空间关系;“Sequential to-跟在其后面”那样的时间关系;和如“Consist of-包括”那样的语义关系。
语义DS用于借助语义对象和事件规定一幅图象或一个视频序列的语义特征。它能看成为一组索引。它包括(1)事件DS;(2)对象DS;和(3)事件/对象关系图DS。事件DS可用于构成事件树,后者对片段DS中的片段定义一个语义索引表。事件包括一个标记DS。类似地,对象DS可用于构成对象树,后者对于在对象DS中的对象定义一个语义索引表。事件/对象图DS规定了在事件和对象中的一般关系。
语法-语义连接DS在语法单元(片段,区域,或片段/区域关系)和语义单元(事件,对象,对事件/对象关系)之间是双向的。分析/综合模型DS规定了在语法和语义结构DS之间设计/登记/概念的对应关系。媒体和元信息DS分别包含存储媒体和作者产生的信息的描述符。可视化DS包括一组视图DS,使一个视频节目能有效的可视化。它包括下列视图多分辨率空间一频率略图,关键帧,高亮度,事件,和其他视图。这些视图中每一个都是独立定义的。Generic AV DS的缺点Generic AVDS包括具有相关特征的内容单元(即区域,对象,片段,和区域)。它也包括实体—关系图,描述根据实体—关系模型的内容单元个的一般关系。当前DS的不足之处是去单元中的特征和关系可以具有广泛的取值范围,这就降低了它们的有用性及表达的能力。一个明确的例子是在对象单元中的语义标记特征。语义标记的值可以是一般的(“男人”),特定的(“JohaDoe”)或抽象的(“幸福-Happiness)概念。
导致本发明的研发的原始目标是对Generic AVDS定义明确的实体—关系结构以解决这一不足之处。明确的实体—关系结构将属性和关系归类到相关的类别。在此过程中,尤其在产生具体例子过程中(见在图6-9中示出的棒球的例子),我们觉察到当前的Generic AV DS在关系到DS的全局设计方面的其他缺点。我们将在本章节中提到这些。在此应用中,我们提出完整的基本实体—关系模型,以试图解决这些问题。
首先,使用一个实体-关系模型能表示Generic DS的完全的规定。作为一个例子,对在图6中的棒球的例子的图7-9中提供的实体-关系模型包括由Generic AV DS的大多数构成部分(如事件DS,片段DS,对象DS,区域DS,语法-语义连接DS,片段/区域关系图DS,和事件/对象关系图DS)实现的功能以及更多的功能。实体-关系(E-R)模型是一个常见的高层概念的数据模型,它与作为层次的,关系的或面向对象的模型等的实际实现无关。当前的GenericDS版本看来多个概念的和实现的数据模型的混合,这些模型是实体关系模型(如片段/区域关系图),层次模型(如区域DS,对象DS,和语法-语义连接DS),和面向对象模型(发片段DS,可视片段DS,和声频片段DS)。
其次,在当前的Generic DS中语法和语义之间的分隔太固定。对于在图6中的例子中,如当前Generic AV DS提出的那样,我们已区分了击球事件和击球片段的描述(见图7)。但是在此情况,将两个单元合并成一个单独的,具有语义和语法特征的击球事件是更加方便。从事视频索引工作的许多组主张语法结构(内容表片段和景)和语义结构(语义索引事件)的如此区分,但是在描述在视频序列中的图象或动画对象时,区分这些结构的价值是不太明显。“真实对象-Real Object”通常由它们的语义特征(如语义类别-人,猫等)和由它们的语法特征(如颜色,纹理,和运动)来描述。当前的Generic AVDS在区域和对象DS中区分“真实对象”的定义,这可以引起这些描述的低效率的处理。
最后,在Generic DS中,内容单元,尤其是对象和事件缺乏明确的和统一的定义。例如,当前的Generic DS将一个对象定义成具有某些语义意义并包含其他对象的对象。虽然对象在对象DS中定义,事件/对象关系图能描述去对象和事件中的一般关系。此外,对象通过语法-语义连接DS被连接到语法DS中的对应区域,因而,对象具有跨越Generic Visual DS的许多构成部分的分布式定义,它是不太清楚。事件的定义十分相似并含糊不清。对Generic AV DS的实体-关系模型在P.P-S.Chen的文章“The Entity-Relation on Database Systens,Vol.1,No.1pp.9-36,1976年3月,首次提出的实体-关系(E-R)模型借助于实体和它们的关系描述数据。实体和关系均能用属性描述。实体-关系模型的基本部分示于
图1。实体,实体属性,关系,和关系属性很紧密地与名词(如男孩和苹果),形容词(如年轻),动词(如吃)及动词补足语(如慢慢地)相对应,它们是描述一般数据的主要部分。能以视频镜头描述的“一个年轻男孩慢慢地吃一个苹果”。使用图2中的实体-关系型表示。此建模技术已用于对图形及其特征的内容的建模用于图象的检索。
在本章节中,我们对当前的Generic AV DS提出基本实体-关系模型,以解决上面讨论的缺点。基本的实体-关系模型索引(1)内容单元的属性,(2)这些内容单元之间的关系,和(3)内容单元本身。这些模型在图5中画出。我们提出的内容构成在提交到因特网Imaging 2000的A.James和S.-F.Chang的文章“A Conceptual Framework for Indexing Visual Information at Multiple Levels”中提出的索引可视信息的概念结构的顶层。
发明概述本发明的一个目标是提供对一般多媒体信息的内容描述型式。
本发明的另一个目标是提供用于实现标准的多媒体内容描述型式的技术。
本发明的又一个目标是提供一个装置,它使用户能在因特网或区域或局域网上完成对多媒体的增强的内容敏感的一般搜索。
本发明的另一个目标是提供系统和技术,用于根据一般特征或语义关系捕捉嵌入在多媒体信息中的内容。
本发明的又一个目标是提供根据实体在语法和语义属性的差异组织嵌入在多媒体信息中的内容的技术。语法的属性能归类成不同层次类型/技术,全局分布,局部结构和全局组成。语义属性能归类成不同层次普通对象,普通场景,特定对象,特定场景,抽象对象,和抽象场景。
本发明又一个目标是将实体关系分类成语法和语义的类别。语法关系可以归类成空间的,时间的,和声频的类型。语义关系可以归类成词法的和表述的类别。空间的和瞬时的关系可以是拓扑的或有方向的;声频关系可以是全局的局部的,或合成的;词法的关系可以是同义词,反义词,亚词(hyponymy)/超词(hypernymy),部分词(meronymy)/全词(holonymy);和表述关系可以是动作(事件)或状态。
本发明的又一个目标是借助于视频和声频信号的分类描述每个层和实体关系。
本发明的另一个目标是通过索引内容一单元属性,内容单元之间的关系,和内容单元本身,提供解决这些问题的基本的和清楚的实体-关系。
此工作是基于在提交到因特网Imaging 2000的A.Jaimes和S.-F.Chang的文章“A Conceptual Frame-work for Indexing Visual Information of MultipleLevels”中提出的用于索引可视信息的概念性结构,它已经采用并对Generic AVDS作了扩展。在另外的参考文献中(如S.Paex A.B.Benitez,S.-F.Chang,C.-S.Li.J.R Smith,L.D.Bergman,A.Puri,C.Swain,和J.Osterman,“Proposal forMPEG-7 Image deseription Scheme,这是对1999年2月英国Lancaster的ISO/IECJTC1/SC29/WG11 MPEG 99/P480提出的的工作是恰当的,因为它区分了在内容单元和在内容单元(具有实本—关系图和层次,一个实体—关系图的特定情况)中的关系的规定的描述。通过这样做,清楚地规定了一个E-R模型。
我们着眼于对于索引可视信息的多层描述问题。我们提出一个新颖的概念框架,它统一了在文献中处于各不相同领域的概念,这些领域如认识上的心理,图书馆科学,艺术及更新的基于内容的检索。我们在可视与非可视之间作出区别并提供恰当的结构。提出的10层可视结构提供了根据语法(如颜色,纹理等)和语义(如对象,事件等)索引图象的系统的方法,并包括在一般概念与可视概念之间的区分。我们在可视结构不同层上定义了不同类型的关系(如语法的,语义的),并且还使用一个语义信息表来综合有关图象(如出现在非可视结构中的图象)的重要方面。
我们的结构正确地放置当前技术水平的基于内容的检索技术,使它们与实际用户需求及其他领域中的研究相关。使用如人们提出的结构不仅通过理解用户及他们的兴趣深益,而且在按照用于访问可视信息的描述层次表征基于内容的检索问题上得益。
本发明建议根据在提交给因特网Imaging 2000的A..Jaimes和S.-F.Chang的“A Conceptual Framework for Indexing Visual Information at Multiple Levels”中提出的10层概念结构来索引内容单元的属性,该文章如图3所示根据语法(如颜色和纹理)及语义(如语义标记)区分属性,可视结构的头4层涉及语法,而余下6层涉及语义。语法层是类型/技术,全局分布,局部结构,和全局组成。语义层是普通对象,普通场景,特定对象,特定场景,抽象对象,和抽象场景。
我们还提出在Generic AV DS的实体—关系图中的内容单元之间关系的明显类型。我们区分语法和语义的关系,如图4所示。语法关系分成空间的,时间的和可视的。空间的和时间的属性分成拓扑和有方向的类别。语法属性关系能进一步索引为全局的,局部的及组成。语义关系补分成词法的和表述的。词法关系被分类成同义词,反义词,亚词/超词,部分词/全词。表述关系能进一步索引为动作和事件。
供助内容单元的类型,我们建议将它们分类成语法及语义单元。语法单元能分成区域,动画—区域,和片段单元;语义单元能索引到对象,动画对象,和事件单元。我们提供了这些单元的明显并统一的定义,它们借助于单元的属性和与其他单元之间的关系以提出的基本模型表示,还规定了在这些单元的某些之间的承继关系。
加入到这里并作为本发明揭示内容一部分的附图示出了本发明的较佳实施例,并且于解释本发明的原理。
附图概述图1是一个一般实体—关系(E-R)模型;图2提供了对场景“一个年轻男孩在4分钟吃了一个苹果”的一个实体一关系模型的例子;图3用一个金字塔表示索引可视结构;图4示出如在可视结构的不同层次上提出的关系;图5示出内容单元的每个提出的类型的基本模型;图6图示了一个棒球击球事件图象;图7是对在图6中显示的棒球击球事件图象的击球事件的概念描述;图8是对图6的击球事件的击球和投球事件的概念描述;图9是对图6的击球事件现场对象的概念描述;图10概念性地表示了非可视信息的分析;图11示出如何在语义上使用可视的和非可视的信息来表征一个图象或其部分;图12示出去声频结构的不同层次上的关系。在语法层中的单元按语法关系相联系。在语义层中的单元接语法和语义关系相联系。
较佳实施例的描述我们选择在这里使用的建模技术,因为实体—关系模型是最广泛使用的概念模型。它们达到高度的抽象性并与硬件及软件无关。存在特定的过程将这些模型转换成用于实施的物理模型,后者与硬件与软件有关。物理模型的例子是层次模型,关系模型,和面向对象模型。在MPEG-7范围的E-R概念框架在1999年7月加拿大温哥华的ISO/IEC JTC1/SC29/WG11 MPEG 99的稿件J.R.Smith and C.-S.Li“An E-R Conceptual Modeling Framework for MPEG-7”中讨论。
如图5所示,我们对属性(或MPEG7的描述符),关系,和内容单元作出语法和语义之间的区分。语法涉及内容单元安排的方法,而不考虑那样安排的意义。另一方面语义,处理那些单元的意义及它们的安排的意义。如在本章节余下部分将讨论的那样,语法和语义属性能涉及若干层次(语法层是类型,全局分布,局部结构,和全局组成;语义层是普通对象/场景,特定对象/场景,和抽象对象/场景),如图3所示,类似地,语法和语义关系能进一步分成与不同层相关的子类型,语法关系归类成在普通层与特定上的空间的,时间的和可视的关系;语义关系被归类词汇和表述的类;见图4。根据单元相关的属性类型及与其他单元的关系,我们提供语法及语义单元的紧凑及清楚的定义。然而,与Generic AV DS的重要差别在于我们的语义单元不仅包括语义属性,还包括语法属性。因此,如果一个应用宁肯不区分语法单元和语义单元,通过将所有单元作为语义单元实施它也可以这样做。
为了阐明基本的实体-关系模型的解释,我们将使用图6-9中的例子。图6示出表示成击球事件和击球片段(片段和事件如在Generic AV DS中定义的那样)的棒球比赛的视频镜头。图7包括将击球事件作为下列事件组合的可能的描述现场对象,击球事件,投球事件,在投球与击球事件之间的时间关系“Before-去前”,和某些可视性属性。图8表示投球和击球以及它们之间关系的描述。投球事件是一个动作,即投手对象对球对象执行向击球手对象的“投”。对投于对象我们提供某些语义属性。击球事件是一个动作,即击球手对象在同样的球对象上执行“击球”。图9示出将现场对象分解成3个不同区域,其中之一通过空间关系“在其顶上-On The Top of”与投手对象有关。提供这些区域之一的某些可视性属性。属性类型我们提出了在图象和视频描述中索引可视内容单元(如区域,整个图象,和事件)的10层概念结构。此结构仅对明确画去实际的图象或视频序列(如绘画的价格将不是可视内容的一部分)。
提出的可视结构包括10层头4层涉及语法,而余下6层涉及语义。在图3中给出可视结构的概貌。在金字塔中层次越低,就需要越多的知识去完成索引。每层的宽度是所需知识量的指示。一个属性的索引代价能作为该属性的子属性包含其中。语法层是类型/技术,全局分布,局部结构,和全局组成。语义层是普通对象,普通场景,特定对象,特定场景,抽象对象,和抽象场景。虽然这些分割的某些可能是不严格的,但还应考虑它们,因为在理解用户搜索什么及他如何试图在数据库中找到它方面,这些分割具有直接的影响。它们也借助于所需的知识强调不同索引技术(人工的自动的)的局限性。
在图3中,索引可视结构由一个金字塔表示。很清楚,在金字塔中层次越低,为完成索引需要更多的知识与信息。每个层次的宽度是所需知识量的指示-例如,为命名在同一场景中的特定对象需要更多的信息。
在图5中,语法属性(语法DS)包括一个枚举的属性,层,其值是在可视结构(图3)中它对应的语法层一即类型,全局分布,局部结构,或全局组成一或“未规定”。语义属性也包括一个枚举的属性,层,其值是在语义结构(图3)中它对应的语义层一即普通对象,普通场景,特定对象,特定场景,抽象对象,和抽象场景一或“未规定”,对不同类型的语法与语义属性建模的另一种可能性是将语法和语义属性单元进行子分类,以分别建立类型,全局分布,局部结构,和全局组成的语法属性;或普通对象,普通场景,特定对象,特定场景,抽象对象,抽象场景属性(这些类型中某些不应用于所有对象,动画对象,和事件)。
可视结构的每一层在下面解释。其后讨论各层之间的关系。根据此可视结构和各层之间的关系,我们在下一章节中定义内容单元的类型。类型/技术在最基本的层上,我们关心的是图象或视频序列的一般可视特征。图象或视频序列的描述或用于产生它的技术是非常一般的,但证明在组织一个可视数据库时具有很大的重要性。例如,图象可以放在如彩绘,黑与白,彩色照片,和绘画那样的类别。在此层次的有关分类型式可以在WebSEEK中自动做。对于在图6中的类型是彩色视频序列。全局分布在前一层次中的类型/技术给出图象或视频序列的有关可视特征的一般信息,但是关于可视内容只给出少量信息。全局分布目的在于根据其全局内容分类图象或视频序列,并借助于如空间敏感性(颜色),和频率敏感性(纹理)那样的低层觉特征来测量。内容的各单独部分尚未在此层处理(即在测量是全局性地进行的意义下对这些分布未给定“形式-form”),所以全局分布特征可以包括全局颜色(如主色调,平均,直方图),全局纹理(如粗糙度,定向性,对比度),全局形状(如纵横比),全局运动(如速度和加速度),摄影机运动,全局变形(如成长速度),和时间/空间尺度(如空间面积和时间尺度)。对于在图6的击球片段,作为全局分布属性的彩色直方图和时间区间被规定(见图7)。
即使对于一个观察者这些测量的某些难以量化,已将这些全局的低层特征成功地用于各种基于内容的检索系统,来组织用于浏览的数据库的内容,并实现范例查询。局部结构在处理一个图象或视频序列的信息时,我们完成不同层次的组合。与不提供有关图象或视频序列的各个部分的任何信息的全局结构相反,局部结构层关注各构成部分的概要和特征。在最基本的层上,那些构成部分从低层处理得到并包括如点、线、风格、颜色和纹理那样的单元。作为一个例子,一个二进制形状表征码(binary shape mask)描述了在图6中的击球片段(见图7)。局部结构的另外例子是时间/空间位置(如起始时间及重心),局部颜色(如M×N布局).,局部运动,局部变形,局部形状/2D几何(见定界方框)。
那样的单元也已在基于内容的检索系统中使用,主要在如Viswal SEEK那样的按用户草图查询的界面中。这里涉及的不是对象,而是表示它们的基本单元以及这种单元的组合,例如一个正方形由4条线构成。全局组成在此层,我们着限于由局部结构给出的基本单元的特定安排或组成。换言之,我们作为整体分析此图象,但只使用在以前层描述的的基本单元(如线和圆)于分析。全局组成涉及在该图象中单元的安排或空间布局。在业内的传统分析描述如平衡、对称、举兴趣中心(注意中心或焦点),主线索,和视角那样的组成概念。但是,在此层没有特定对象的知识,只考虑基本单元(如点、线、和圆)或基本单元的组。在图6中Sand1区域的2D几何是一个全局组成属性(见图9)。普通对象直到前一层不需要现实世界知识来实现索引,所以可以使用自动技术提取这些层上的相关信息。但是若干研究已证明,人类主要使用高层属性来描述,分类的搜索可视资料。见C.Jongensen,“Image Attributes in Describing Tasksan Investgaton”,Informaton Processing & Management,34,(2/3),99.161-17,1998,C.Jongensen,“Rertrieving the UnretrievableArt,Aesthetics,andEmotion in Image Retrieval Systems”,SPIE Conference in Human Vision andElectronic Imaging,IS&T/SPIE99,Vol.3644,San Jose,CA,Jan 1999。对象是特别的重要,但是它们也能放置在不同层次的类别中-一个苹果可以分类成一个Machintosh苹果,一个苹果,或一个水果。当涉及到普通对象时,我们感兴趣于基本层的类别对象描述的最普通层,它能以日常知识加以识别。对在图6中的投手对象,一个普通对象属性可以是标记“男人”(见图8)。普通场景正如一个映象或视频序列能按出现其中的各个对象被索引,有可能根据可视资料所包含的所有对象集及它们的安排作为整体未索引该资料。场景类别的例子包括城市,风景,室内,室外,寂静的生活画面,和肖象。此层的方针是只需要普通知识。既不需知道特定的街道或建筑物的名字来确定它是一个城市的场景,也不需要知道个人的名字来得知该图象是一个肖象。对于在图6中的击球事件,用值“击球(Batting)”规定普通场景的属性(见图7)。特定对象与以前的层次相反,特定对象涉及已识别的已命名的对象。需要在图象或视频序列中的各对象的特定知识,且那样的知识是客观的,因为它依赖于已知的事实。实例包括个人(如在图6中语义学标记“Peter who,Yankee队运动员3#”或对象(如体育场名)。特定场景此层类似于一般场景,其差别是此处有有关场景的特定知识。虽然在该可视资料中不同的对象能以不同方式帮助确定所画的特定场景,有时单独一个对象已足够。例如,清楚地显示白宫的一张照片,只根据那个对象就能归类成白宫的场景。对于在图7中的击球事件用值“由Yankee队的#32运动员击球”规定特定场景的属性。抽象对象在此层使用有关该对象表示什么的专门知识。在完全是主观上的感觉的意义上索引层是最为困难的,而且不同用户的评估可以相差极大。此层的重要性在观察者使用抽象的属性描述图象的实验中示出。例如,在一张照片中的女人由一个观察者看表现为愤怒,对另一个则表现为忧郁。对图8中投手对象用值“速度”规定一个抽象对象属性。抽象场景抽象场景层涉及图象作为整体表示什么。它可以是非常主观的。用户有时如对对象那样以抽象的术语描述图象,如悲伤,幸福,权威,天堂,和乐园。对于图7中的击球事件,用值“好策略”规定抽象场景属性。关系的类型在本章节中我们提出包含在Generic AV DS中的内容单元之间关系的明确的类型。如图4所示,在以前提出的可视结构的不同层次上定义关系。为了表示在内容单元中的关系,我们考虑在可视结构中分成语法和语义。就下面讨论的可视结构的层次而论,我们提出的关系类型的某些界限并不固定。
可视结构的语法层的关系只能发生在2D空间,因为在这些层上没有对象的知识来确定3D关系。在语法层上,只能是语法关系,即空间(如“下一个”),时间(如“同时地”),和可见(如“更黑”)关系,它们唯一地根据语法知识。空间和时间属性分类成拓扑类和有方向类。可视关系能进一步索引成全局的,局部的和组成。
在可视结构的语义层,内容单元之间的关系可以在3D由发生。如图4所示,在这些层内的单元不仅能与语义关系有关,而且与语法关系有关(如“一个人在另一个的旁边”及“一个人是另一个的朋友”)。我们区分两种不同类型的语义关系词法关系,如同义词,反义词,亚词/超词和部分词/全词;表述关系涉及动作(事件)或状态。
在图4中,在可视结构的不同层次上提出关系。在语法层中的单元按照一种类型的关系语法关系联系。在语义层中的单元按照二种类型的关系语法和语义关系联系。我们将在下面章节中用例子更广泛地解释语法和语义关系。表1和表2贯综合了的索引结构,包括了例子。语法关系我们将语法关系分成三类空间的,时间的,和可视的。人们可能有争议,认为空间和时间关系恰是可视关系中的特殊情况。我们以特定的方式定义空间和时间关系。对这些关系,我们将单元分别考虑成在空间和时间的边界而不带有关大小与持续期的信息。在表1中看到所提出的语法关系的类型的综合及例子。
跟随下文中的工作D.Hernandez“Qualitative Representation of SpatialKnowledge”,Lecture Notes in Artificial Intelligence,804,Springer-Verlag,Berlin,1994,我们将空间关系分成下列类别(1)拓扑的,即单元的边界是如何相关的;和(2)定向或有方向的,即单元放置的互相位置(见表1)。拓扑关系的例子是“接近于”,“在其中”,和“邻近于”;有方向关系的例子是“在其前面”,“在其左边”,“在其顶上”。众所周知的空间关系图是2D弦,R2,和属性关系图。
以类似的方式我们将时间关系归类成拓扑的和有方向的类别(见表1)。时间拓扑关系的例子是“同时发生”,“重叠(发生)”,“期间发生”;有方向时间关系的例子是“在前面发生”,和“在其后发生”。SMIL(World WideWeb Consortium,SMIL Web Site http//www.w3.org/Audio Video/#SMIL)的同时及顺序的关系是时间的拓扑关系的例子。
可视关系根据单元的可视属性或特征与那些单元联系。这些关系能被索引成全局的,局部的和组成的类别(见表1)。例如,一个可视的全局关系可以是“更光滑”(根据全局的纹理特征),一个可视性局部关系可以是“加速更快”(根据全局的纹理特征),一个可视性局部关系可以是“加速更快”(根据运动特征),一个可视性组成关系可以是“更加对称(根据2D几何特征)。能使用可视关系根据任何可视特征的组合串联视频镜头/关键帧,可视特征包括颜色,纹理,2D几何,时间,运动,变形,和摄影机运动。表1对语法关系的索引结构和例子
以类似于可视结构的单元有不同层次(普通,特定,和抽象)的方法,这些语法关系的类型(见表1)能以普通层次(“靠近”)或特定层次(离开0.5英尺)定义。例如,如“与其并”,“与其交”,“是其非”那样操作关系是拓扑的,特定的关系,或是空间的,或是时间的(见表1)。
继续棒球比赛的例子,图7示出如何通过其组合单元(即击球段,场景对象,击球事件,和投球事件),和它们之间的关系(即从击球事件到投球事件的时间关系“在前”)来定义击球事件。击球事件和它的组合单元通过空间一时间关系“由什么构成”互相联系。语义关系语义关系只能发生在10层概念结构的语义层的内容单元之中。我们将语义关系划分成词汇语义和表达关系。表2综合了语义关系并包括例子。
表2语义关系的索引结构和例子
词法语义关系对应于在WordNet中使用的名词之间的语义关系。这些关系是同义词(管线类似于管道),反义词(幸福与悲伤相反),亚词(狗是一个动物),超词(一个动物和一条狗),部分词(音乐家是乐队的成员),和全词(乐队由音乐家们组成)。
表述语义属性涉及在两个或多个单元之间的动作(事件)或状态。动作关系的例子是“投”和“击”。状态关系的例子是“属于”和“拥有”。图8包括两个动作关系“投”和“击”。与只将表述语义分成动作的状态不同,我们能使用在Work Net中使用的部分关系语义分解。Word Net将动词分成15个语义领域身体关心及功能,改变,认识,通讯,竞争,消费,接触,建立,情绪,运动,感觉,占有,社会接触,和气候动词。只有那些与描述可视概念有关的领域能被使用。
至于这里提出的10层可视结构,我们能在不同的层次定义语义关系普通的,特定的,和抽象的。例如,一个变通的动作关系是“拥有股票”,一个特定的动作关系是“拥有80%的股票”,一个抽象的语义关系是“控制该公司”。
对于在图6中的投球和击球事件,图8示出使用语义关系描述两个对象的动作投手对象“投”球对象到击球手对象,而击球手对象“击”球对象。实体的类型到这里,我们已经提出了在内容单元中的属性和类型的明显类型。在此章节,我们提出内容单元(基本E-R模型的实体)的新类型,并提出每个内容一单元类型的明显和统一的定义。
我们根据(1)描述内容单元的属性和(2)将它们与其他内容单元相关联的关系来定义内容单元的类型。以前,我们在10层可视结构中索引内容单元以可视属性。金字塔的头4个层对应于语法,而其他6个层对应于语义。此外,我们将关系分成两类语法的和语义的。结果,我们提出了内容单元的两个基本类型语法的和语义的单元(见图5)。语法单元只能具有语法属性和关系(如颜色直方图属性和空间关系“在其顶上”);语义单元只能具有语法属性和关系(如颜色直方图属性和空间关系“在其顶上”);语义单元不仅能有语义属性和关系,还能有语法的属性和关系(如一个对象能用颜色直方图和语义标记描述符描述)。我们方法不同于当前的Generic AV DS在于我们的语义(或高层)单元包括语法和语义信息,解决了语法和语义结构的固定区分问题。
如图5所示,我们进一步将语法单元分类成区域,和片段单元。相似地,语义单元能分类成下列语义来对象,动画对象,和事件。区域和对象是空间实体。片段和事件是时间实体。最后,动画区域和动画对象是混合的空间-时间实体。因此我们在章节中解释每个类型。语法实体语法单元是在图象或视频数据中的内容单元,它只由语法属性,即类型,全局分布,局部结构,或全局组成属性,来描述(见图5)。语法单元只能通过可视关系与其他单元联系。我们进一步将语法单元归类成区域,动画区域,和片段单元。这些单元通过承继关系从语法单元导出。
区域单元是一个纯粹的空间实体,它涉及一个图象或一个视频的一个任意的,连续的或不连续的一部分。一个区域由一组语法属性和一个区域的固定义,它们通过空间和可视关系联系(见图5)。重要的是指出,组成具有空间,拓扑类型。区域的可能属性是颜色,纹理,及2D几何。
片段单元是一个纯粹的时间实体,它与一个视频序列的任意一组连续或不连续的帧联系。一个片段由一组语法特征,和一个片段图,动画区域以及通过时间和可视关系联系的区域定义(见图5)。组成的联系具有时间,拓扑类型。可能的片段属性是摄影机运动,和语法特征。例如图7中的击球片段是一个片段单元,它用一个持续期(全局分布,语法的),和形状表征码(局部结构,语法的)属性描述。这一片段具有与击球事件的“包括”关系(空间一时间关系,语法的)。
动画区域单元是一个混合的空间一时间实体,它涉及一个视频的任意设置帧的任意片段。一个动画帧由一组语法特征,一个动画区域图和通过组合,空间一时间关系,和可视关系联系的区域定义(见图5)。动画帧能包含从区域和段单元来的任意特征。动画区域是一个片段和在同一时间的区域。例如,在图8中的投手区域是一个动画区域,它由一个纵横比(全局分布,语法的),一个形状表征码(局部结构,语法的),和一个对称性(全局分布,语法的)属性描述。此动画区域是在Sand 3区域“的顶上”(空间时间关系,语法的)。语义实体语义单元是一个内容单元,它不仅由语义特征而且由语法特征描述。语义单元通过语义和可视关系与其他单元联系(见图5)。因此,我们使用承继关系从语法单元导出语义单元。我们进一步将语义单元归类成对象,动画时象和事件单元。纯粹的语义属性是标记,它通常是文本格式(如6-W语义标记,自由文本标记)。
一个对象单元是一个语义和空间实体;它联系到一个图象的一部分任意或视频的一个帧。一个对象由一组语法和语义特征,和通过空间(组成是空间关系),可视的,和语义关系联系的对象和区域的图定义(见图5)。对象是一个区域。事件单元是一个语义和时间的实体;它涉及一个视频序列的一个任意一段。一个事件由一组语法和语义特征,和通过时间(组成是一个时间关系),可视的,和语义关系联系的事件,片段、动画区域,动画对象,区域,及对象的一个图定义。事件是具有语义属性和关系的一个片段。例如,在图7中的击球事件是一个事件单元,它由一个“击球”(普通场景,语义的)“由Yankee队32号球员击球“(特定场景,语义的)和一个“好策略”(抽象场景,语义的)属性描述。击球片段的语法属性能应用于击球事件(即我们可以不区分击球事件和击球片段,且可以将击球片段的语法属性赋予击球事件)。击球事件由现场对象,和投球事件和击球事件组成,它代表两个在击球事件中的主要动作(即投球和击球)。投球事件和击球事件由一个“在前面”的关系(时间关系,语法的)相联系。
最后,动画对象单元是一个语义和空间一时间实体;它在任意一组视频序列帧中与任意一段相联系。一个动画对象由一组语法和语义特征,和通过组成,空间一时间,可视,和语义关系联系的动画对象,动画区域,区域和对象的一个图定义(见图5)。动画对象是一个事件,同时是一个对象。例如,在图8中的投手对象是一个通过“男人”(普通对象,语义的),“Yankee队3号队员”(特定对象,语义的),和一个“速度”(抽象对象,语义的)属性描述的动画对明。此动画对象是在图9中所示的Sand3区域“的顶部”(空间一时间关系,语法的)。投手区域的语法特征可应用于投手对象。我们如在Generic AV DS中所规定的那样区分此动画对象的语法和语义属性。但是,我们在这样做时损失了灵活性和有效性,因为我们把“真实”对象的定义散布到不同的单元。
图5提供了内容单元每个提供的类型的基本模型。属性、单元,和关系归类成下列类别语法的和语义的。语法和语义属性具有相关的属性、层,其值对应于可视结构的有关的层。语法单元进一步分成区域,片段和动画区域。语义单元归类为对象,动画对象,和事件类别。
图6画出一示例性棒球击球事件。
图7按照本发明提供图6中棒球比赛的击球事件的概念描述。
图8按照本发明对图6中的击球事件提供击球和投球事件的概念描述。
图9按照本发明对图6中的击球事件提供现场对象的概念描述。感觉对概念本发明也可以结合在分析和分类图象的特征时的感觉的概念来说明。在索引图象中一个内在的困难是它们能被分析的方法的数目。单个图象可以表示许多事情,不仅是因为它包含许多信息,而且因为我们在该图象中所看到的能映射到许多个抽象概念。在那些可能的抽象的描述和只根据该图象的可视方面更具体的描述之间的区别构成索引中的重要步骤。
在下列章节中,我们作出感觉和概念之间的区分。然后我们提供对语法和语义的定义。并最后讨论一般的概念空间及可视概念空间。当我们确定我们的索引结构时,在基于内容的检索的范围内这些定义的重要性是显然的。感觉对概念映象是信息的多维表示,但是在最基本的层上它们简单地引起对光的响应(色调光或缺乏光)。但是在最复杂的层上,图象代表抽象的想法,这在很大程度上取决于每个人的知识,经验,甚至特别的心情。我们能作出感觉和概念之间的区别。
感觉涉及到在明亮的可视系统中我们感官觉察到什么。这些光的图案产生如纹理和颜色那样的不同单元的感觉。当我们谈到感觉时不发生解释过程-不需要知识。
另一方面,一个概念关系到从特定的范例产生的抽象的或普通的概念。这样,它隐含着背景知识的使用和对所觉察事物的内去解释。概念在它取决于个人的知识和解释的意义上是非常抽象的一这趋于非常主观的。语法和语义以感觉不需解释相似的方法,语法涉及到可视单元安排的方法而不考虑那样安排的意义。另一方面,语义处理这些单元的意义和它们的安排的意义。如在下面讨论中所示的那样,语法能涉及某些感性的层一从简单的全局颜色和纹理到如线和圆那样的局部几何形式。语义也能在不同层次上处理。一般概念对可视概念这里我们希望强调,一般概念与中视概念是不同的,而且这些可以随个人而变化。
作为例子使用一个球,我们客到虽然一个可能的一般概念将球描述成一个圆形物质,不同的人可有不同的一般概念。一个排球运动员可以具有与棒球运动员不同的球的一概念,因为如上所述一个概念隐含背景知识和解释。对不同的个人,自然具有非常不同的概念的解释(或在此情况对实际对象的解释)。我们将概念区分成一般概念和可视概念。可以认识到,用于球的一般概念和可视概念的属性是不同的(可以命名用规则描述概念,但我们恰恰使用属性来简化此解释)。
这些定义是有用的,因为它们指出了在基于内容的检索中非常重要的结果不同的用户具有不同的概念(甚至简单对象的概念),而且甚至简单的对象一能在不同的概念层上看。尤其是,在一般概念(即帮助回答问题它是什么?)和可视概念(即帮助回答问题它看来象什么?)之间有重要的区别,而且在设计一个图象数据库时必须予以考虑。我们将这些想法应用于构造我们的索引结构。概念的分类结构可以根据感觉的结构。可视与非可视的内容如在前面章节中已知,有很多信息层出现在图象中,且当将它们组织到数字库中时必须考虑它们的多维体。专建立一个概念性的索引结构中的第一步是在可视与非可视内容之间作出区别。映象的可视内容对应于在观察该映象时直接感觉到的事物(即由所讨论的映象或视频的可视内容直接激发的描述符一线,形,颜色,物体等)。非可视的内容对应于与该图象密切相关但不是明显由其外表给出的信息。如在绘画中,价格,当前的拥有者等属于非一可视类别。接着我们对图象的可视内容提出一个索引结构,并随后是非可视信息的结构。可视内容随后的分析的每个层次仅从图象获得。观察者的知识永远起作用,但是这里的一般规则是,不是明显从图象获得的信息不进入此类别(如一张画的价格不是可视内容的部分)。换言之,对可视由容使用的任何描述符是由所讨论的图象或视频的可视内容所激发。
我们的可视结构包括10层头4层涉及语法,余下6层涉及语义。此外,1到4层直接联系到感觉,5到10层联系到可视概念。虽然这些划分中的某些是不严格的,应该考虑它们,因为它们在理解用户搜索什么以及他们如何度图在数据库中寻找它方面具有直接的影响。他们也强调根据所需的知识不同索引技术(人工或自动的)的限制。在图3中给出该结构的一个概貌。从上到下观察此图,很清楚,在金字塔的较低层需要较多的知识和信息来完成索引。每层的宽度给出所需的知识量的指示,例如在一场景中命名特定对象需要更多的知识。每层在下面解释,且其后出现各层之间关系的讨论。
观察此结构,明确的是大多数的基于内容的检索的努力集中在语法上(即,到4层)。但是完成在5至10层的语义分类的技术是非常希望的。我们提出的结构帮助识别由特定技术处理或由给定的描述(如MPEG-7标记)提供的属性的层次。类型/技术在最基本的层我们的兴趣在于映象或视频序列的一般可视特征。映象或视频序列的类型的描述或用于产生此描述的技术是非常一般,但证明具有很大的重要性。例如映象可以放入如绘图,黑与白(b&w),彩色照片,素描那样的类别。在此层的有关分类型式已在概念上作出,并在WebSEEK中自动做。
在数字照相的情况,两个主要类别可以是彩色和灰度,带有影响一般可视特征的附加类别/描述。这些能包括颜色数目,压缩型式,分辨率等。我们注意到,这些中某些可以与这黑描述的非可视索引状况有某些重叠。全局分部在前一层中类型/技术给出有关映象或视频序列的可视特征的一般信息,但只给出有关可视内容的很少信息。全局分布目的在于根据图象或视频序列的全局内容将其分类,并借助如色谱的敏感性(颜色),和频率的敏感性(纹理)那样的低层感觉特征来测量。在此层不处理内容的单独部分(即在测量是全局性进行的意义上对这些分布不给出“形式-form”)。因此,全局分布特征可以包括全局颜色(如主色调,对比度),全局形状(如纵横比),全局运动(如速度,加速度,和轨迹),和时间/空间尺度(如空间面积和时间尺度),及其他。例如,考虑两个具有类似纹理/颜色的图象。在这特定的情况注意到,这些属性十分有用,但如果用户要搜索一个对象,它们就不那么有用。
虽然这些测量中的某些对一个观察者而量难以量化,这些全局低层层特征已经成功地用于各种基于内容的检索系统来实现范例查询(QBIC,WebSEEK,Virage),并用于组织数据库的内容,用于浏览。局部结构与不提供有关映象和视频序列的各单独部分的任何信息的全局结构相反,局部结构层关注映象的各部分的提取和特征。在最基本层上,那些部分从低层处理导出,并包括如点,线,包调,颜色和纹理。在Visual Literacy文献中,上述中某些被称作为可视通信的“基本单元”并认为是基本语法符号。局部结构属性的另外例子是时间/空间位置(如起始时间)及(重心),局部颜色(如MXN布局),局部运动,局部变形,和局部形状/2D几何(如边界框)。有各种图象,其中这些类型的属性是重要的。在X射线和显微镜的图象中常常着重关注局部细节。那些单元也已用在基于内容的检索系统中,主要在按用户草图询问的接口上。这里不关心对象,而是关心表示它们的基本单元及这种单元的组合,例如,一个正方形由4条线组成。在此意义上,我们此处能包括某些“基本形状”,如圆,椭圆和多边形。注意,这能考虑成人们在感觉到可视信息时完成的非常基本的“分组”的层。全局组成在此层我们的兴趣在于由局部结局给出的基本单元的特定安排,但重点是在全局组成。换言之,我们将映象作为整体分析,但使用上述的基本单元(线,圆等)于分析。
全局组成讨论在映象中单元的安排或空间布局。业内的传统分析描述如平衡,对称,兴趣中心(如注意力中心或焦点),主线,视角等。但是在此层没有特定对象的知识;只考虑基本单元(即点,线等)及其组合。在此意义上,一个图象的视图被简化成只包含基本语法符号的图象一个图象由线,圆,方块等构成的组表示。普通对象直到上一层,强调的是图象的感觉方面。在上面任何层上不需要现实世界的知识来实现索引,而且自动化技术只依赖于低层处理。虽然对自动索引和分类这是个优点,研究证明人类主要使用高层属性描述,分类,和搜索图象。对象是特别重要,但它们在不同层也放在类别中-一个苹果能归类成Macintosh苹果,苹果,或水果。当谈到普通对象,我们着重于基本层分类对象描述的最一般层。在业内的研究中,此层对应于预图解(Pre-Iconography),且在信息科学中称它为层的属(generic)。在这些概念和我们的普通对象的定义的共同基础想法是,为识别对象只需要一般的日常知识。例如,Macintosh苹果应归类成此层的苹果即是那个对象的最一般的描述层。
在我们的定义和业内以前使用的定义之间的可能差别基于下述事实,我们将可视对象定义为能见到的实体,某些时候不同于对象的传统定义。象天空或海洋那样的对象在传统定义下可能不认为是对象,但对应于我们的可视对象(以及象汽车,房子等的传统对象)。普通场景正象一个图象能按照出现在其中的单个对象来索引那样,有可能根据它包含的所有对象组和它们的安排作为整体来索引该图象。场景类型的例子包括城市,风景,室内,室外,静止生物,肖象等。在自动场景分类的某些工作已经完成,而且在基本场景分类的研究也存在。
此层的准则是只需要一般知识。为确定是一个城市的场景不必要知道特定的街道或建筑物的名称,为确定是一个肖象不需要知道人物的名字。特定对象与以前的层相反,特定对象讨论能被识别和命名的对象。Shatford称此层为在图象中的对象需要的特定知识的细节(Specific),而且那样的知识往往是客观的,因为它依赖已知的事实。例子包括个人和对象。特定场景此层模拟一般场景,基差别在于有关于场景的特定知识。虽然在映象中的不同对象以不同的方式用于确定该图象描画出的一个特定场景,有时单元个对象已足够。例如,一个清楚显示埃菲尔铁塔的照片能归类成巴黎的场景,它只根据那个对象。抽象对象在此层,使用有关该对象代表什么的专门的或解释性的知识。这在业内称之为Iconology(解释)或大约(about)层。它是完全主观的且在不同用户之间的评估变化很大,在此意义下此索引层是最困难的层。此层的重要性在实验中示出,其中观察者使用抽象的属性描述映象。例如,照片中的一个女人对一个观察者可以表示愤怒,对另一个观察者多半是忧郁。抽象场景抽象场景讨论图象作为整体表示什么。这是非常主观的。有时用户以感情的(如情绪)或抽象的(如气氛,主题)术语描述映象。在抽象场景层的其他例子包括悲伤、幸福、权力、天堂和乐园。层之间的关系我们已选择了金字塔表示,因为它直接反映了在我们结构中固有的某些重要的结果。很清楚,在金字塔的较低层为了完成索引需要更多的知识和信息。此知识是由每层的宽度表示。但是,重要的是指出,此假设可以具有某些例外。例如,一个通常的观察者可以不能够确定用于创作一幅画的技术,但是一个在艺术领域内的专家能够精确地确定使用什么。在此特定情况的索引在类型/技术层需要的知识比在普通对象层的要多(因为需要有关艺术技术的专门知识)。但是,在大多数情况为了索引所需要的知识在我们的结构中从顶层到底层增加识别一个特定的场景(如纽约的中央公园)比确定普通场景层(如公园)需要更多的知识。
虽然层间的依赖关系存存,当观察一个图象时每一层可以看作独立的景象或范围,而且处理每一层的方法取决于数据库,用户和目的本质。可视内容关系在本章节中我们简单地提出对象映象单元之间的关系的表示。此结构适应不同层次的关第,且基于以前提出的可视结构。我们注意到,某些层次上的关系在应用于实施结构的实体之间时(如从不同图象的场景可以比较)最为有用。在每层中的单元按照两类关系联系语法与语义(只对5到10层)。例如,两个圆(局部结构)可以空间上(如相邻),时间上(如在前)和/或视觉上(如更黑)相联系。在语义层的单元(如对象)可以具有语法和语义的关系(如两个人互相挨着,他们是朋友)。此外,每个关系能在不同的层(普通的,特定的,和抽象的)上描述。我们注意到,在层1,6,8和10之间的关系在由结构表示的实体之间(如在图象之间,在图象的各部分之间,在场景之间等)最有用。
可视结构能分成语法/感觉和可视概念/语义。为表示关系,我们观察那样的划分并考虑如下(1)一个对象的知识包含对象空间尺寸的知识,即它在空间中典型的,可能的,或实际的延伸的可分等及的特征;(2)空间知识隐含某结座标轴系的可用性,后者确定空间中对象之间某些尺寸和距离的指示。我们用此表明发生在可视结构语法层中的关系只能发生在2D空间,因为不存在对象的知识(即不能确定在3D空间中的关系)。例如,在局部结构层只考虑可视识别能力(Literacy)的基本单元,所以在那层上的关系只在这种单元之间考虑(即它不包括3D信息)。但是在5到10层的单元之间的关系能按照2D或3D描述。
以类似的方法,关系本身划分成语法(即与感觉有关)类和语义(即与意义有关)类。语法关系可以发生在任何层的单元之间,但语义关系只能发在5到10层的单元之间。例如,绘画中不同颜色之间语义关系能被确定(如颜色混合是暖色调-warm),但我们不把这些包括在我们的模型层上。
我们将空间关系划分成下列类(1)拓扑的(即单元的边界如何联系)和(2)取向的(即单元如何互相有关地放量)。拓扑关系包括近、远、接触等,取向的关系包括与之针对,在其前面等。
时间关系讨论单元在时间方面的连接(如在视频中包括在前,在后,其间,等)。而可视关系讨论可视特征(如兰,黑,等)。语义关系与意义相联系(如其主人,其朋友,等)。
以类似于可视结构单元具有不同层(普通,特定,抽象)的方法可视联系能在不同层上定义。语法关系可以是普通的(如近)或特定的(如数字距离测量)。语义关系可以是普通,特定,或抽象。
作为一个例子,空间的全局分布可用距离直方图表示,局部结构用局部构成部分之间的关系(如可视单元之间的距离)表示,全局组成由可视单元之间的全局关系表示。非可视信息如在本章节开始所说明的那样,非可视信息讨论不直接是图象一部分但以某种方式与其相关的信息。人们可以将属性划分成传记的和关系的属性。虽然对非可视信息可能由声音,文字,超链接文本等组成,这里我们的目的是提出一个对索引给出一般准则的简单准则,我们简单地只集中在文本信息。图10给出此结构的概貌。传记的信息真实抽象的来源可以是直接的(如自然景色的照片)或间接的(如雕塑,绘画,建筑物、图画的图象)。在两种情况可以有传记信息与图象相联系。在两种情况可以有传记信息与图象相联系。此信息本身能对图象中的若干对象重复(如罗马西斯廷教堂的天花板可以具有关绘画和教堂本身的信息),只存在于该图象,或完全不存在。在大多数情况,传记信息不直接关系到该图象的主题,而关系到作为整体的图象。例子包含作者,日期,标题,素材,技术等。有关信息非可视信息的第二类直接以某种方式与图象连接。有关的信息包含字幕,文章,声音记录等。
如上讨论,在许多情况此信息有助于实现在可视结构中的某些索引,因为它包含有关在映象中画什么(即主题)的特定信息。在此情况,它在语义层一般非常有用,因为语义层需要通常只在图象中不出现的更多的知识。但是,在某些情况,该信息不直接联系该图象的主题,而是以某种方式上该图象相关。例如,一个伴随着肖象的声音记录可以包括与所画的人物毫无关系的声音,虽然它们与该图象联系关且若需要的许可以被索引。物理属性物理属性简单地关系到对作为一个物理对象的映象必须做的事。这可以包括图象的位置,原始来源的位置,存储(如大小,压缩)等。在索引结构之间的关系我们定义了一个语义信息表来汇集有关图象的高层信息(见图11)。此表能用于各个对象,对象组,整个场景,或图象的各部分。在大多数情况可视及非可视住处被用于填入表内,单从可视内容可能不容易确定如室内/室外那样简单的场景类别;位置在映象中不明显等。各个对象能根据非可视住处分类及命名,用于在可视对象和要领对象之间的映射。
在图11中,可视与非可视住处能用于在语义上表征一个图象或其各部分。这两个形式住处用于回答语义表中的问题的方式可随内容而变。该表有助于回答轺下列的问题主题是什么(人物/对象等)?主题在做什么?主题在哪里?何时做?为什么做?该表能用于各个别对象,对象组,整个场景,或图象的各部分。
当得该表应用于从5层开始的每一层时,在此结构与可视结构之间的关系十分明白。我们也注意到,该表提供了关于图象的某些住处的紧凑表示,它不替代所提出的索引结构。结构组提供最完全的描述。
有了合适的索引结构,我们能着眼于如何能组织一个数字库的内容。在下一章节中,我们分析在组织和检索图象中起关键作用的问题。特征,相似性和归类为了成功地建立图象数字库,不仅重要的是理解数据,而且要理解人们关一类的论点。在本章节中我们讨论在这方面重要的论点,并解释我们是怎样应用此要领于建立我们的图象索引试验基地。首先我们讨论归类。然后,我们讨论在归类中的层和结构。最后我们提出有关属性和相似性的某些论点。归类和分类归类可以定义为将一组实体作为等价的处理。类是实体或要领所属的若干基本的和不同的分类,在类内的实体看来更相似,而类之间的实体不那么相似。但是在归类以前,重要的是对归类的数据的本质有一个理解。我们现集中讨论能够使用的类的类型。在分类的文献中,研究者已识别两种类(1)敏感的感觉类(如纹理,颜色或说话声音/e/),和(2)普通知识(GK)类(如自然类—鸟,人造物—汽车,和事件—吃)。
在我们的结构中我们识别如颜色和纹理那样的敏感的感觉。但是GK类起了非常重要的作用,因为用户主要关心出现在映象上的对象以及那个对象表示什么。认识心理学中的某些理论表示在GK类中的分类是如下做的规则使用实体的属性值(如,规则在人们的类别中的一个图像应有人在其中)。
原型类别的原型包括其类别的模型的特征属性。这此进贯穿于类别成员之间最可能发生的属性,但对类别的全体成既不必要也不充分。一个新的图象根据它如何类似于该类的原形来分类(如风景类的原型能是简单的日落的素描)。
模型按其最类似的模型的类分类的实例(如,替代对人的类别有一个规则的方法,我们可以在那上类中有一组例子图象,并使用那些于分类)。
借助于将映象组织到一个数据库此论据是有用的,因为我们能使用此技术来实现分类,并将结果提供给用户。这些要领已被用于开发我们的图像索引试验基本中。类结构类结构是数字库中的关键因素,并引起若干重要的议题,在此我们简单的讨论。应考虑下列议题在类之间的关系(如层次关系或实体关系),实现分类的抽象层(如由Rosch研究的)暗示者存在基本层和下级/上级层类,水平类结构(即每个类应如何被组织且大每个类中单元的全体成员的程度能是模糊的或二进制的)等。
除了在索引可视信息时考虑不同的分析层次以外,测量相似性的方法是很重要的。有关相似性测量的问题包括考虑的层次(如部分对全体),审查的属性,属性的类型(如我们结构的层),整个范围是否可分等。图象索引试验基地我们开发了一个图象索引试验基地,它包含了这里提出的要领,根据这里列出的结构使用不同的技术索引图象。尤其是对类型/技术层我们使用了辨别分析。对于全局分布层我们使用全局颜色直方图及Tamura纹理测量。在局部结构层,通过使用自动分段以及相缘变换及投影直方衅的多惊讶分段弯曲直方图我们能如VideoQ中那样进行草图查询。通过完成自动分段和合并产生的区域得到图象的图标表示而获得全局组成。
使用Visual Apprentice(可视学徒工)自动检测普通对象。在VisualApprentice中通过定义一个对象定义层次(即规定一个对象及其各部分的模型),并提供带有例子的系统建立可视对象检测器。由在层次结构中不同层次(区域,感觉的,对象部分,和对象)的系统自动学会多重分类器,并在实现自动分类时自动选择最好的分类器并被组合。我们也使用AMOS系统实现对象的人工标记及对象的搜索。
在普通场景层我们完成城市对风景以及室外对室内的分类。这可以利用OF*IIF技术自动地做,OF*IIF技术结合如可供使用的纹理特征(如从图象的标题)及专门的对象检测器(如面部或天空检测器)实现图象区域的聚类及分类。
有关特定对象的场景的住处使用一个提取人,地方等的名字的系统,从有关的住处获得。在抽象层的标记进行时用人工完成的。声频本发明的优点的另一个说明性讨论通过列出它结合表示声频内容的数字信号的使用的一个范例描述而得到。
我们以前提出索引图象的可视性内容单元(如区域,整个映象,事件等)的一个10层概念结构。在那个工作的分类只涉及用于视频内容的描述符(即本意不是对“元数据”的,例如,拍照人的名字不是可视描述符)。
在本文中,我们提出根据以前提出的10层概念结构分类声频描述符(被包括在标准的MPEG-7声频部分)。我们提出的金字搭结构包括与以前结合图3和图4描述的可视性结构恰恰相同的层次。但是每个层次涉及声频单元而非可视单元。在原始结构中,一个对象对应一个可视实体。在新的结构中,一个对象对应一个声频实体(如人的语音)。
在语法和语义之间区分的重要性广泛地被研究者在图象和视频索引的领域认识到。虽然我们未觉察到对声频内容相似的研究,从考查的研究得出的结果建议,此区分在声频索引方面很有用。例如,在住处检索和认识心重 学方面的研究已同个人如何使用不同的层描述(或索引)图象/对象。虽然我们提出的某些划分不严格,应该予以考虑这些划分,因为它们在如何索引、处理声频内容并将那样的内容向用户(如应用或观察者)表示方面具有直接的影响。
以前对可视属性提出的结构吸引了有关图象索引的不同领域的研究,它也提供了能容易地应用于声频的紧凑并有组织的分类。该结构是直觉的和高度起作用的,并强调需要,需求和不同索引技术(人工和自动)的限制。例如,对声频段的索引代价(计算的或以所化人力)通常在金字塔的较低层较高自动确定内容的类型(音乐还是声音),相对识别普通对象(如男人的声音),相对壹对象(如比尔·克林顿的声音)。这也隐含着,在较低层需要较多的住处/知识,而且如果一个用户(如应用)对另一个用户(如应用)作出一请求,有一个清晰度问题,牵涉及需要多少附加信息,或一个用户从如5层声频分类器期望什么级别的“服务”。此外,属性和关系的此等分解具有很大价值,因为人们经常根据属性作出比较。所提出的结构的好处已在对视频内容的基本实验中示出,且已经作出进行核心实验的努力。这些实验以及允许对声频索引的该结构的使用的灵活性意味着将这类描述符分类应到声频和视频内容的好处。
在此例中我们描述了声频属性的分类。我们也描述声频的关系。描述符的分类该提出的声频结构包含10层头4层涉及语法,而余下6层涉及语义。声频结构的概貌语法,而余下6层涉及语义。声频结构的概貌能从图3得出。每层的宽度是所需的知识/信息量的指示。语法层是类型/技术,全局分布,局部结构,和全局组成。语义层是普通对象,普通场景,特定对象,特定场景,抽象对象,和抽象场景。
语法层分类语法描述符,即通过低层特征描述内容的那些描述符。在可视结构中这些涉及出现在映象中的颜色和纹理。在本文的声频结构中这些涉及声频信号的低层特征(它是音乐还是语音等)。例子包括基频,谐音峰值等。
可视结构的语义层分类了有关对象和场景的属性。在声频结构的语义层是类似的,其差别在于分类是基于从声频信号本身提取的属性。如在可视情况一样,在声频情况有可能识别对象(如男人的语音,小号的声音等)和场景(如街上噪声,歌剧,等)。
可视结构的每层是类似的以前已经予以解释。接着,我们简单地解释每层,并描述它如何能用于声频描述符的分类。我们可交换地使用词属性和描述符,并对每一层给出直观的例子,作出与可视结构的模仿以帮助阐明此解释。对于语义层设想典型的无线电新闻广播是有用的,其中不同的实体可交换地使用个人,噪音,音乐,和场景(如在现场报导,在记者报导前,后或期间常听到背景噪音或音乐)。类型/技术声频序列的类型的一般描述。例如音乐,噪声,语音或它们的任意组合;立体声,声道数,等。全局分布描述声频的全局内容的属性,通过低层特征测量。在此层的属性是全局的,因为它们不涉及信号的各个别分量而涉及全局的描述。例如,一个信号可以描述成高斯噪音,这种描述是全局性的,因为它不考虑任何局部分量(如什么单元或低层特征描述此噪声信号)。局部结构涉及在声频段中各个低层语法部的提取和特征。与以前的层相反,这里的属性意味着描述信号的的局部结构。在一图象中,局部单元由在该图象中出现的基本语法符号给出(如线,圆等)。此层在声频中用作同样的功能,所以任何低层(即不是如单词说话内容中的字母那样语义的)局部描述符应在此层分类。全局组成根据基本单元(即局部结构描述符)的特定安排或组成的一个声频片段的全局描述。虽然局部结构着眼于声频的特定局部特征,全局组成着眼于局部单元的结构(如它们是如何安排的)。例如,一个声频序列可用马尔科夫键表示(建模),或用任何其他使用低层局部特征的结构表示。普通对象直到前一层,为实现索引不需大量的知识,定量特能自动从声频片段提取并分类成所描述的语法层,但是,当前声频片段借助语义(如认识)描述时,对象起了重要的作用。然而,对象能放在不同层次的类别中,一个苹果能分类成,Macintosh苹果,苹果,或水果。能基于声频片段识别一个对象,因而我们能作出相似的分类。例如,我们能说一个声频实体(如语音)对应一个男人,或对应比尔.克林顿。在讨论普通对象时,我们的兴趣在于基本层类别这是用日常知识能识别的对象描述的最一般的层。这就意味着没有所谈论的对象的特定识别的知识(如爆炸声,雨声,敲击声,男人的语音,女人的语音等)。能在此层分类声频实体描述符。一般场景正如声频片段能按照各个对象索引,也可能根据其它包含的所有对象的集以及它们的安排作为整体索引该声频片段。声频场景类的例子包括街道噪声,运动场,办公室,人们交谈,音乐会,新闻编辑室等。这层的准则是只需要一般知识。不需要识别特定的声频实体(如是谁的语音),或特定的声频场景(如是哪个音乐会)来获得在此层的描述符。特定对象与以前的层相反,特定对象涉及已识别及已命名的声频实体。需要特定的知识,且那样的知识通常是客观的,因为它依赖已知的事实,在此层识别和命名品噪声或声音。例子包括个人的语音(如“比尔.克林顿”)或特征噪声(如,纽约证券交易所的铃声),等。特定场景此层类似于普通场景,基差别在于存在有关在声频片段的场景的特定知识。例如,马丁.路德.金的讲话“我有一个梦”,此声频场景能被特定地识别及命名。1968年在月球着陆等。抽象对象在此层,使用读声频实体代表了什么的主观知识。此索引层是完全主观的,在不同用户这间的评估变化很大,在此意义上这是最困难的层。对于图象,此层的重要性在实验中示出,其中观察者使用抽角属性及其他来描述图象。在一个声频段也能为对象赋予感情属性。例如,一个声音(如在电影中,在音乐中)可描述或恐怖的,幸福的等。抽象场景抽象场景层涉及,作为整体声频片段表示什么。这可以是非常主观。例如,对于图象已示出用户有时用感情(如情绪)或抽象(如气氛,题目)术语描述图象。类似的描述也能指定给声频片段,例如,描述一个声频场景的属性可以包括悲伤(如人在哭),幸福(如人在笑),等。关系关系的类型在本章节,我们提出在我们提出的内容单元之间的明显的关系类型。这些关系类似于以前对可视内容提出的那些关系。如图12所示,关系在以前结合图3提出的声频结构的不同层次上定义。为表示在内容单元之间的关系,我们考虑将基划分为语法的和语义的。
在语法层,能有一个语法关系,即空间的(如“声音A近似于声音B”),时间的(如“同时的”),和声频的(“更响”)的关系,这些唯一地基于语法知识。空间和时间属性分成拓扑和有方向类。声频关系能进一步索引成全局的,局部的和组成的。如图12所示,在这些层中的单元能够不仅与语义关系,而且与语法关系相关(如“小号声接近小提琴”、“小号音调补充小提琴音调”)。我们区分两种不同类型的语义关系如同义词,反义词,亚词/超词,部分词/全词那样的词法关系;和关于动作(事件)或状态的表达关系。
我们这里提出的关系模仿对视频信号提出的关系,两种情况的唯一差别在于使用的属性,而不在于关系。例如,从一个图象不可能说单元A比单元B更响。从一个声频段不可能说(除非在声频内本身中明确地表述)单元A比单元B更黑。但是,关系的类型是相同的一个是声频,另一个是可视,但它们场是全局普通的(见表4)。
我们将用例子更透彻地解释语法和语义关系。下面的表3和表4综合了对关系的索引结构并民括例子。语法关系我们将语法关系分成了类空间的,时间的,和声频的。人们可能争辨,认为空间和时间关系只是声频关系的特殊情况。但是我们以专门的方法定义空间和时间关系,因为我们将单元分别看作空间和时间的边界而没有“关于”或持续期间的信息。见表3,它是所提出的语法关系类型的综合以反例子。
我们将空间关系分成下列类型(1)拓扑的,即单元的边界如何相关;和(2)定向的或有方向的,即单元互相相对地放置(见表表3)。注意,这些关系常常能从声频片段提取例如,所新闻报导的立体声广播,常常容易为声频实体指定语法属性。例如,有可能评估一个声音接近另一个声音,或更确切地评估在不同的声音来源之间的语法关系。在这方面,人们可以确定在信号中可以是不明显的某些评细的拓扑的和有方向的关系。拓扑关系例子是“近于”,“在其中”,和“与其邻接”;有方向关系的例子是“在其前面”,“在其左面”。注意,在这些关系和从可视信息中得到的关系之间差别依赖于关系本身的内涵,单从声频确定某些空间关系可以是更加困难,但是在建立合成的声频模型时,这些关系起看非常重要的作用。
以相似的方式,我们将时间关系分类成拓扑的和有方向的类(见表3)。时间的拓扑关系的例子是“同时发生”,“重叠”,“在其间发生”;有方向的时间关系是“在前发生”,和“在后发生”。SMIL的同时和顺序关系是时间的拓扑关系的例子。
声频关系根据它们的可视属性或特征联系声频实体。这些关系能够被索引或全局的,局部的,和组成的类(见表3)。例如,一个声频全局关系能是“噪声小于”(根据全面噪声特征),一个声频局部关系能是“声音大于”(根据局部响应测量),而一个声频组成关系能根据一个隐藏马尔科夫(Hidden Markov)模型的结构的比较。
声频结构的单元具有不同的层(普通的,特定的,和抽象的),以与其类似的方法能够在普动层(“近于”)或特定层(“距离10米),中定义语法关系的这些类型(见表3)。例如,如“与其并”,“与其交”,“是其非那样的操作关系是拓扑的,特定的关系,或者是空间的,或者是时间的(见表3)。语义关系语义关系只能在10层概念结构的语义层上的内容单元之间发生。我们将语义关系划分成词法的和表述的关系。表4综合了语义关系并包括例子。注意,因为语义关系根据内容的理解,我们能对从声频内容获得的关系可以作出与对从可视内容得到的关系作出一样的分类。因此,此处语义关系等同于结合可视信号取的方法(即理解声频相对于理解一个图象或视频)。我们虽然有原始例子可以应用为了更清楚地作业解释,我们使用与声频有关的例子。例如作为一个普通同义词的例子,那个苹果象那个桔子;如果说话人谈及它们,苹果和桔子能从声频被“识别”。
词法语义关系对应于在WordNet中使用的名词之间的语义关系。这些关系是同义词(小提琴类似于中提琴),反义词(长笛与鼓相反),亚词(吉他是弦乐器),超词(弦乐乐器和一个吉他),部分词(音乐家是乐队的成员),和全词(乐队由音乐家组成)。
表述语义属性涉及在两个或多个单元中的动作(事件)或状态。动作关系的例子是“对其叫嚷”,和“击打”(例击球)。状态关系的例子是“属于”和“拥有”。不是仅将表述语义划分成动作和状态,我们可以利用在WordNet中使用的部分关系语义分解。WordNet将动词分成15个语义域身体照顾及功能的动词,改变,认识,通讯,竞争,消费,接触,建立,情绪,运动,感觉,拥有,社会交往,和气象动词。只有那些与可视概念的描述有关的域能被使用。
至于这里提出的10层声频结构。我们能在不同的层上定义语义关系普通的,特定的,和抽象的。例如,一个普通动作关系是“拥有股票”,一个特定动作关系是“拥有80%股票”,而最后,一个抽象语义关系是“控制该公司”。表3语法关系的索引结构及例子
表4语义关系的索引结构和例子
本发明不仅包括用于为索引和/或分类的目的的多层数字信号(如多媒体信号)的分类方法,而且包括计算机实施的系统。上述的方法根据它们能用于处理这里讨论类型的数字信号的任何系统中的事实已在某些一般原则中予以描述,一如任何在MPEG-7标准下与处理数字多媒体信号或文件相容的业内认识的(或将来开发的)系统。
通常认为,因为对数字信号的标准的目的是促进对那样信号发送,归档,和输出的混合平台(Cross-Platform)的兼容性,对实施本发明建立的系统给出系统特定的规定是不必要也是不希望的。相反的,业内一般熟练人员认识到,使用业内所熟知的所希望的硬件和软件技术如何实施这时提出的普通技术。
为了给出广泛的例子,人们能够结合任何兼容设备考虑一个实现本发明的一个系统的实施例,用于处理,显示,归档,或发送数字信号(包括视,声频,静止图象,及其他包含人的感觉内容的数字信号,但不限于此)。那样的系统可以是包括奔腾处理器,存储器(如硬盘驱动器和随机访问存储器容量),视频显示,和合适的多媒体附件的个人计算机工作站。总结本发明对当前的Generic AV DS提出基本的实本一关系模型,以便着于解决与其整体设计相关的缺点。该基本的实体一关系模型索引(1)内容单元的属性,(2)内容单元之间的关系,和(3)内容单元本身。我们选择此建模技术,和(3)内容单元本身。我们选择此建模技术,因为实体一关系模型最广泛地使用于概念模型。它们形成高度抽象性并与硬件及软件无关。
我们对属性(或MPEG-7描述符),关系,和内容单元在语法和语义上作出区别。语法涉及内容单元安排的方法而不考虑那样安排的意义。另一方面,语义处理这些单元及其安排的意义。语法和语义属性能涉及若干层。类似地,语法和语义关系能进一步分成与不同层有关的子一类型。我们根据它们的属性及与其他单元的关系的类型提出这语法和语义单元的紧凑及明确的定义。但是与Generic AVDS的一个重要差别是我们的语义单元不仅包括语义属性,也包括语法属性。因此,如果一个应用宁可不区分语法及语义单元,通过只使用语义单元,它也能做。
本发明的上述例子及说明性实施例为解释的目的列出。业内普通熟练人员将认识到,这些讲授的例子不限定本发明的精神与范围的限止,本发明只受附后的权利要求的限止。
权利要求
1.一种索引多个数字信息信号的方法,其特征在于包括下列步骤(a)对每个信号(i)对信号内容定义多个索引层;(ii)选择至少一个所述的索引层;(iii)从与每个所述的选定的索引层有关的信号中提取特征;(b)对每个信号分类(信号之间)在同一选定的索引层的所述提取的特征之间的关系;和(c)对该信号将所述的提取的特征及关系组织到较高层的描述结构中。
2.如权利要求1所述的方法,其特征在于所述的索引层包括与语法有关的层及与语义有关的层。
3.如权利要求2所述的方法,其特征在于与语法有关的层包括至少一个从与下列有关的层的组中选定的层(i)类型/技术(ii)全局分布(iii)局部结构;和(iv)全局组成。
4.如权利要求2所述的方法,其特征在于所述有关语义的层至少包括一个从与下列有关的层的组中选的层(i)普通对象;(ii)普通场景;(iii)特定对象;(iv)特定场景;(v)抽象对象;和(vi)抽象场景。
5.如权利要求1所述的方法,其特征在于所述的关系包括语义关系。
6.如权利要求5所述的方法,其特征在于所述的语义关系包括至少一个从包括下列关系的组中选出的关系(a)词法的;和(b)表述的关系。
7.如权利要求1所述的方法,其特征在于所述的关系包括语法关系。
8.如权利要求7所述的方法,其特征在于所述的语法关系包括从包括下列关系的组中选出的关系(a)空间的;(b)时间的;和(c)可视的关系。
9.如权利要求1所述的文法,其特征在于所述数字信息信号包括多媒体数据文件。
10.如权利要求9所述的方法,其特征在于所述的方法被应用于把所述的数据文件组织在数字库中。
11.如权利要求9所述的方法,其特征在于所述的数据文件包括视频文件。
12.如权利要求9所述的方法,其特征在于所述的数据文件包括声频文件。
13.如权利要求1所述的方法,其特征在于至少一个所述的数字信息信号包括一个多媒体数据文件的一个片断部分。
14.如权利要求13所述的方法,其特征在于所述数据文件的片断部分对应于提供给用户感觉的多媒体数据文件的人类可感知的子部分。
15.如权利要求14所述的方法,其特征在于所述的人类可感知的子部分包括在视频图象文件中的特定的人或对象的图象。
16.一个用于索引多个数字信息信号的系统,其特征在于包括(a)至少一个用于接收信号的多媒体信息输入接口;(b)一个计算机处理器,耦合到所述的至少一个多媒体信息输入接口,用于(对每个信号)(i)对这些信号的内容定义多个索引层;(ii)选择至少一个所述的索引层;(iii)从与每个所述的选定的索引层有关的信息提取特征;而且用于对这些信号的每个分类(在这些信号之间)同一选定索引层的所述提取的特征之间的关系;并用于对这些信号把所述的提取的特征和关系组织到较高层的描述结构中。
17.如权利要求16所述的系统,其特征在于还包括(c)操作上与所述处理器耦合的数据存储系统,用于存储与索引有关的信息。
18.一个用于分类多个数字信息信号的方法,其特征在于包括下列步骤(a)对这些信号中的每一个(i)对这些信号的内容定义多个分类层,所述的分类层包括与概念及感觉有关的分类层;(ii)选择至少一个所述的分类层;(iii)从与每个所述的选定的分类层有关的信号中提取特征;(b)对这些信号中的每一个分类(在这些信号之间)在同一选定的分类层的所述提取的特征之间的关系;和(c)对这些信号将所述的提取的特征和关系组织到较高层描述结构。
全文摘要
提供用于从多媒体信息产生标准描述记录的系统和方法。本发明使用基本的实体-关系模型于Generic AVDS,它把实体,实体属性,和关系分类成相应的类型以便描述可视数据。它也涉及将实体关系分类成语法和语义属性。语法属性可归类成不同的层:类型/技术,全局分布,局部结构,和全局组成。语义属性能归类成不同的层:普通对象,普通场景,特定对象,特定场景,抽象对象,和抽象场景。本发明还使用将实体关系分类为语法和语义类别的分类。语法关系能归类成空间的,时间的,和可视类别。语义关系能归类成词法的和表述的类别。
文档编号G06F17/30GK1372669SQ00812462
公开日2002年10月2日 申请日期2000年6月30日 优先权日1999年7月3日
发明者A·贝尼特兹, A·贾米斯, 张世富, J·R·史密斯, 李中生 申请人:纽约市哥伦比亚大学托管会, Ibm公司