专利名称:用于存储和播放立体数据的元数据结构、以及用于使用该元数据来存储立体内容文件的方法
技术领域:
本发明涉及一种用于存储和再现立体数据的元数据结构、以及用于使用该元数据 结构来存储立体内容文件的方法;且更具体地,涉及一种当一起提供二维(2D)和三维(3D) 内容时所需的元数据结构(控制信息)、以及用于使用所述元数据结构来存储立体内容文 件的方法。该项工作得到了 MIC/IITA 的 IT R&D 计划[2005-S-403-02,"Developmentof Super-intelligent Multimedia Anytime-anywhere Realistic TV(SmarTV)Technology,,] 的支持。
背景技术:
已经基于移动电话、数字相机、数字视频盘(DVD)、和PDP而在国内和国际上形成 了使用立体内容的应用服务以及相关装置的市场。相应地,已经存在一种对于定义用于捕 捉、存储、和再现立体内容的系统信息或控制信息(元数据)的标准以及包括所述标准的文 件格式的需求。题 目 为"Apparatus and method for processing 3D moving images usingMPEG-4 object descriptor and structure (用于使用 MPEG-4 对象描述符和结构来 处理3D运动图像的设备和方法)”的韩国专利公布第2006-0056070号(在下文中,称为第 一专利)公开了一种具有诸如3D运动图像的类型、各个显示类型、和视点之类的新信息的 3D运云力图像对象描述符。题目为 method fortransmitting stereoscopic image data(用 于传送立体图像数据的方法)的韩国专利申请第2006-0100258号(在下文中第二专利) 公开了一种包括视频数据单元和报头单元的文件格式、作为用于为了立体内容而解码的视 频数据的文件格式,所述视频数据单元包括立体图像信息,并且所述报头单元包括用于解 码和再现立体图像信息的元数据。然而,所述第一和第二专利未能引入一种用于当一起组织和提供2D内容或3D 内容时(即,当一起使用2D内容和3D内容时)标识内容的方法、一种用于提供当3D内 容具有不同的立体相机和显示信息时的立体相机和显示信息、以及当3D内容由两个基础 (e 1 ementary)流形成时的立体轨道参考信息的方法。
发明内容
技术问题本发明的实施例旨在提供一种用于存储立体内容的方法。本发明的另一实施例旨在提供一种用于当在各个3D终端环境中下载和再现2D内 容和3D内容时通过标识2D内容和3D内容来存储立体内容、并且通过自动地接通/关断视 差屏障而显示所标识的2D内容和3D内容的方法。本发明的又一实施例旨在提供一种用于当立体内容具有不同的立体相机和显示信息时、通过片段来存储立体相机/显示信息的方法。本发明的又一实施例旨在提供一种用于当立体内容具有两个基础流时存储用于 标识主要/子轨道的立体内容、并且在维持与典型2D终端处的兼容性的同时去除在每个轨 道中包括并使用的立体相机/显示信息的冗余的方法。本发明的其他目的和优点可以通过以下描述来理解,并且通过参考本发明的实施 例而变得明显。同样,对于本发明的领域的技术人员明显的是,可以通过所要求保护的部件 及其组合来实现本发明的目的和优点。技术方案根据本发明的一方面,提供了一种用于存储立体内容的方法,所述方法包括存储 立体内容的流;以及当立体内容具有多于两个基础流时,存储用于将基础流划分为主要轨 道和补充轨道的信息。根据本发明的另一方面,提供了一种用于存储立体内容的文件格式结构,所述文 件格式结构包括媒体数据逻辑框(box),用于存储立体内容的流;以及轨道参考逻辑框, 用于当立体内容包括多于两个基础流时,存储用于将基础流划分为主要轨道和补充轨道的 fn息o根据本发明的另一方面,提供了一种用于基于高级视频编码(AVC)补足增强信息 (SEI)来存储立体内容的方法,所述方法包括存储基于AVC而编码的立体内容,其中“立体 视频信息SEI,,包括指示了立体视频是“并排”类型的信息。有益效果根据本发明,可以方便地存储和提供由2D内容和3D内容形成的立体内容。通过 经由2D内容和3D内容定界符信息而将视差屏障自动地改变为2D或3D显示,来使得用户 能够方便地享受立体内容。
图1是图示了用于提供立体内容的各个内容配置类型的图。图2是图示了当存在MPEG-4系统信息时的、根据本发明实施例的用于立体视频应 用格式的基本文件格式的图。图3是图示了当不存在MPEG-4系统信息时的、根据本发明实施例的用于立体视频 应用格式的基本文件格式的图。图4是图示了当存在MPEG-4系统信息时的、根据本发明第一实施例的立体视频应 用格式的图。图5是图示了当不存在MPEG-4系统信息时的、根据本发明第一实施例的立体视频 应用格式的图。图6是图示了根据本发明实施例的“ishd”逻辑框被包括在“moov”逻辑框中的存 储格式的图。在图6中,图a)示出了用于由一个源形成的3D内容的格式,而图b)示出了 用于由两个源形成的3D内容的格式。图7是图示了根据本发明实施例的“ishd”逻辑框被包括在“mdat”逻辑框中的存 储格式的图。在图7中,图a)示出了由一个源形成的3D内容,而图b)示出了由两个源形 成的3D内容。
图8是图示了根据本发明实施例的包括“ishd”和“meta”的存储格式的图。在图 8中,图a)示出了由一个源形成的3D内容,而图b)示出了由两个源形成的3D内容。图9是图示了根据本发明实施例的包括“ishd”逻辑框和LASeR的格式的图。在 图9中,图a)示出了包括在“moov”逻辑框中包括的“ishd”逻辑框和LASer的格式,图b) 示出了 “ishd”逻辑框被包括在“moov”逻辑框中并且LASeR被包括在“mdat”逻辑框中的 格式,而图c)示出了 “ ishd”和LASer被包括在“meta”逻辑框中。图10是根据本发明实施例的当ES = 1时包括“ishd”逻辑框和“iloc”逻辑框的 SS-VAF 的图。图11是根据本发明实施例的包括“ishd”逻辑框和“iloc”逻辑框的SS-VAF的图。图12a)示出了在AVC中的SEI的基本结构中的包括“立体视频信息SEI (stereo video information SEI) ”和 “reserved_sei_message (保留的 sei 消息)”的部分,而图 12b)示出了 SEI在AVC流中的位置。图13是图示了根据本发明实施例的使用“立体视频信息SEI”和“reSerVed_Sei_ message” 的 SS-VAF 的图。图14是图示了当ES = 2时仅仅由单一格式立体流形成内容的情况下的、根据本 发明实施例的具有“tref”、“ishd”、和“iloc”逻辑框的SS-VAF的图。图15是图示了根据本发明实施例的具有“tref”、“ishd”、和“iloc”逻辑框的 SS-VAF 的图。图16是图示了根据本发明实施例的用于存储立体内容的方法的流程图。图17是图示了根据本发明另一实施例的用于存储立体内容的方法的流程图。图18是图示了根据本发明又一实施例的用于存储立体内容的方法的流程图。
具体实施例方式图1图示了用于提供立体内容的各个内容配置。图1的图a)示出了用于具有一 个基础流ES(ES = 1)的内容的格式,而图1的图b)示出了用于具有两个基础流ES(ES = 2)的内容的格式。单一格式是当立体图像形成方案相同时并且当仅仅包括一个相机参数和 一个显示信息时的用于内容的格式。多个格式是当立体图像形成方案不同时、当尽管立体 图像形成方案相同但是相机参数不同时、或当包括多个显示信息或另一信息时的格式。Stereoscopic_Content_Type包括i)诸如双目3D视频服务之类的立体视频内 容、ii)诸如双目3D静止图像服务(例如幻灯片)、2D(单)视频和3D数据服务(预定的 场景或部分)的组合之类的立体图像内容、iii)诸如2D(单)视频和3D视频(预定的场 景或部分)的组合之类的单视场(monoscopic)和立体混合内容。图2和3示出了根据本发明实施例的立体视频应用格式(SS-VAF)的基本结构。图2是包括MPEG-4系统信息的文件格式结构,而图3是不包括MPEG-4系统信息的 文件格式结构。如所示的,SS-VAF包括“ ftyp,,逻辑框、“moov,,逻辑框、和“mdat,,逻辑框。 在下文中,将描述SS-VAF的逻辑框的语法和语义。在SS-VAF的结构中包括根据本实施例的 逻辑框,可以根据其类型来改变其位置,并且可以独立地使用在所述逻辑框中包括的信息。1. “scty”(立体内容类型) "scty”表示内容的基本类型。S卩,通过“scty”来将内容分类为单视场内容或立体内容。这里,单视场内容意味着一般的2D图像。表1示出了“scty”的语法。可以在“ftyp” 逻辑框或另一逻辑框中包括“scty”中的“Stereoscopic_Content_Type”。表 1 在表l,“Stereoscopic_Content_Type”表示立体内容类型,并且具有表2的含义。表2 2. “sovf”(立体对象视觉格式)“sovf”表示立体内容的图像配置格式(或视觉格式)。表3示出了 “sovf”的语 法。“sovf”包括“Stereoscopic_Object_VisualFormat”。可以在典型的其他逻辑框或为 了存储立体内容而新定义的逻辑框中包括“ Stereoscopic_Object_VisualFormat ”。Table 3 在表3中,“Stereoscopic_Object_VisualFormat”表示立体内容的图像配置信 息,并且具有表4的含义。表 4 在表4中,“完全尺寸”意指补充图像的尺寸与主要图像的尺寸相同。“垂直方向的 一半”表示补充图像的尺寸在垂直方向上是主要图像的尺寸的一半。“水平方向的一半”表 示补充图像的尺寸在水平方向上是主要图像的尺寸的一半。“垂直方向/水平方向的一半” 意指补充图像的尺寸在水平方向和垂直方向上是主要图像尺寸的一半。3. “ssci”(立体内容信息)“ssci”表示关于立体内容的最小/最大深度或视差(disparity)的信息。“ssci” 使得3D终端能够再现适合于3D显示的3D图像。表5表示了“ssci”的语法。可以在其他 典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括在“ssci”中包括的最小/最 大深度信息。在表5中,“MaX_0f_cbpth (视差))”表示最大深度/视差信息(像素单位), 而“Min_0f_cbpth (视差),,表示最小深度/视差信息(像素单位)。表 5 4. “scpi”(立体相机参数信息)“scpi”表示由立体相机捕捉的或者由相关的工具创建的立体内容的相机参数信 息。表6示出了“scpi”的语法。同样,可以在其他典型的逻辑框或为了存储立体内容而新 定义的逻辑框中包括在“scpi”中包括的每个字段。表6 在表6中,“基线(Baseline)”表示左侧相机和右侧相机之间的距离,“Focal_ Length”意指图像平面(CCD传感器)和相机中心之间的距离,而“C0nvergence_p0int_ distance”表示会聚点和基线之间的距离。这里,会聚点意指左侧相机和右侧相机的视觉线 的交叉点。“StereoscopicCamerajetting”表示立体摄影/数据的相机安排,并且具有表 7的含义。表 7 5. “iods”(对象描述符逻辑框)“iods”表示关于初始对象描述符(I0D)的信息,所述初始对象描述符用于当包括 诸如BIFS或LASeR之类的场景信息时、表现BIFS流或0D流的位置。表8示出了 “iods” 的语法。表 8 6. “ soet ” (立体一个ES类型逻辑框)“soet”表示当编码器输出一个基础流(ES)时的ES的类型。表9示出了“soet” 的语法。表9 在表9中,“Stereoscopic_0neES_Type”表示由一个ES形成的立体数据的图像配置格式的实施例,并且具有表10的含义。表 10 7. “ stet ” (立体两个ES类型逻辑框)“stet”表示当编码器输出两个基础流(ES)时的每个ES的类型。表11表示了 “stet”的语法。表 11 在表11中,“Stereoscopic_TwoES_Type”表示由两个ES形成的立体数据的图像 配置格式的实施例,并且具有表12的含义。表 12 8. “sstt”(立体时间表逻辑框)“sstt”表示关于当一起使用单视场内容和立体内容时、场景中的单视场内容和立 体内容的开始和结束的信息。表13示出了根据本发明第一实施例的“sstt”的语法。可以 在其他典型的逻辑框或为了存储立体内容而新定义的逻辑框中包括“sstt”的每个字段。表 13 在表 13 中,"Mono/stereoscopic_Scene_count”表示当由 2D 内容和 3D 内容一起 形成立体内容时单视场/立体场景改变的数目。即,如果立体内容由2D — 3D — 2D形成, 则将“Mono/stereoscopic_Scene_count”设置为2。同样,如果立体内容仅仅由3D内容形 成,而没有2D内容,则将“Mono/stereoscopic_Scene_count”设置为2。这种信息可以用于 3D终端中的2D/3D显示自动改变。“Mono/stereoscopic_identifier”通过时间来表示内容类型,并且具有表14的 含义。同样,“Mono/stereoscopic_identifier”可以用于标识2D内容或3D内容。例如,向 “Mono/stereoscopic_identifier,,分配 1 比特。如果“Mono/stereoscopic_identifier,, 是“0”,则"Mono/stereoscopic_identifier,,表示 2D 内容。如果"Mono/stereoscopic_ identifier,,是“1”,则"Mono/stereoscopic_identifier,,表示 3D 内容。“Start_Time”通 过时间来表示内容开始时间。表 14 表15示出了根据本发明第二实施例的“sstt”的语法。在表15中,“Startjime” 表示立体内容的开始时间,而“ End_Time ”表示立体内容的结束时间。表 15 表16示出了根据本发明第三实施例的“sstt”的语法。“Start_Sample_number” 表示单视场/立体内容开始采样数目或采样的数目。即,采样的数目表示与单视场或立体 对应的全部采样的数目。这里,采样意味着单独的视频帧和一系列时间邻接的视频帧。表 16
表17示出了根据本发明第三实施例的“sstt”的语法。表17 在表17中,当“Stereoscopic_compositiontype”由各个立体配置类型形成时,它 通过时间来表示内容类型,并且具有表18的含义。“End_Sample_number”表示立体内容结 束采样数目或采样的数目。表 18 9. “sesn” (立体 ES Num 逻辑框)“sesn”表示从编码器输出的基础流的数目。表19示出了 “sesn”的语法。在表 19中,“Stere0SC0piC_ESNum”表示从用于立体内容的编码输出的基础流的数目。表 19 10. “tref”(轨道参考逻辑框)“tref”是在提供用于使得一个轨道能够参考其他轨道的信息的基于ISO的文件 格式中定义的逻辑框。在“trak”(轨道逻辑框)中包括“tref”。表20示出了根据本发明 实施例的“tref”的语法。这里,“track_ID”表示要参考的轨道的标识。“referencejype” 具有表21的含义。表 20 表21 具有两个基础流(ES)的立体视频包括两个轨道,并且连接到与作为场景描述的 LASeR(如,传统的LASeR)中的视频相关的两个节点。即,根据传统技术来将具有两个ES的 立体视频识别为两个对象。然而,因为将立体视频最终转换为一个3D视频格式并在终端中 进行再现,所以将立体视频识别为一个对象。即,尽管使用两个轨道来形成立体视频,但是 应该仅仅使用一个节点来连接立体视频,这是因为将立体视频转换为一个3D视频格式以 再现场景。如果立体视频包括两个ES,则需要具有关于两个轨道之间的关系的信息,并且在 “tref”中的“svdp”处定义立体轨道参考信息(如表22所示),并且进行使用。尽管没有 使用LASeR,但是需要使用诸如“svdp”之类的立体轨道参考信息,以用于存储具有两个ES 的立体内容。如果立体内容包括两个基础流,则“tref”使得能够将两个轨道标识为主要轨道和 附加轨道。同样,“tref ”使得附加轨道能够参考主要轨道,并且仅仅在所述轨道之一中存 储立体视频相关的立体相机和显示信息。因此,可以消除信息的冗余。此外,尽管立体内容 包括两个轨道,但是可以将一个轨道连接到LASeR的一个视频节点。在本发明中,引入了初始立体报头(ishd)的结构,以便使得立体内容能够支持各 个立体图像配置格式和相机参数。根据本发明的实施例,可以独立地使用在初始立体报头 (ishd)中包括的信息。在立体流具有各个立体格式和相机参数的情况下,通过“iloc”来标识每个立体流 以及每个立体流的开始和长度,并且向每个片段分配item_ID。因此,初始立体报头(ishd) 必须基于该item_ID来提供关于每个立体格式或相机参数的信息。这里,当立体流一起包 括立体片段和单视场片段作为一个序列时,项目意指一个立体片段。 如果立体流包括三个立体片段、并且每个立体片段包括不同的ishd信息,则通过 item_ID及其描述信息来标识所述立体片段。然而,如果三个立体片段具有相同的ishd信 息,则第二和第三立体片段包括示出第二和第三立体片段包括第一立体片段的相同ishd 信息的字段。这种结构可以有利地去除在初始立体报头(ishd)中包括的信息冗余。图4是图示了根据本发明实施例的具有MPEG-4系统信息的立体视频应用格式 (SS-VAF)的图,而图5是图示了根据本发明实施例的不具有MPEG-4系统信息的立体视频应 用格式(SS-VAF)的图。当一起使用单视场内容和立体内容时,需要定界符信息来确定单视场内容或立体 内容什么时候开始或结束。可以根据其中包括的单视场/立体内容的开始/结束信息、采 样的2D/3D标识、和采样的数目(AU)来标识单视场内容和立体内容。图6到图8示出了用于支持像图1 一样的各个内容配置格式的存储格式的构思结 构。其基本结构包括“ftyp”逻辑框、“moov”逻辑框、和“mdat”逻辑框。“ftyp”逻辑框定 义文件类型。即,“ftyp”逻辑框通过包括表现它是立体内容文件还是单视场/立体内容文 件的字段来表现3D内容文件。“moov”逻辑框包括用于再现媒体数据的所有系统(元)信 息,而“mdat”逻辑框包括实际的媒体数据。需要具有基于所示格式的用于立体内容的新补充信息,并且根据补充信息的位置来改变存储格式的结构。图6示出了包括在“moov”逻辑框中包括的初始立体报头(ishd)的存储格式的结 构,所述初始立体报头具有关于形成了 3D内容的源的数目的信息和新的补充信息。图6的 图a)示出了用于具有一个源的3D内容的存储格式。如图a)所示,一个帧包括左侧图像信 息和右侧图像信息两者(例如,并排)。图6的图b)示出了用于具有两个源的3D内容的 存储格式。如图b)所示,在对应的帧中单独地包括左侧图像信息和右侧图像信息中的每一 个。根据所包括的媒体数据的数目来改变“moov”逻辑框中的轨道的数目。“moov”逻辑框 的轨道包括用于再现包括在“mdat”逻辑框中的媒体数据的整个系统信息(元信息)。这种存储格式需要一种用于新补充信息并且支持该新补充信息的结构。在本实 施例中,新定义初始立体报头(ishd),并且将其包括在“moov”逻辑框的轨道中。可以在 “moov”逻辑框中或在存储格式中改变初始立体报头(ishd)的位置。图7示出了具有含有关于新定义的初始立体报头的信息的“mdat”逻辑框的存储 格式结构。图7的图a)示出了用于由一个源形成的3D内容的存储格式,而图7的图b)示 出了用于由两个源形成的3D内容的存储格式。如所示的,可以在维持“moov”逻辑框的典 型结构的同时、通过包括在“mdat”逻辑框中包括“ishd”流的信息来实施该存储格式。图8示出了包括具有ishd信息的“meta”逻辑框的存储格式。图8的图a)示出 了用于由一个源形成的3D内容的存储格式,而图8的图b)示出了用于由两个源形成的3D 内容的存储格式。表22示出了用于通知在“mdat”逻辑框中包括ishd信息的结构。在“stsd”(采 样描述)逻辑框中包括这种结构。表 22 图9示出了基于图6到图8所示的结构的、具有关于场景描述符的信息的存储格 式。场景描述符用于各个多媒体和与用户的交互的场景配置。在本实施例中,将LASeR用 作场景描述符。图9的图a)示出了在“moov”逻辑框中包括用于存储场景描述符流的附加逻辑框 的存储格式。图9的图b)示出了包括具有场景描述符流的“mdat”逻辑框、具有用于通知 场景描述符流被包括在“mdat”逻辑框中的附加轨道的“moov”逻辑框、和具有关于场景描 述符流的信息的“stsd”逻辑框的存储格式。即,它涉及在轨道中搜索“stsd”逻辑框、分析 该轨道表现哪个信息(场景描述符/视频/音频)、和基于分析结果而使用在“mdat”逻辑 框中存储的信息来进行解码。图9的图c)示出了包括具有关于所定义的场景描述符的信 息的“meta”逻辑框的存储格式结构。表23到表25示出了支持图1的所有3D内容配置格式的ishd结构的实施例。表 23 表 24
表25 在表23到表25中,“num_MonoStereo_scene”表示当立体内容由2D内容和3D内 容一起形成时的场景的数目。“num_MonoStereo_scene”还表示当立体内容由各个3D内容 形成时的场景的数目。例如,立体内容由2D内容、3D内容、和2D内容[(2D) (3D) (2D)]形 成,num_MonoStereo_scene 变为 3(Num_MonoStereo_scene = 3)。如果以并排方案(场序) 来形成立体内容,则 num_MonoStereo_scene 变为 2 (Num_MonoStereo_scene = 2)。此夕卜,如 果立体内容以单一格式由3D内容形成,则num_MonoStereo_scene变为1 (Num_MonoStereo_ scene = 1)。可以将“Startsamplejndex”用作每个内容的开始采样数目(即,一般的帧数) 或根据每个内容类型而包括的采样的数目。“numofES”表示在“mdat”逻辑框中包括的视频 流的数目。“Composition_type”表示用于标识2D内容和3D内容的格式的信息。可以将 “Start_sample_index”和“Composition_type”用作用于支持2D/3D显示模式的各个3D终 端处的自动显示开/关的基本信息。“Compositior^type”具有表26的含义。表 26 “LR_first”表示左侧图像和右侧图像之间具有较高优先级的一个。S卩,“LR_ first”通知左侧图像和右侧图像之间首先编码的图像。“stereoscopicCameraInfo(立体相机信息)”对象表示用于3D内容的相机参 数信息。表27示出了 “stereoscopicCameralnfo”对象的实施例。可以在其他典型的逻 辑框或根据本发明实施例而新定义的逻辑框中包括根据本实施例的相机参数信息。在 表27中,“StereoscopicCamera_setting”表示当再现或摄影3D内容时的相机安排。 即,“StereoscopicCamera_setting,,表示“平行”和“交叉”之一。“Baseline (基线)” 表示立体相机之间的距离,而“FocalLength”表示从镜头到图像平面的距离。同样, “ConvergencePointdistance”表示从连接了左侧相机和左侧相机的基线到会聚点的图。表 27 “StereoscopicContentsInfo(立体内容信息)”对象表示用于显示3D内容的最小 信息。表28示出了“StereoscopicContentsInfo”对象的实施例。可以在其他典型的逻辑 框或根据本实施例而新定义的逻辑框中包括在“StereoscopicContentsInfo”中包括的信 息。“Max_disparity”表示3D内容的最大视差尺寸,而“Min_disparity”表示3D内容的最 小视差尺寸。表 28 可以)"StereoscopicCameralnfo"禾口 "StereeoscopicContentsinfo,,中的信息 表达为诸如MPEG-7元数据之类的附加描述,并且进行存储。图10是图示了当ES = 1时的根据本发明实施例的SS-VAF的图。“ftyp”逻辑框表示是否包括立体内容。当整个基础流是3D时,并且当基础流由 2D/3D混合流形成时,它们被认为是立体内容。当立体内容由2D/3D流形成时,需要2D/3D流的开始信息和长度信息。针对开始 信息和长度信息,使用作为基于ISO的文件格式(11496-12)的典型逻辑框的“iloc”逻辑 框。在立体内容的情况下,“iloc”逻辑框提供所存储文件中的立体片段的位置。通过“ishd”逻辑框来获得与区别2D流和3D流相关的信息。尽管在2D/3D混合 流的情况下包括多个3D流,但是如果多个3D流是相同的信息(即,如果它是单一格式),则 通过参考一个“ishd”信息来获得与3D流相关的信息。在立体内容仅仅由单一格式的3D流形成的情况下,可以使用“ishd”逻辑框、而不 使用“iloc”逻辑框来表达立体数据。同样,使用“iloc”逻辑框来检测每个格式的偏移/ 长度值,并且如果当ES= 1时、3D流由多个格式形成,则通过“ishd”逻辑框来获得格式信 息。在此情况下,“ishd”逻辑框包括关于多个格式的信息。图11是图示了当ES = 2时的根据本发明实施例的SS-VAF的图。在ES = 2的情 况下,在对应的“trak”逻辑框中包括左侧流信息和右侧流信息。由于如上所述将立体数据 转换为预定格式并进行显示,则将左侧流信息和右侧流信息形成为两个轨道。然而,需要示 出左侧流和右侧流之间的关系,以便使得将两个轨道识别为一个对象。例如,如果左侧图像 是主要图像而右侧图像是附加图像,则可能通过表达在具有右侧图像流信息的“trak”逻辑 框和具有左侧图像流信息的“trak”逻辑框之间的关系来去除“ishd”逻辑框中的冗余。如 果在右侧图像流信息中包括的“ishd”中的相机参数和显示信息与在左侧图像流信息中包 括的“ishd”中相同,则可以使用在左侧图像流信息中的“ishd”中包括的信息,而无需附加 描述。为了表达这种关系,在本实施例中引入了 “ tref ”逻辑框和“ svdp,,逻辑框。当与每个格式对应的3D流是由存储为左侧和右侧流的3D流上的多个格式的3D 流形成时,需要检测它的定界符、开始、和长度。通过作为基于ISO的文件格式(14496-12) 的典型逻辑框的“iloc”逻辑框来获得所述开始和长度信息。同样,通过“ishd”逻辑框来 获得与多个格式的3D流的定界符相关的信息。表29示出了根据本发明实施例的单一格式 的“ishd”逻辑框的语法。表 29 “I s_camParams ”表示是否存在相机参数,“ I s_di s Info ”表示是否存在立体内容显 示信息,"Bseline,,表示左侧相机和右侧相机之间的距离,“focallength,,表示从镜头到图 像平面(底片)的距离,而“convergenddistance”表示从基线的中心到会聚点的距离。 基线连接左侧相机和右侧相机,而会聚点是左侧和右侧相机的视线的交叉点。在平行轴相 机的情况下,“COnVergenCe_distance”具有无穷大的值。为了表达它,向所有比特分派1。同样,当“Is_camera_cross”是“1”时,“Is_camera_cross”表示交叉轴相机,而当 “Is_camera_cross” 是 “0” 时,“ Is_camera_cross” 表示平行轴相机。“rotation (旋转)” 表示到对象的相机方位角。“translation(平移)”表示立体相机是否运动(当所有比特 是0时,没有立体相机运动)。“MinofDisparity”表示左侧和右侧图像的最小视差尺寸,而 “MaxofDisparity”表示左侧和右侧图像的最大视差。表30示出了多个格式的“ishd”逻辑框的语法。“Item_Coimt”表示多个格式情况 下的格式的信息描述的数目。“Item_ID”表示每个格式的整体(integer)名称,并且用于标 识立体内容中的各个立体格式。这里,与“iloc”逻辑框的item_ID—起使用该“Item_ID”。
表 30 在下文中,将描述高级视频编码(AVC)和补足增强信息(SEI)。SEI包括具有与解 码和显示相关的消息信息的“立体视频信息SEI”,并且在AVC流内传送SEI消息。图12是包含NAL单元的单一视频基础流的流程图。图12的图a)示出了包括“立 体视频信息SEI”和“reservecLseijnessage”的部分,而图12的图b)示出了 AVC流中的 SEI的位置。表31示出了“立体视频信息SEI”消息。表31 “Field_views_flag” 表示是否存在基于场的立体流。当 “Top_field_is_left_ vieW_flag”是“1”时,它表示以垂直方向交织格式(左侧视图优先)而形成的立体内容,而 当“T0p_field_iS_left_VieW_flag”是“0”时,它表示以垂直方向行交织格式(右侧视图 优先)而形成的立体内容。当“Current_frame_is_left_View_flag”是“1”时,它表示当 前帧表现了左侧视图,而当它是“0 ”时,表示当前帧示出了右侧视图。当“Next_frame_is_ SeCOnd_VieW_flag”是“1”时,它表示立体图像由当前帧和下一帧形成,而当它是“0”时,表 示立体图像由当前帧和前一帧形成。当“Left_view_self_contained_flag”是“1”时,它 表示将流包覆(coat)为与右侧视图没有相关性的独立流,而当它是“0”时,表示基于与右 侧视图的相关性来包覆流。当“Right_VieW_Self_COntained_flag”是“1”时,它表示将流 包覆为与左侧视图没有相关性的独立流,而当它是“0”时,表示基于与左侧视图的相关性来 包覆流。“立体视频信息 SEI” 信息包括 “stereoscopic_composition_type” 之中的表 32 的格式。然而,不支持“并排”格式表 32 在下文中,引入了用于使用典型的AVC SEI信息来服务立体内容的方法和存储格 式。仅当通过AVC来编码立体内容时,它是可能的。引入使用“reserved_sei_message”的SS-VAF,作为添加基于典型的“立体视频信 息SEI”的每个立体流所需的相机参数和显示信息。同样,可以像表33 —样扩展和使用“立 体视频信息SEI”。当“Side_by_Side_flag”是“1”时,在左侧视图优先的情况下,将它形 成为一帧中的左侧图像和右侧图像。当“Side_by_Side_flag”是“0”时,在右侧视图优先 的情况下,将它形成为一帧中的左侧图像和右侧图像。在表33中,“C”表示语法的类别,而 “u(l)”意指使用1比特的“无符号整数”。表 33 表34定义了使用AVC的SEI信息之中的“reserved_sei_message (有效负载尺 寸)”的立体相机信息。这里,可以添加其他的相机信息。可以独立地使用所添加的信息。 基于此,可以获得用于立体内容流的相机参数信息。表 34 表35定义了用于使用AVC的SEI信息之中的“reserved_sei_message (有效负载 尺寸)”来显示立体内容的信息。基于在表35中定义的信息,提取立体内容视差值。表 35 然而,可能通过将上面信息组合为一个SEIjiiessage (SEI消息)来提供立体相机 和显示信息。图13是图示了使用立体视频信息和保留的SEI的SS-VAF的图。在所示的应用格 式中选择性地包括LASeR。在立体内容由2D/3D混合流形成的情况下,通过“ i Ioc ”逻辑框而在3D流片段期 间获得在AVC流SEI消息中定义的3D流信息。这里,3D流信息可以包括“立体视频信息 SEI”、“立体相机信息SEI”、和“立体显示信息SEI”。在立体内容仅仅由单一格式的3D流形 成的情况下,可以使用在AVC流SEI消息中定义的3D流信息来表达立体内容。这里,3D流信息可以包括“立体视频信息SEI”、“立体相机信息SEI”、和“立体显示信息SEI”。图14是图示了当立体内容包括两个基础流(ES)并且仅仅由单一格式立体流形成 时的SS-VAF的图。在ES = 2的情况下,在每个对应的“trak”中包括左侧流信息和右侧流 信息。这里,必须示出左侧流和右侧流之间的关系。例如,如果左侧图像是主要图像而右侧 图像是补充图像,则可能通过示出在包括右侧图像流信息的“trak”逻辑框和包括左侧图像 流信息的另一“trak”逻辑框之间的关系来去除“ishd”信息的冗余。这种关系使用在基于 ISO的文件格式中包括的“tref”逻辑框。它允许描述用于再现所必须的所有trak_ID(轨 道ID)。因此,利用右侧图像流(补充图像)中的“trak”中的“tref”来描述所有的trak_ ID。表36示出了根据本发明实施例的支持各个立体配置格式和相机参数情况下的 “ishd”逻辑框的语法。“item_ID”表示定义了下一信息的项目的ID,并且具有大于1的值。 当“currentjndicator”是“1”时,它表示接下来描述的信息的有效性,而当它是“0”时, 表示先前描述的信息与接下来描述的信息相同。然而,如果item_ID= 1,则它意指不存在 接下来将描述的信息。即,终端基于“currentjndicator”来确定接下来将描述的信息的 有效性,并且当它是0时,确定出它与先前描述的“ishd”信息相同。同样,“LR_first”表示左侧图像和右侧图像的参考位置选择。“ Is_camParams,, 表示是否存在相机参数。“Is_diSplaySafeInf0”表示是否存在立体内容显示信息。 “Baseline”表示左侧相机和右侧相机之间的距离。“focallength”表示从CXD到图像平面 (底片)的距离。当“Isjamencross”是“1”时,它表示交叉轴相机,当它是“0”时,表示 平行轴相机。表 36 此外,“convergencedistance”表示从基线的中心到会聚点的距离(在平行相 机的情况下,“convergencedistance”具有无穷大的值。当所有的比特都是1时,它表示 无穷大的距离。)“rotation (旋转)”表示对于对象的相机方位角,而“translation (平 移)”表示立体相机的运动(当所有的比特都是O时,它表示没有立体相机运动)。同 样,“VertiCalDiSparity(垂直方向视差)”表示左侧和右侧图像的垂直方向视差尺寸, “MinofDisparity”表示左侧和右侧图像的最小水平方向视差尺寸,“MaxofDisparity”表示 左侧和右侧图像的最小视差尺寸,而“项目计数”表示下一阵列中的条目的数目。表37示出了根据本发明第一实施例的用于支持各个相机参数的“ishd”逻辑框的 语法。这里,如果立体配置格式相同,则参考右侧前一“ishd”信息。同样,可以将在“ishd” 中包括的相机参数和显示信息分割到附加逻辑框,并进行存储。 表38示出了根据本发明第二实施例的用于支持各个相机参数的“ishd”逻辑框的 语法。假设立体配置格式相同并且参考右侧前一 “ishd”。表 38 表39示出了根据本发明第三实施例的用于支持各个相机参数的“ishd”逻 辑框的语法。假设立体配置格式相同并且参考诸如“cameParams (相机参数)”和 “displaysafeInfo(显示安全信息)”之类的预定Item_ID。在表39中,当“Is_ref ”是“0”时,它表示不存在所参考的相机参数和显示信息, 而当它是“1”时,表示存在所参考的Item_ID。“currentjeflndex”表示所参考的项目ID。表39 表40示出了根据本发明第四实施例的用于支持各个相机参数的“ishd”逻辑框的 语法。假设立体配置格式相同并且“cameParams”和“displaysafelnfο”参考不同的Item_ ID。表40 在表40中,当“Is^amParamsref”是“0”时,它表示不存在所参考的相机参数信 息,而当它是“1”时,表示存在所参考的Item_ID。当“Ii^displaySafelnforef ”是“0” 时,它表示不存在所参考的显示安全信息,而当它是“1”时,表示存在所参考的Item_ID。 “current_cameralndex “表示所参考的 Item_ID,而“Current_di splay Index"表示所参考 的 Item_ID。可以将“ishd”逻辑框划分为用于记录立体视频媒体信息的“svmi”逻辑框(立体 视频媒体信息逻辑框)和用于记录相机参数和显示信息的“scdi”逻辑框(立体相机和显 示信息逻辑框)。由于“svmi”逻辑框是强制性的而“scdi”逻辑框不是强制性的,所以有利 地将“ishd”逻辑框划分为“svmi,,逻辑框和“scdi,,逻辑框,以便去除不必要的信息。“ svmi ”逻辑框提供立体视觉类型和片段信息。更详细地,立体视频媒体信息包括 关于立体图像配置类型的信息、关于左侧图像和右侧图像之间首先编码的图像的信息、当 立体内容的基础流从立体片段改变为单视场片段或者从单视场片段改变为立体片段时的 关于片段的数目的信息、关于连续采样的数目或者计数开始采样数目的信息、以及关于当 前采样是否是立体的信息。“scdi”逻辑框包括关于是否存在相机参数的信息、左侧相机和右侧相机之间的距 离、左侧和右侧相机的安排、从主要视图相机到子视图相机的相对角、以及在左侧图像和右 侧图像之间的最大视差和最小视差。表41示出了根据本发明实施例的“scdi”逻辑框的语法。表 41 如所示的,可能通过“tref”逻辑框(轨道参考逻辑框)来去除在每个轨道中包括 的“scdi”信息的冗余。当ES = 2时,每个轨道的“iloc”逻辑框划分立体片段,以便提供 “scdi”信息。这里,每个轨道的立体片段具有相同的item_ID以及相同的相机参数和显示 信息。通过“tref”的“svdp”来将基础流划分为主要/补充轨道。尽管仅仅在一个轨道中 包括“iloc”逻辑框,但是当执行3D显示时,可能经由通过立体片段而同步“iloc”逻辑框 来再现它。还可能通过“tref”逻辑框来去除在每个轨道中包括的相同立体视频媒体信息 ("svmi")的冗余。在通过“ftyp”逻辑框来识别立体内容之后,通过“tref”逻辑框的 “svdp”逻辑框来划分主要/补充轨道。如果一个轨道包括“svmi”逻辑框,则可以自动地识 别另一轨道。由于“svmi”逻辑框是强制性的,所以可以在主要/补充轨道中包括它。可以 仅仅在主要轨道中包括“ svmi,,逻辑框。图15是图示了根据本发明实施例的当ES = 2时的SS-VAF的图。如图15所示, SS-VAF包括“ svmi,,逻辑框和“ scdi,,逻辑框。当立体内容包括两个基础流(ES)时,包括两个轨道(“trak”)。可以将它划分为主要轨道和补充轨道。因此,使用补充轨道中的“tref”的“svdp”来参考主要轨道,并 且提供在相关的“scdi”信息中包括的信息。这种结构具有去除在每个轨道中包括的相同 “scdi”信息的冗余的优点。这里,track_ID表示所参考的轨道的ID。如果referencejype 是“svdp”,则它还表示轨道包括用于参考轨道的立体相机和显示信息。当在用户正在利用3D显示模式来观看预定的图像的时候、用户将3D显示模式改 变为2D显示模式时,通过在终端处显示与主要轨道对应的图像来满足2D显示模式。其间, 相同的单视场数据可以存在于具有两个基础流的轨道中的基础流的中间。在单视场数据 中,在两个轨道中存储相同的内容。因此,单视场数据是不能显示为3D的数据。在此情况 下,终端必须决定两个轨道之一,以显示其单视场数据。终端显示与根据本实施例而划分的 主要轨道对应的图像。当立体视频的基础流是两个时,存在两个轨道。通过诸如传统的LASeR之类的场 景描述符来将立体视频识别为两个对象,并且将立体视频连接到LASeR中的两个视频相关 节点。然而,最终,必须将立体视频转换为一个3D视频格式,并且在终端中进行再现。因 此,必须通过LASeR来将它识别为一个对象。即,由于需要将立体视频转换为一个3D视频 格式,以用于再现立体视频的场景,所以它与所使用的一个节点相连。根据本实施例,使用 “tref ”中的“svdp”来将立体视频划分为主要/补充轨道,并且LASeR中的视频相关节点仅 仅链接与主要轨道或媒体流对应的“轨道ID”。图16是图示了根据本发明实施例的用于将立体存储为基于ISO的媒体文件格式 的方法的流程图。首先,在步骤S1602中,在基于ISO的媒体文件格式的“mdat”逻辑框中 存储目标立体内容。然后,在步骤S1604和S1606中,作为立体内容的元数据来在“moov” 逻辑框中存储立体内容的立体视频媒体信息以及立体相机和显示信息。图17是图示了根据本发明另一实施例的用于以基于ISO的媒体文件格式来存储 立体内容的方法的流程图。首先,在步骤S1702中,在基于ISO的媒体文件格式的“mdat” 逻辑框中存储目标立体内容。然后,如果立体内容包括两个基础流,则在步骤S1704中在基 于ISO的媒体文件格式的“tref”逻辑框中存储用于将基础流划分为主要轨道和补充轨道 的信息(“svdp”)。然后,在步骤S1706中,存储用于立体内容的、具有仅仅链接到主要轨 道的视频相关节点的LASeR。这里,不使用链接到LASeR的部分,而仅仅使用“tref ”。图18是图示了根据本发明又一实施例的用于存储立体内容的方法的流程图。这 里,使用如上所述的AVC SEI来存储立体内容。首先,在步骤S1802中存储通过AVC而编码 的立体内容。然后,在步骤S1804中,使用“reserved_sei_message”来存储对于立体内容 的每个流所需的相机参数和显示信息。这里,“立体视频信息SEI”附加地包括表示了立体图像配置是“并排”类型的 信息。相机参数包括左侧相机和右侧相机之间的距离、左侧和右侧一致的焦距(focal_ length)、从基线到会聚点的距离、当左侧和右侧相机彼此交叉时左侧和右侧相机的旋转和 平移中的至少一个。显示信息包括左侧图像和右侧图像之间的最大视差和最小视差。发明模式如上所述,可以将本发明的技术实现为程序,并且存储在诸如⑶-ROM、RAM、ROM、软 盘、硬盘、和磁光盘之类的计算机可读记录介质中。由于本发明领域的技术人员可以容易地 实现该处理,所以在这里将不提供进一步的描述。
尽管已经针对具体实施例而描述了本发明,但是对于本领域技术人员明显的是, 可以做出各种改变和修改,而不脱离由以下权利要求限定的本发明的精神和范围。
权利要求
一种用于存储立体内容的方法,包括存储立体内容的流;以及当立体内容具有多于两个基础流时,在轨道参考逻辑框中存储用于将基础流划分为主要轨道和补充轨道的信息。
2.根据权利要求1的方法,还包括存储包括仅仅链接到主要轨道的视频相关节点的、用于立体内容的场景描述信息。
3.根据权利要求1的方法,其中所述轨道参考逻辑框是基于ISO的媒体文件的“tref” 逻辑框。
4.根据权利要求2的方法,其中将场景描述信息的视频相关节点链接到与主要轨道对 应的轨道标识(ID)或媒体流。
5.根据权利要求2的方法,其中当要以二维显示模式来示出立体内容时,按照仅仅显 示主要轨道的视频的方式来存储立体内容。
6.根据权利要求2的方法,其中当在立体内容中间的基础流中存在相同的单视场数据 时,按照仅仅显示主要轨道的视频的方式来存储立体内容。
7.根据权利要求1的方法,还包括存储关于立体内容的部分信息的立体视频媒体信息,作为立体内容的元数据信息。
8.根据权利要求7的方法,其中向主要轨道或补充轨道、或者向主要轨道和补充轨道 两者提供立体视频媒体信息。
9.根据权利要求1的方法,还包括存储立体内容的立体相机和显示信息,作为立体内容的元数据信息。
10.根据权利要求9的方法,其中向主要轨道或补充轨道提供所述立体相机和显示信肩、o
11.根据权利要求9的方法,其中所述立体相机和显示信息包括立体片段的数目、用 于标识立体部分的项目ID、关于是否存在参考项目ID的信息、和用于提供关于立体部分的 相机和显示信息的参考项目ID之中的至少一个。
12.一种用于存储立体内容的文件格式结构,包括媒体数据逻辑框,用于存储立体内容的流;以及轨道参考逻辑框,用于当立体内容包括多于两个基础流时,存储用于将基础流划分为 主要轨道和补充轨道的信息。
13.根据权利要求12的文件格式结构,还包括被配置为存储包括仅仅链接到主要轨道的视频相关节点的、用于立体内容的场景描述 信息的逻辑框。
14.根据权利要求12的文件格式结构,还包括被配置为存储用于立体内容的部分信息的立体视频媒体信息、作为立体内容的元数据 信息的逻辑框。
15.根据权利要求12的文件格式结构,还包括被配置为存储立体内容的多立体相机和显示信息、作为立体内容的元数据的逻辑框。
16.根据权利要求12的文件格式结构,其中所述文件格式结构是基于ISO的媒体文件 格式,而轨道参考逻辑框是“tref”逻辑框。2
17.一种用于基于高级视频编码(AVC)补足增强信息(SEI)来存储立体内容的方法,包括存储基于AVC而编码的立体内容,其中“立体视频信息SEI”包括指示立体视频是“并排”类型的信息。
18.根据权利要求17的方法,还包括基于“reservecLseijiiessage”来存储对于立体内容的每个流所需的相机参数和显示 fn息o
19.根据权利要求17的方法,其中所述相机参数包括左侧相机和右侧相机之间的距 离、左侧和右侧相同的焦距(focaljength)、基线和会聚点之间的距离、以及当左侧和右侧 相机彼此交叉时左侧和右侧相机的旋转和平移之中的至少一个。
20.根据权利要求17的方法,其中所述显示信息包括左侧和右侧图像之间最大视差和最小视差。
全文摘要
提供了一种用于存储和再现立体数据的元数据结构以及一种用于基于该元数据结构来存储立体内容文件的方法。所述立体内容文件存储方法包括存储立体内容的流;以及,当立体内容具有多于两个基础流时,存储用于将基础流划分为主要轨道和补充轨道的信息。
文档编号H04N13/00GK101897193SQ200880119862
公开日2010年11月24日 申请日期2008年6月19日 优先权日2007年10月10日
发明者尹国镇, 曹叔嬉, 李寿寅, 许南淏, 金镇雄 申请人:韩国电子通信研究院