高效率对象元数据编码的装置及方法

文档序号:9713662阅读:540来源:国知局
高效率对象元数据编码的装置及方法
【技术领域】
[0001] 本发明涉及音频编码/解码,特别地涉及空间音频编码以及空间音频对象编码,更 特别地涉及高效率对象元数据编码。
【背景技术】
[0002] 空间音频编码工具是此技术领域中所熟知的,例如,在环绕MPEG标准中已有标准 化规范。空间音频编码从原始输入声道开始,例如在再现装备中根据其位置而识别的五个 或七个声道,即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空 间音频编码器通常从原始声道得到至少一个降混合声道,以及另外得到关于空间线索的参 数数据,例如声道相干数值的声道间水平差异、声道间相位差异、声道间时间差异等等。至 少一个降混合声道与指示空间线索的参数化辅助信息(parametric side information,或 称为参数边信息、参数侧信息或参数侧边信息)一起传送到空间音频解码器,空间音频解码 器解码降混声道以及相关联的参数数据,最后获得为原始输入声道的近似版本的输出声 道。声道在输出装备中的放置通常为固定,例如,5.1声道格式或7.1声道格式等等。
[0003] 此种基于声道的音频格式广泛使用于储存或者传送多声道音频内容,而每一个声 道关于在给定位置的特定扬声器。这些种类格式的忠实再现,需要扬声器设备,其中扬声器 放置在与音频信号生产期间使用的扬声器相同的位置。增加扬声器数量可改进真实三维虚 拟现实场景,但是满足此要求是越来越困难的,尤其是在家庭环境中,像是客厅。
[0004] 可用于对象为基础的方法来克服对特殊扬声器设备的需求,在以对象为基础的方 法中扬声器信号特别针对播放方案来渲染。
[0005] 例如,空间音频对象编码工具是此技术领域中所熟知的且在MPEG SAOC(SA0C = spatial audio object coding空间音频对象编码)标准中已成标准。相比于空间音频编码 从原始声道开始,空间音频对象编码从非自动专为特定渲染再现装备的音频对象开始。代 替地,音频对象在再现场景中的位置可变化,且可由使用者通过将特定的渲染信息输入至 空间音频对象编码解码器来确定。可选地或另外,渲染信息,即在再现装备中特定音频对象 待放置的位置信息,以额外的辅助信息或元数据来传送。为了获得特定的数据压缩,由SA0C 编码器来编码多个音频对象,SA0C编码器根据特定的降混合信息来降混合对象以从输入对 象计算至少一个传输声道。此外,SA0C编码器计算参数化辅助信息,其代表对象间线索,例 如对象水平差异(0LD)、对象相干数值等等。当在空间音频编码(SAC)中,对象间参数数据针 对单独时间平铺/频率平铺来计算,即,针对音频信号的特定帧(例如,1024或2048个样本), 考虑多个频带(例如24、32或64个频带等等),使得对于每一帧以及每一频带皆存在参数数 据。作为举例,当音频片具有20个帧且当每一帧细分成32个频带,则时间/频率平铺的数量 为640。
[0006] 在以对象为基础的方法中,以分离式音频对象来描述音场。此需要对象元数据,其 描述在3D空间中每一个声源的时变位置。
[0007] 在现有技术中,第一元数据编码编码概念为空间声音描述交换格式(SpatDIF),而 音频场景描述格式目前尚在开发中[1 ]。音频场景描述格式为以对象为基础的声音场景交 换格式,其并没有提供任何压缩对象轨迹的方法。SpatDIF将以文字为基础的开放性声音控 制(OSC)格式使用于对象元数据的结构[2]。然而,简单以文字为基础的表现并非为对象轨 迹的压缩传输的选项。
[0008] 在现有技术中,另一个元数据概念为音频场景描述格式(ASDF)[3],其是具有相同 的缺点的以文字为基础的解决方案。此数据通过同步多介质集成语言(SMIL)的延伸所建 构,该同步多介质集成语言(SMIL)为可延伸标记式语言(XML)[4,5]的子集合。
[0009] 在现有技术中的另一个元数据概念为场景的音频二进制格式(AudioBIFS),为 MPEG-4标准的一部分的二进制格式[6,7]。其高度关于基于XML的虚拟现实建模语言 (VRML),其已开发应用于音频虚拟3D场景以及交互式虚拟现实[8]。复杂的AudioBIFS标准 使用场景图以指定对象移动的路径。AudioBIFS主要的缺点在于并非设计用于实时操作,其 中会使有限的系统延迟并且需要随机读取数据流。此外,对象位置的编码不运用受限的听 者的定位能力。在音频虚拟场景中的听者有固定位置时,则对象数据可量化成较低的位数
[9] 。因此,应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。
[0010] 如果能提供改善的高效率的对象元数据编码概念,将会获得高度的赞赏。

【发明内容】

[0011] 本发明的目的用于提供改善的高效率的对象元数据编码的概念。本发明的目的通 过权利要求1的装置、权利要求8的装置、权利要求14的系统、权利要求15的方法、权利要求 16的方法以及权利要求17的计算机程序来达成。
[0012] 本发明提供一种用于产生至少一个音频声道的装置。该装置包含元数据解压缩 器,用于接收至少一个压缩元数据信号。每一个压缩元数据信号包含多个第一元数据样本。 每一个压缩元数据信号中的第一元数据样本指示与至少一个音频对象信号中的音频对象 信号相关联的信息。元数据解码器用于产生至少一个重建元数据信号,使得每一个重建元 数据信号包含至少一个压缩元数据信号中的其中一个的多个第一元数据样本以及进一步 包含多个第二元数据样本。元数据解码器用于根据重建元数据信号的至少两个第一元数据 样本,产生每一个重建元数据信号的每一个第二元数据样本。此外,该装置包含音频声道发 生器,音频声道发生器用于根据至少一个音频对象信号以及至少一个重建元数据信号而产 生至少一个音频声道。
[0013] 此外,本发明提供一种用于产生编码音频信息的装置,该编码音频信息包含至少 一个编码音频信号以及至少一个压缩元数据信号。此装置包含:元数据编码器,用于接收至 少一个原始元数据信号。每一个原始元数据信号包含多个元数据样本。每一个原始元数据 信号中的元数据样本指示与至少一个音频对象信号中的音频对象信号相关联的信息。元数 据编码器用于产生至少一个压缩元数据信号,使得每一压缩元数据信号包含一个原始元数 据信号的至少两个元数据样本的第一组,以及使得压缩元数据信号不包含所述一个原始元 数据信号的另外至少两个元数据样本的第二组的任何元数据样本。此外,该装置包含音频 编码器,该音频编码器用于编码至少一个音频对象信号以获得至少一个编码音频信号。 [0014]此外,提供了一种系统。该系统包含用于产生编码音频信息的装置,该编码音频信 息包含至少一个编码音频信号以及至少一个压缩元数据信号,如上所述。此外,该系统包含 用于接收至少一个编码音频信号以及至少一个压缩元数据信号的装置,该装置用于根据至 少一个编码音频信号以及至少一个压缩元数据信号产生至少一个音频声道,如上所述。
[0015] 根据实施例,提供用于对象元数据的数据压缩概念,其达成用于具有限的数据速 率的传输声道为有效的压缩机制。此外,对于纯方位变化的良好压缩率得以实现,例如照相 机旋转。此外,该提供的概念支持不连续的轨迹,例如位置的跳跃。此外,也能实现低解码复 杂度。此外,可实现有限的重新初始化时间下的随机存取。
[0016] 此外,本发明提供一种用于产生至少一个音频声道的方法。该方法包含:
[0017] -接收至少一个压缩元数据信号,其中每一个压缩元数据信号包含多个第一元数 据样本,其中每一个压缩元数据信号中的第一元数据样本指示与至少一个音频对象信号中 的音频对象信号相关联的信息;
[0018] -产生至少一个重建元数据信号,使得每一个重建元数据信号包含至少一个压缩 元数据信号中的其中一个的第一元数据样本,以及进一步包含多个第二元数据样本,其中 产生至少一个重建元数据信号的步骤包含根据重建元数据信号的至少两个第一元数据样 本产生每一个重建元数据信号的每一个第二元数据样本的步骤;
[0019] -根据至少一个音频对象信号以及至少一个重建元数据信号产生至少一个音频声 道。
[0020] 此外,提供了一种用于产生编码音频信息的方法,编码音频信息包含至少一个编 码音频信号以及至少一个压缩元数据信号。此方法包含:
[0021] -接收至少一个原始元数据信号,其中每一原始元数据信号包含多个元数据样本, 其中每一原始元数据信号的元数据样本指示与至少一个音频对象信号中的音频对象信号 相关联的息;
[0022] -产生至少一个压缩元数据信号,使得每一压缩元数据信号包含一个原始元数据 信号的至少两个元数据样本的第一组,以及使得压缩元数据信号不包含所述一个原始元数 据信号的另外至少两个元数据样本的第二组的任何元数据样本;
[0023] -编码至少一个音频对象信号以获得至少一个编码音频信号。
[0024] 此外,本发明提供一种计算机程序,当此计算机程序于计算机或者信号处理器上 执行时,计算机程序用于实现上述的方法。
【附图说明】
[0025] 下面参考附图讨论本发明的实施例,其中:
[0026] 图1示出根据实施例的用于产生至少一个音频声道的装置;
[0027] 图2示出根据实施例的用于产生编码音频信息的装置,编码音频信息包含至少一 个编码音频信号以及至少一个压缩元数据信号;
[0028]图3示出根据实施例的系统;
[0029] 图4示出在从原点开始的三维空间中通过方位角、仰角以及半径表示的音频对象 的位置;
[0030] 图5示出音频声道发生器采用的音频对象以及扬声器装备的位置;
[0031] 图6示出根据实施例的元数据编码;
[0032]图7示出根据实施例的元数据解码;
[0033] 图8示出根据另一实施例的元数据编码;
[0034] 图9示出根据另一实施例的元数据解码;
[0035] 图10示出根据另一实施例的元数据编码;
[0036] 图11示出根据另一实施例的元数据解码;
[0037]图12示出3D音频编码器的第一实施例;
[0038]图13示出3D音频解码器的第一实施例;
[0039]图14示出3D音频编码器的第二实施例;
[0040]图15示出3D音频解码器的第二实施例;
[00411图16示出3D音频编码器的第三实施例;
[0042]图17示出3D音频解码器的第三实施例。
【具体实施方式】
[0043]图2示出根据实施例的用于产生编码音频信息的装置250,编码音频信息包含至少 一个编码音频信号以及至少一个压缩元数据信号。
[0044]装置250包含元数据编码器210,用于接收至少一个原始元数据信号。每一个原始 元数据信号包含多个元数据样本。至少一个原始元数据信号中的每一个的元数据样本指示 与至少一个音频对象信号中的音频对象信号相关联的信息。元数据编码器210用于产生至 少一个压缩元数据信号,使得每一压缩元数据信号能包含一个原始元数据信号的至少两个 元数据样本的第一组,以及使得压缩元数据信号不包含该一个原始元数据信号的另外至少 两个元数据样本的第二组的任何元数据样本。
[0045] 此外,装置250包含音频编码器220,用于编码至少一个音频对象信号以获得至少 一个编码音频信号。例如,音频声道发生器可包含SA0C编码器,该SA0C编码器根据现有技术 编码至少一个音频对象信号,以获得至少一个SA0C传输声道并作为至少一个编码音频信 号。各种其他用于编码至少一个音频对象声道的编码技术可替换或额外地用于编码所述至 少一个音频对象声道。
[0046] 图1示出根据实施例的用于产生至少一个音频声道的装置100。
[0047] 装置100包含元数据解码器110,用于接收至少一个压缩元数据信号。每一个压缩 元数据信号包含多个第一元数据样本。每一个压缩元数据信号的第一元数据样本指示与至 少一个音频对象信号中的音频对象信号相关联的信息。元数据解码器110用于产生至少一 个重建元数据信号,使得每一个重建元数据信号包含至少一个压缩元数据信号中的其中一 个的第一元数据样本以及进一步包含多个第二元数据样本。此外,元数据解码器110用于根 据重建元数据信号的至少两个第一元数据样本,产生每一个重建元数据信号的每一个第二 元数据样本。
[0048]此外,装置100包含音频声道发生器120,该音频声道发生器120用于根据至少一个 音频对象信号以及至少一个重建元数据信号而产生至少一个音频声道。
[0049]当参阅元数据样本时,应当注意的是,元数据样本的特征在于其元数据样本值以 及与其相关的时间点。例如,此类时间点可与音频序列或其相似物的起始相关。例如,指数η 或k可辨识在元数据信号内的元数据样本的位置,并因此指示出(相关的)时间点(其与起始 时间相关)。应当注意的是,当两个元数据样本与不同时间点相关时,该两个元数据样本不 同于其他的元数据样本,即使当它们的元数据样本值相同时,有时也会出现这样的情况。
[0050] 上述的实施例基于以下发现:与音频对象信号相关联的(包含于元数据信号的)元 数据信息常变化缓慢。
[0051] 例如,元数据信号可指示音频对象的位置信息(例如用于定义音频对象的位置的 方位角、仰角或半径)。可以假设音频对象的位置在大部分的时间不会改变或仅缓慢地改 变。
[0052] 或者,元数据信号可例如指示音频对象的音量(例如增益),并且也可以假设音频 对象的音量在大部分的时间缓慢地改变。
[0053] 基于这个原因,在每个时间点并不需要传递(完整的)元数据信息。相反地,(完整 的)元数据信息仅在特定时间点传递,例如周期性地,例如在每N个时间点,例如在时间点0、 N、2N、3N等。在解码器侧上,对于中间的时间点(例如时间点1、2...N-1),元数据可接着基于 至少两个时间点的元数据样本进行近似。在解码器侧上,例如,时间点1、2···Ν-1的元数据样 本可根据时间点〇以及Ν的元数据样本进行近似,例如采用线性内插法。如前所述,此类方法 基于以下发现:音频对象的元数据信息通常缓慢地改变。
[0054] 例如,在实施例中,三个元数据信号指定在3D空间中的音频对象的
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1