用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法

文档序号:8927070阅读:468来源:国知局
用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法
【专利说明】用于通过使用频谱模式有效合成正弦曲线和扫描的设备及 方法
[0001] 本发明涉及音频信号编码、解码和处理,并且具体地涉及通过使用频谱模式有效 合成正弦曲线和扫描。
[0002] 音频信号处理变得越来越重要。由于现代感知音频编解码器被要求以越来越低的 比特率来传送满意的音频质量,所以出现了挑战。另外,例如对于双向通信应用或分布式游 戏等而言,可允许的延迟通常也很低。
[0003] 现代波形保留变换音频编码器通常伴随着参数化编码增强如噪声替换或带宽扩 展。除了这些熟知的参数化工具以外,可能还期望在这样的解码器中根据参数化边信息来 合成正弦音调。计算复杂度始终是编解码器发展中的重要标准,原因在于:对于编解码器的 广泛接受和部署而言,低复杂度是必要的。因此,需要的是生成这些音调的有效方式。
[0004] 例如,虽然MPEG-D USAC(MPEG-D =运动图像专家组-D ;USAC =统一语音和音频编 码)音频编解码器通常在时域预测编码和变换域编码之间进行切换,然而音乐内容仍然主 要在变换域中进行编码。在低比特率如<14kbit/s时,音乐项目中的音调成分在通过变换 编码器进行编码时通常不好听,这使得以足够的质量对音频进行编码的任务甚至更具有挑 战性。
[0005] 另外,低延迟约束一般引起变换编码器的滤波器组的次优频率响应(原因是低延 迟优化窗口形状和/或变换长度),并且因此进一步损害这样的编解码器的感知质量。
[0006] 根据传统心理声学模型,对关于量化噪声的透明度的先决条件进行了定义。在高 比特率的情况下,这与遵守人类听觉掩蔽等级的量化噪声的感知适配最佳时间/频率分布 有关。然而,在低比特率的情况下,无法实现透明度。因此,在低比特率的情况下,可以使用 掩蔽等级要求降低策略。
[0007] 已经针对音乐内容提供了一流的编解码器,具体地为基于改进的离散余弦变换 (MDCT)的变换编码器,其在频域中量化并传输频谱系数。然而,在数据速率非常低的情况 下,每个时间帧中的仅很少的频谱线可以通过该帧的可用的比特进行编码。因此,时间调制 伪声和所谓的颤音伪声不可避免地被引入编码信号中。
[0008] 最显著地,在拟稳态音调成分中可以感知到这些类型的伪声。如果由于延迟约束 而必须选择由于公知的泄露效应会在相邻频谱系数(频谱展宽)之间引入显著串扰的变换 窗口形状,则尤其出现该情形。然而,尽管如此,通常这些相邻频谱系数中的仅一个或几个 在由低比特率编码器进行粗量化之后,仍然保持为非零。
[0009] 如上所述,根据现有技术中的一种方法,使用变换编码器。非常适合于对音乐内容 进行编码的现代高压缩率音频编解码器全部依靠于变换编码。最突出的示例是MPEG2/4高 级音频编码(AAC)和MPEG-D统一语音和音频编码(USAC)。USAC具有切换式核心,该切换 式核心与主要意图用于语音编码的代数码激发线性预测(ACELP)模块加上变换编码激励 (TCX)模块(参见[5]) -致,并且替代地,与主要意图用于对音乐进行编码的AAC-致。如 同AAC -样,TCX也是基于变换的编码方法。在低比特率设置的情况下,这些编码方案容易 展现出颤音伪声,尤其在基本编码方案基于改进的离散余弦变换(MDCT)(参见[1])的情况 下。
[0010] 对于音乐再现而言,变换编码器是用于音频数据压缩的优选技术。然而,在低比特 率的情况下,传统变换编码器展现出强颤音和粗糙伪声。大多数伪声来源于过度稀疏编码 的音调频谱成分。在通过次优的频谱变换功能(泄露效应)对这些频谱成分进行频谱涂抹 的情况下,此情形尤其发生,该次优的频谱变换功能主要被设计成满足严格的延迟约束。
[0011] 根据现有技术中的另一种方法,对于瞬变、正弦曲线和噪声而言,编码方案是完全 参数化的。具体地,对于中比特率和低比特率,完全参数化音频编解码器已经被标准化,其 中最突出的是:MPEG-4第三部分,第七子部分,谐波和特征线加噪声(HILN)(参见[2])以 及MPEG-4第三部分,第八子部分,正弦编码(SSC)(参见[3])。然而,参数化编码器遭受令 人不舒服的伪声,并且随着比特速率增加,参数化编码器不会很好地调整以接近感知透明 度。
[0012] 另一种方法提供混合波形和参数化编码。在[4]中,提出了基于变换的波形编码 和MPEG 4-SSC(仅正弦部分)的混合。在迭代的过程中,提取正弦曲线且从信号中减去正弦 曲线来形成残差信号,进而要通过变换编码技术进行编码。所提取的正弦曲线通过参数集 进行编码且与残差一起进行传输。在[6]中,提供了一种分别对正弦曲线和残差进行编码 的混合编码方法。在[7]中,在所谓的受限能量交叠变换(CELT)编解码器/重影网页处, 描绘了利用振荡器组进行混合编码的思想。然而,通过与解码器并行运行并且其输出在时 域中与解码器的合成滤波器组的输出进行混合的振荡器组来生成伪音调意味着巨大的计 算负担,因为很多振荡器必须以高采样率并行地进行计算。计算复杂度始终是编解码器发 展和部署中的重要标准,因此需要的是生成这些音调的更有效的方式。
[0013] 在中比特率或较高比特率的情况下,变换编码器由于其自然的声音而非常适用于 对音乐进行编码。其中,基础心理声学模型的透明度要求得以完全满足或几乎完全满足。然 而,在低比特率的情况下,编码器不得不严重违反心理声学模型的要求,并且在这样的情形 下,变换编码器易于发生颤音伪声、粗糙伪声和音乐噪声伪声。
[0014] 尽管完全参数化音频编解码器最适合于较低的比特率,但是,已知的是这些音频 编解码器发出令人不舒服的伪声。此外,这些编解码器并不无缝地调整至感知透明度,因为 相当粗糙的参数化模型的逐步细化并不可行。
[0015] 混合波形和参数化编码可以潜在地克服个别方法的限制,并且可以潜在地受益于 两种技术的相互正交的特性。然而,在当前的先进技术下,混合波形和参数化编码由于混合 编解码器的变换编码部分与参数化部分之间缺乏相互作用而受到阻碍。问题涉及:参数化 部分与变换编解码器部分之间的信号分割、变换部分与参数化部分之间的比特预算操控、 用信号发出参数的技术以及参数化输出与变换编解码器输出的无缝合并。
[0016] 本领域中另外的先前出版物涉及直接在时域中合成正弦音调,或在DFT频域中合 成逐段恒定的音调[13],并且涉及在DFT域中对截断模式的SNR最优化[12]。已经描述了 在感知编解码器环境中基于MDCT频谱嵌入逐段恒定频率音调[10]或带宽拓展情形[11]。 然而,似乎既没有解决在MDCT域中对扫描及其与无缝轨迹的链接的有效生成,也没有解决 在参数空间中对可用自由度的合理限制的定义。
[0017]本发明的目的是提供用于混合音频解码的改进概念。本发明的目的由以下项来实 现:根据权利要求1所述的设备、根据权利要求14所述的设备、根据权利要求20所述的方 法、根据权利要求21所述的方法以及根据权利要22所述的计算机程序。
[0018] 提供了一种基于编码音频信号频谱生成音频输出信号的设备。
[0019] 该设备包括处理单元,其用于对编码音频信号频谱进行处理,以获得包括多个频 谱系数的解码音频信号频谱,其中,每个频谱系数具有频谱值和在编码音频信号频谱内的 频谱位置,其中,频谱系数根据其在编码音频信号频谱内的频谱位置依次被排序,使得频谱 系数形成频谱系数序列。
[0020] 此外,该设备包括伪系数确定器,其用于确定解码音频信号频谱的一个或更多个 伪系数,每个伪系数具有频谱位置和频谱值。
[0021] 此外,该设备包括替换单元,其通过确定的频谱模式来替换至少一个或更多个伪 系数以获得修改的音频信号频谱,其中,确定的频谱模式包括至少两个模式系数,其中,至 少两个模式系数中的每个具有频谱值。
[0022] 此外,该设备包括频谱时间转换单元,其用于将修改的音频信号频谱转换至时域 以获得音频输出信号。
[0023] 在实施方式中,该设备还可以包括存储单元,其包括数据库或存储器,在数据库内 或在存储器内存储有多个存储的频谱模式,其中,存储的频谱模式中的每个具有某一频谱 特性(例如,恒定频率、扫描频率一一每个在频点上或频点间的位置版本中等)。替换单元 可以被配置成向存储单元请求存储的频谱模式中的一个作为请求的频谱模式。存储单元可 以被配置成提供所述请求的频谱模式,并且替换单元可以被配置成通过基于请求的频谱模 式的确定的频谱模式来替换至少一个或更多个伪系数。
[0024] 根据实施方式,替换单元可以被配置成:取决于从由伪系数确定器确定的一个或 更多个伪系数中的至少一个而导出的第一导出频谱位置,向存储单元请求所述存储的存储 模式中的一个。
[0025] 在一种实施方式中,从一个或更多个伪系数中的至少一个导出的第一导出频谱位 置可以是伪系数中的一个的频谱位置。
[0026] 在另一实施方式中,一个或更多个伪系数是带符号的值,每个伪系数包括符号成 分,并且替换单元被配置成基于一个或更多个伪系数中的一个伪系数的频谱位置且基于所 述伪系数的符号成分来确定第一导出频谱位置,使得当所述符号成分具有第一符号值时, 第一导出频谱位置等于所述伪系数的频谱位置,并且使得当所述符号号成分具有不同的第 二值时,第一导出频谱位置等于修改的位置,所述修改的位置是通过将所述伪系数的频谱 位置偏移预定义值而产生的。
[0027]例如,伪线的二分之一频点频率分辨率可以由所述伪系数的符号通过信号发送。 当伪系数的符号成分具有第二符号值时,所述伪系数的频谱位置所偏移的预定义值则可以 对应于频率差的二分之一,例如当考虑时频域时,所述频率差为两个随后的频点的频率差。 [0028] 伪系数的符号成分可以由伪系数的频谱值组成。
[0029] 在实施方式中,存储在存储单元的数据库或存储器内的多个存储的频谱模式可以 是固定音调模式或频率扫描模式。伪系数确定器可以被配置成:确定解码音频信号频谱的 两个或更多个时间上连续的伪系数。替换单元可以被配置成:取决于从第一伪系数导出的 第一导出频谱位置与从第二伪系数导出的第二导出频谱位置之间的绝对差是否小于阈值, 将两个或更多个时间上连续的伪系数中的第一伪系数和第二伪系数分配给轨迹。并且替换 单元可以被配置成:当从轨迹的第一伪系数导出的第一导出频谱位置等于从轨迹的第二伪 系数导出的第二导出频谱位置时,向该存储单元请求固定音调模式中的一个。此外,替换单 元可以被配置成:当从轨迹的第一伪系数导出的第一导出频谱位置不同于从轨迹的第二伪 系数导出的第二导出频谱位置时,向存储单元请求频率扫描模式中的一个。
[0030] 根据实施方式,替换单元可以被配置成:当从轨迹的第二伪系数导出的第二导出 频谱位置与从轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于预定义值的 二分之一时,向存储单元请求频率扫描模式中的第一频率扫描模式。此外,替换单元可以被 配置成:当从轨迹的第二伪系数导出的第二导出频谱位置与从轨迹的第一伪系数导出的第 一导出频谱位置之间的频率差等于预定义值时,向存储单元请求频率扫描模式中的第二频 率扫描模式,其不同于第一频率扫描模式。此外,替换单元可以被配置成:当从轨迹的第二 伪系数导出的第二导出频谱位置与从轨迹的第一伪系数导出的第一导出频谱位置之间的 频率差等于预定义值的1. 5倍时,向存储单元请求频率扫描模式中的第三频率扫描模式, 其不同于第一扫描模式和第二频率扫描模式。
[0031] 根据实施方式,替换单元包括模式适配单元,该模式适配单元被配置成:对由存储 单元提供的请求的频谱模式进行修改,以获得确定的频谱模式。
[0032]在实施方式中,模式适配单元可以被配置成:取决于一个或更多个伪系数中的一 个的频谱值对请求的频谱模式的模式系数的频谱值进行重新调整,来对由存储单元提供的 请求的频谱模式进行修改,以获得确定的频谱模式。
[0033]根据实施方式,模式适配单元可以被配置成:取决于起始相位来对由存储单元提 供的请求的频谱模式进行修改,使得当起始相位具有第一起始相位值时,以第一方式对请 求的频谱模式的每个模式系数的频谱值进行修改,并且使得当起始相位具有不同的第二起 始相位值时,以不同的第二方式对请求的频谱模式的每个模式系数的频谱值进行修改。 [0034]根据实施方式,请求的频谱模式的每个模式系数的频谱值可以是包括实部和虚部 的复数系数。在这样的实施方式中,模式适配单元可以被配置成通过以下操作对请求的频 谱模式进行修改:通过应用复数旋转因子以' 对由存储单元提供的请求的频谱模式的每 个模式系数的实部和虚部进行修改,其中,是角度(例如,角度值)。由此,对于每个复数 系数而言,表示复数平面中的所述复数系数的向量被旋转对于每个复数系数相同的角度。 [0035]在实施方式中,请求的频谱模式的每个模式系数的频谱值包括实部和虚部。模式 适配单元可以被配置成通过以下操作对由存储单元提供的请求的频谱模式进行修改:对请 求的频谱模式的每个模式系数的频谱值的实部和虚部进行求反,或者将请求的频谱模式的 每个模式系数的频谱值的实部或求反的实部与虚部或求反的虚部进行交换。
[0036]在实施方式中,模式适配单元可以被配置成通过实现模式的时间镜像来对由存储 单元提供的请求的频谱模式进行修改。通常,这在频域中可以通过计算模式的复共轭(通 过将虚部乘以-1)并且应用复数相位项(转动)而获得。
[0037]根据实施方式,解码音频信号频谱在MDCT域中表示。模式适配单元可以被配置 成:通过对请求的频谱模式的模式系数的频谱值进行修改来对由存储单元提供的请求的频 谱模式进行修改,以获得修改的频谱模式,其中,频谱值在奇数堆叠式离散傅里叶变换域中 表示。此外,模式适配单元可以被配置成:将修改的频谱模式的模式系数的频谱值从奇数堆 叠式离散傅里叶变换域变换至MDCT域,以获得确定的频谱模式。此外,替换单元可以被配 置成:通过在MDCT域中表示的确定的频谱模式来替换至少一个或更多个伪系数,以获得在 MDCT域中表示的修改的音频信号频谱。
[0038]替代地,在实施方式中,频谱值可以在复数改进的离散余弦变换(CMDCT)域中表 示。此外,在这些实施方式中,模式适配单元可以被配置成:通过仅提取复数修改的模式的 实部来将修改的频谱模式的模式系数的频谱值从CMDCT域变换至MDCT域,以获得确定的频 谱模式。
[0039]此外,提供了一种用于生成多个频谱模式的设备。该设备包括用于在第一域中生 成多个信号的信号生成器。此外,该设备包括信号变换单元,其用于将多个信号中的每个信 号从第一域变换至第二域,以获得多个频谱模式,多个变换的频谱模式中的每个模式包括 多个系数。此外,该设备包括后处理单元,其用于通过移除变换的频谱模式的系数中的一个 或更多个来将变换的频谱模式截断,以获得多个处理的模式。此外,该设备包括存储单元, 其包括数据库或存储器,其中,存储单元被配置成将多个处理的模式中的每个处理的模式 存储在数据库或存储器中。信号生成器被配置成基于以下公式来生成多个信号中的每个信 号:
[0041]以及
[0043] 其中,t和T表不时间,其中,(p(t);是在t处的瞬时相位,并且其中f ( "〇是在T 处的瞬时频率,其中,多个信号中的每个信号具有起始频率(4)和目标频率(fj,起始频率 (f〇)是所述信号在第一时间点处的瞬时频率,目标频率(fi)是所述信号在不同的第二时间 点处的瞬时频率。信号生成器被配置成生成多个信号中的第一信号,使得第一信号的目标 频率等于起始频率。此外,信号生成器被配置成生成多个信号中的不同的第二信号,使得第 一信号的目标频率不同于起始频率。
[0044] 根据实施方式,信号变换单元可以被配置成将多个信号中的每个信号从第一域变 换至第二域,第一域是时域,第二域是频谱域。信号变换单元可以被配置成生成用于对所 述信号进行变换的多个时间块中的第一时间块,其中,多个时间块中的每个时间块包括多 个加权的样本,其中,每个所述加权的样本是通过多个权重中的一个权重进行加权的所述 信号的信号样本,其中,将多个权重分配给所述时间块,并且其中,将多个权重中的每个权 重分配给时间点。多个信号中的每个信号的起始频率(4)可以是所述信号在第一时间点 处的瞬时频率,其中,将时间块中的第一时间块的权重中的第一权重分配给第一时间点,其 中,将时间块中的不同的第二时间块的权重中的第二权重分配给第一时间点,其中,时间块 中的第一时间块与时间块中的第二时间块交叠,并且其中,权重中的第一权重等于权重中 的第二权重。多个信号中的每个信号的目标频率(f\)可以是所述信号在第二时间点处的 瞬时频率,其中,将时间块中的第一时间块的权重中的第三权重分配给第二时间点,其中, 将时间块中的不同的第三时间块的权重中的第四权重分配给第二时间点,其中,时间块中 的第一时间块与时间块中的第三时间块交叠,并且其中,权重中的第三权重等于权重中的 第四权重。
[0045] 应注意,例如,对于模式的生成而言,生成仅一个时间块(例如,时间块中的第一 时间块)就足够了。
[0046] 根据实施方式,多个信号中的每个信号具有起始相位()和目标相位(91), 起始相位(cp〇)是所述信号在第一时间点处的相位,目标相位(9i)是所述信号在不同的 第二时间点处的相位,其中,信号生成器被配置成生成多个信号,使得多个信号中的第一信 号的起始相位()等于多个信号中的不同的第二信号的起始相位(9〇 乂
[0047] 可以在所述起始时间点和终止时间点处对多个信号中的每个信号的起始相位 (以及终止相位,其通过对起始频率和目标频率的选择而暗示)进行调整。
[0048] 通过对起始时间点和终止时间点的这种特殊选择,减少了在具有不同频谱特性的 模式被链接的情况下可能发生的交叠相加伪声。
[0049] 在实施方式中,后处理单元还可以被配置成:对每个变换的频谱模式的频谱系数 进行n/4的旋转,以获得多个旋转的频谱模式。
[0050] 在另一实施方式中,后处理单元还可以被配置成:对每个变换的频谱模式的频谱 系数进行任意相位角的旋转,以获得多个任意旋转的频谱模式。
[0051] 根据进一步的实施方式,信号生成器可以被配置成生成第一信号、第二信号以及 一个或更多个进一步的信号来作为多个信号,使得每个进一步的信号的目标频率与起始频 率的各个差是第二信号的目标频率与起始频率的差的整数倍。
[0052] 此外,提供了一种基于编码音频信号频谱来生成音频输出信号的方法。该方法包 括:
[0053] _处理编码音频信号频谱以获得包括多个频谱系数的解码音频信号频谱,其中,每 个频谱系数具有频谱值和在编码音频信号频谱内的频谱位置,其中,频谱系数根据其在编 码音频信号频谱内的频谱位置依次被排序,使得频谱系数形成频谱系数序列;
[0054]-确定解码音频信号频谱的一个或更多个伪系数,其中,每个伪系数是频谱系数中 的一个;
[0055] _通过确定的频谱模式替换至少一个或更多个伪系数以获得修改的音频信号频 谱,其中,确定的频谱模式包括至少两个模式系数,其中,至少两个模式系数中的每个具有 频谱值;以及:
[0056]-将修改的音频信号频谱转换至时域以获得音频输出信号。
[0057] 此外,提供了一种用于生成多个频谱模式的方法。该方法包括:
[0058] _在第一域中生成多个信号;
[0059] _将多个信号中的每个信号从第一域变换至第二域以获得多个频谱模式,多个变 换的频谱模式中的每个模式包括多个系数;
[0060]-通过移除变换的频谱模式的系数中的一个或更多个来将变换的频谱模式截断, 以获得多个处理的模式;以及
[0061]-将多个处理的模式中的每个处理的模式存储在数据库或存储器中。
[0062] 基于以下公式来进行多个信号中的每个信号的生成:
[0064] 以及
[0066] 其中,t和t表示时间,其中,(j) (t)是在t处的瞬时相位,并且其中,f(T)是 在T处的瞬时频率,其中,多个信号中的每个信号具有起始频率%)和目标频率的),起 始频率(4)是所述信号在第一时间点处的瞬时频率,目标频率(fi)是所述信号在不同的第 二时间点处的瞬时频率。
[0067] 通过以下操作来进行多个信号的生成:生成多个信号中的第一信号,使得第一信 号的目标频率(fj等于起始频率(4)。此外,通过以下操作
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1