语音处理装置、语音处理方法和程序的利记博彩app

文档序号:2832720阅读:234来源:国知局
专利名称:语音处理装置、语音处理方法和程序的利记博彩app
技术领域
本发明涉及一种语音处理装置、语音处理方法和程序,且更具体地涉及一种当多声道音频信号被下混合(downmix)和编码时在音频信号解码时防止延迟和计算量增加的语音处理装置、语音处理方法和程序。
背景技术
对多声道音频信号编码的编码装置可以通过利用声道之间的关系执行高度有效的编码。这一编码例如包括强度编码、Μ/S立体声编码和空间编码。执行空间编码的编码装置将η声道音频信号下混合成m (m〈n)声道音频信号并且对信号编码,找出在下混合时表示声道间关系的空间参数并将空间参数与编码数据一起发送。接收空间参数和编码数据的解码装置对编码数据解码并且使用空间参数从作为解码的结果而获得的m声道音频信号恢复原始的η声道音频信号。这一空间编码被称为“双耳线索编码”。对于空间参数(下文称为“BC参数”),例如使用 ILD (Inter-channel Level Difference,声道间电平差值)、IPD (Inter-channelPhase Difference,声道间相位差值)和 ICC (Inter-channel Correlation,声道间相关性)。ILD指代如下参数,该参数指示声道间信号的量的比值。IF1D指代如下参数,该参数指示声道间相位差值,而ICC指代如下参数,该参数指示声道间相关性。图I是图示了执行空间编码的编码装置的配置例子的框图。此外,为了易于描述,n=2并且m=l。也就是说,编码对象音频信号是立体声音频信号(下文称为“立体声信号”),并且作为编码的结果而获得的编码数据是单耳音频信号(下文称为“单耳信号”)的编码数据。图I中的编码装置10包括声道下混合单元11、空间参数检测单元12、音频信号编码单元13和复用单元14。编码装置10接收包括左音频信号\和右音频信号XR的立体声信号的输入作为编码对象,并且输出单耳信号的编码数据。更具体而言,编码装置10的声道下混合单元11将作为编码对象而输入的立体声信号下混合成单耳信号XM。另外,声道下混合单元11向空间参数检测单元12和音频信号编码单元13提供单耳信号。空间参数检测单元12基于从声道下混合单元11提供的单耳信号Xm和作为编码对象而输入的立体声信号检测BC参数,并且将BC参数提供给复用单元14。音频信号编码单元13对从声道下混合单元11提供的单耳信号编码,并将结果得到的编码数据提供给复用单元14。复用单元14复用和输出从音频信号编码单元13提供的编码数据和从空间参数检测单元12提供的BC参数。图2是图示了图I中的音频信号编码单元13的配置例子的框图。此外,图2中的音频信号编码单元13采用如下配置,其中音频信号编码单元13根据例如 MPEG-2AAC LCCMoving Picture Experts Group phase 2 Advanced Audio CodingLow Complexity,运动图片专家组第2阶段高级音频编码低复杂度)简档执行编码。同时,在图2中简化和图示了该配置以便于描述。图2中的音频信号编码单兀13包括MDCT (Modified Discrete CosineTransform,改进型离散余弦变换)单元21、频谱量化单元22、熵编码单元23和复用单元24。MDCT单元21执行从声道下混合单元11提供的单耳信号的MDCT,并将单耳信号(该信号是时域信号)变换成MDCT系数(该系数是频域系数)。MDCT单元21向频谱量化单元22提供作为变换的结果而获得的MDCT系数作为频率频谱系数。频谱量化单元22量化从MDCT单元21提供的频率频谱系数,并 向熵编码单元23提供该频率频谱系数。另外,频谱量化单元22向复用单元24提供量化信息(该信息是与上述量化有关的信息)。量化信息例如包括比例因子和量化位信息。熵编码单元23执行从频谱量化单元22提供的量化频率频谱系数的熵编码(比如霍夫曼编码或者算术编码),并无损压缩该频率频谱系数。熵编码单元23向复用单元24提供作为熵编码的结果而获得的数据。复用单元24复用从熵编码单元23提供的数据和从频谱量化单元22提供的量化信息,并向复用单元14 (图I)提供所得数据作为编码数据。图3是图示了图I中的音频信号编码单元13的另一配置例子的框图。此外,图3中的音频信号编码单元13采用如下配置,该配置例如根据MPEG-2AACSSR (Scalable Sample Rate,可伸缩采样速率)简档或者MP3 (MPEG音频层3)执行编码。同时,在图3中简化和图示了该配置以便于描述。图3中的音频信号编码单元13包括分析滤波器组31、MDCT单元32_1至32-N (N是任意整数)、频谱量化单元33、熵编码单元34和复用单元35。分析滤波器组31例如包括QMF (Quadrature Mirror Filterbank,正交镜滤波器组)组或者PQF (Poly-phase Quadrature Filter,多相正交滤波器)组。分析滤波器组31根据频率将从声道下混合单元11提供的单耳信号划分成N组。分析滤波器组31向MDCT单元32-1至32-N提供作为划分的结果而获得的N个子频带信号。MDCT单元32-1至32-N各自执行从分析滤波器组31提供的子频带信号的MDCT,并且将子频带信号(该信号是时域信号)变换成MDCT系数(该系数是频域系数)。另外,MDCT单元32-1至32-N各自向频谱量化单元33提供每个子频带信号的MDCT系数作为频率频谱系数。频谱量化单元33量化从MDCT单元32_1至32_N提供的N个频率频谱系数中的每个频率频谱系数,并且将该N个频率频谱系数提供给熵编码单元34。另外,频谱量化单元33向复用单元35提供关于该量化的量化信息。熵编码单元34执行从频谱量化单元33提供的量化的N个频率频谱系数中的每个频率频谱系数的熵编码(比如霍夫曼编码或者算术编码),并且无损压缩N个频率频谱系数。熵编码单元34向复用单元35提供作为熵编码的结果而获得的N个数据项。复用单元35复用从熵编码单元34提供的N个数据项和从频谱量化单元33提供的量化信息,并且向复用单元14 (图I)提供所得数据作为编码数据。图4是图示了解码装置的配置例子的框图,该解码装置对由图I中的编码装置10空间编码的编码数据进行解码。
图4中的解码装置40包括逆复用单元41、音频信号解码单元42、生成参数计算单元43和立体声信号生成单元44。解码装置40对从图I中的编码装置提供的编码数据进行解码并生成立体声信号。更具体而言,解码装置40的逆复用单元41逆复用从图I中的编码装置10提供的复用编码数据,并获得编码数据和BC参数。逆复用单元41将编码数据提供给音频信号解码单元42,并将BC参数提供给生成参数计算单元43。音频信号解码单元42对从逆复用单元41提供的编 码数据进行解码,并且将所得单耳信号Xm (该信号是时域信号)提供给立体声信号生成单元44。生成参数计算单元43使用从逆复用单元41提供的BC参数来计算生成参数(该参数是用于根据单耳信号(该信号是复用编码数据的解码结果)生成立体声信号的参数)。生成参数计算单元43向立体声信号生成单元44提供这些生成参数。立体声信号生成单元44使用从生成参数计算单元43提供的生成参数根据从音频信号解码单元42提供的单耳信号Xm生成左音频信号\和右音频信号Χκ。立体声信号生成单元44输出左音频信号\和右音频信号Xr作为立体声信号。图5是图示了图4中的音频信号解码单元42的配置例子的框图。此外,图5中的音频信号解码单元42采用如下配置,其中向解码装置40输入根据例如MPEG-2 AAC LC简档编码的编码数据。也就是说,图5中的音频信号解码单元42对图2中的音频信号编码单元13编码的编码数据进行解码。图5中的音频信号解码单元42包括逆复用单元51、熵解码单元52、频谱逆量化单元53和IMDCT单元54。逆复用单元51逆复用从图4中的逆复用单元41提供的编码数据,并且获得量化和熵编码的频率频谱系数和量化信息。逆复用单元51将量化和熵编码的频率频谱系数提供给熵解码单元52,并且将量化信息提供给频谱逆量化单元53。熵解码单元52执行从逆复用单元51提供的频率频谱系数的熵解码(比如霍夫曼解码或者算术解码),并且恢复量化频率频谱系数。熵解码单元52将该频率频谱系数提供给频谱逆量化单元53。频谱逆量化单元53基于从逆复用单元51提供的量化信息逆量化从熵解码单元52提供的量化的频率频谱系数,并且恢复频率频谱系数。另外,频谱逆量化单元53将频率频谱系数提供给 IMDCT (逆 MDCT) (Inverse Modified Discrete Cosine Transform,逆改进型离散余弦变换)单元54。IMDCT单元54执行从频谱逆量化单元53提供的频率频谱系数的MDCT,并且将频率频谱系数变换成单耳信号Xm (该信号是时域信号)。IMDCT单元54将该单耳信号XM提供给立体声信号生成单元44 (图4)。图6是图示了图4中的音频信号解码单元42的另一配置例子的框图。此外,图6中的音频信号解码单元42采用如下配置,其中向解码装置40输入例如根据MPEG-2 AAC SSR简档或者比如MP3这样的方法编码的编码数据。也就是说,图6中的音频信号解码单元42对图3中的音频信号编码单元13编码的编码数据进行解码。图6中的音频信号解码单元42包括逆复用单元61、熵解码单元62、频谱逆量化单元63、IMDCT单元64-1至64-N和合成滤波器组65。
逆复用单元61逆复用从图4中的逆复用单元41提供的编码数据,并且获得N个子频带信号的量化和熵编码的频率频谱系数以及量化信息。逆复用单元61将N个子频带信号的量化和熵编码的频率频谱系数提供给熵解码单元62,并将量化信息提供给频谱逆量化单元63。熵解码单元62执行从逆复用单元61提供的N个子频带信号的频率频谱系数的熵解码(比如霍夫曼解码或者算术解码),并将频率频谱系数提供给频谱逆量化单元63。频谱逆量化单元63基于从逆复用单元61提供的量化信息逆量化从熵解码单元62提供的并且作为熵解码的结果而获得的N个子频带信号的频率频谱系数中的每个。通过这一方式,恢复了 N个子频带信号的频率频谱系数。频谱逆量化单元63将N个子频带信号的恢复的频率频谱系数逐个地提供给頂DCT单元64-1至64-N。 IMDCT单元64-1至64_N各自执行从频谱逆量化单元63提供的频率频谱系数的IMDCT,并且将频率频谱系数变换成子频带信号(该信号是时域信号)。IMDCT单元64_1至64-N各自将作为变换的结果而获得的子频带信号提供给合成滤波器组65。合成滤波器组65包括例如逆PQF和逆QMF。合成滤波器组65合成从MDCT单元64-1至64-N提供的N个子频带信号,并且向立体声信号生成单元44 (图4)提供所得信号作为单耳信号χΜ。图7是图示了图4中的立体声信号生成单元44的配置例子的框图。图7中的立体声信号生成单元44包括混响信号生成单元71和立体声合成单元72。混响信号生成单元71使用从图4中的音频信号解码单元42提供的单耳信号乂 来生成与单耳信号Xm不相关的信号XD。对于混响信号生成单元71,一般使用梳状滤波器或全通滤波器。在这一情况下,混响信号生成单元71生成单耳信号Xm的混响信号作为信号XD。此外,对于混响信号生成单元71,在一些情况下使用反馈延迟网络(feedbackdelay network, FDN)(例如见专利文献I)。混响信号生成单元71将生成的信号Xd提供给立体声合成单元72。立体声合成单元72使用从图4中的生成参数计算单元43提供的生成参数来合成从图4中的音频信号解码单元42提供的单耳信号Xm和从混响信号生成单元71提供的信号XD。另外,立体声合成单元72输出作为合成的结果而获得的左音频信号\和右音频信号Xk作为立体声信号。图8是图示了图4中的立体声信号生成单元44的另一配置例子的框图。图8中的立体声信号生成单元44包括分析滤波器组81、子频带立体声信号生成单元82-1至82-P (P是任意数)和合成滤波器组83。此外,当图4中的立体声信号生成单元44采用图8中所示的配置时,图I中的编码装置10的空间参数检测单元12检测每子频带信号的BC参数。更具体而言,例如,空间参数检测单元12具有两个分析滤波器组。另外,在空间参数检测单元12中,一个分析滤波器组根据频率划分立体声信号,而另一分析滤波器组根据频率划分来自声道下混合单元11的单耳信号。空间参数检测单元12基于作为划分的结果而获得的立体声信号的子频带信号和单耳信号的子频带信号检测每子频带信号的BC参数。另外,图4中的生成参数计算单元43从逆复用单元41接收每个子频带信号的BC参数的提供,并且生成每子频带信号的生成参数。分析滤波器组81例如包括QMF (Quadrature Mirror Filter,正交镜像滤波器)组。分析滤波器组81根据频率将从图4中的音频信号解码单元42提供的单耳信号Xm划分成P组。分析滤波器组81将作为划分的结果而获得的P个子频带信号提供给子频带立体声信号生成单元82-1至82-P。子频带立体声信号生成单元82-1至82-P各自包括混响信号生成单元和立体声合成单元。子频带立体声信号生成单元82-1至82-P中的每个的配置相同,因此将仅描述子频带立体声信号生成单元82-B。子频带立体声信号生成单元82-B包括混响信号生成单元91和立体声合成单元92。混响信号生成单元91使用从分析滤波器组81提供的单耳信号的子频带信号XmB来生成与这一子频带信号XmB不相关的信号Xdb并且将该信号Xdb提供给立体声合成单元92。立体声合成单元92使用从图4中的生成参数计算单元43提供的子频带信号XmB的生成参数来合成从分析滤波器组81提供的子频带信号XmB和从混响信号生成单元91提供的信号ΧΛ另外,立体声合成单元92将作为合成的结果而获得的左音频信号Xi^b和右音频信号X/作为立体声信号的子频带信号提供给合成滤波器组83。合成滤波器组83 —次合成从子频带立体声信号生成单元82-1至82_Ρ提供的每个子频带信号的左和右立体声信号。合成滤波器组83输出所得左音频信号\和右音频信号Xr作为立体声信号。此外,例如在专利文献2中公开了图8中的立体声信号生成单元44的配置。另外,执行强度编码的编码装置混合在与输入立体声信号的预定频率频带相等或者比预定频率频带更大的频率的每个声道的频率频谱系数,并且生成单耳信号的频率频谱系数。另外,编码装置输出这一单耳信号的频率频谱系数与声道间频率频谱系数的水平比值作为编码结果。更具体而言,执行强度编码的编码装置关于立体声信号执行MDCT,并且在声道的所得频率频谱系数之间混合和共享在与预定频率频带相等或者比预定频率频带更大的频率的每个声道的频率频谱系数。另外,执行强度编码的编码装置量化和熵编码共享的频率频谱系数,并且复用所得数据和量化信息作为编码数据。另外,执行强度编码的编码装置求得声道间频率频谱系数的水平比值,并且复用和输出水平比值和编码数据。另外,执行强度解码的解码装置逆复用声道间频率频谱系数的水平比值在其上被复用的编码数据、熵解码所得编码数据并且基于量化信息逆量化编码数据。另外,执行强度解码的解码装置基于作为逆量化的结果而获得的频率频谱系数的水平比值和在编码数据上复用的声道间频率频谱系数恢复每个声道的频率频谱系数。另外,执行强度解码的解码装置执行每个声道的恢复的频率频谱系数的頂DCT,并且获得在与预定频率频带相等或者比预定频率频带更大的频率的立体声信号。虽然通常使用这样的强度编码比值来提高编码效率,但是立体声信号的高频带频率频谱系数被单耳编码并且仅由声道间水平差值表示,因此略微损失了原有的立体声效果O引用列表专利文献、
专利文献I :公开号为2006-325162的日本专利申请专利文献2 :公开号为2006-524832的日本专利申请

发明内容
本发明要解决的问题如上文描述的那样,对常规空间编码的数据进行解码的解码装置40使用单耳信号Xm (该信号是时域信号)生成与在生成立体声信号时使用的单耳信号Xm不相关的信号Xd和信号Xd1至XDP。因此,生成信号Xd的混响信号生成单元71以及生成信号Xd1至XDP的子频带立体声信号生成单元82-1至82-P的分析滤波器组81和混响信号生成单元91引起延迟,并且增加解码装置40的算法延迟。这例如在请求解码装置40提供即时响应性能或者在实时通信中使用解码装置40时(也就是说,在低延迟性质重要时)引起问题。另外,在混响信号生成单元71以及子频带立体声信号生成单元82-1至82-P的分析滤波器组81和混响信号生成单元91中的滤波器计算增加了计算量并且也增加了所需缓冲容量。
鉴于这样的情形,本发明可以在多声道音频信号被下混合和编码的情况下在音频信号解码时防止延迟和计算量增加。问题的解决方案根据本发明一个方面的一种语音处理装置包括获取单元,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数;第一变换单元,将所述获取单元获取的所述频域系数变换成第一时域信号;第二变换单元,将所述获取单元获取的所述频域系数变换成第二时域信号;以及合成单元,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号,其中所述第一变换单元执行的变换的基底与所述第二变换单元执行的变换的基底正交。根据本发明一个方面的一种语音处理方法和程序支持根据本发明一个方面的一种语音处理装置。根据本发明的一个方面,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数,将获取的频域系数变换成第一时域信号,将获取的频域系数变换成第二时域信号,并且通过使用参数合成第一时域信号和第二时域信号来生成多个声道的语音信号。此外,向第一时域信号的变换的基底和向第二时域信号的变换的基底正交。根据本发明一个方面的语音处理装置可以是独立装置或者可以是形成一个装置的内部块。发明效果根据本发明的一个方面,有可能当多声道音频信号被下混合和编码时在音频信号解码时防止延迟和计算量增加。


图I是图示了执行空间编码的编码装置的配置例子的框图。图2是图示了图I中的音频信号编码单元的配置例子的框图。图3是图示了图I中的音频信号编码单元的另一配置例子的框图。图4是图示了对空间编码数据进行解码的解码装置的配置例子的框图。图5是图示了图4中的音频信号解码单元的配置例子的框图。图6是图示了图4中的音频信号解码单元的另一配置例子的框图。图7是图示了图4中的立体声信号生成单元的配置例子的框图。图8是图示了图4中的立体声信号生成单元的另一配置例子的框图。
图9是图示了根据第一实施例应用本发明的语音处理装置的配置例子的框图。图10是图示了图9中的不相关频率-时间变换单元的具体配置例子的框图。图11是图示了图9中的不相关频率-时间变换单元的另一具体配置例子的框图。图12是图示了图9中的立体声合成单元的具体配置例子的框图。图13是图示了每个信号的矢量的视图。图14是用于描述图9中的语音处理装置的解码处理的流程图。图15是图示了根据第二实施例应用本发明的语音处理装置的配置例子的框图。图16是用于描述图15中的语音处理装置的解码处理的流程图。图17是图示了根据第三实施例应用本发明的语音处理装置的配置例子的框图。图18是用于描述图17中的语音处理装置的解码处理的流程图。图19是图示了根据第四实施例应用本发明的语音处理装置的配置例子的框图。图20是用于描述图19中的语音处理装置的解码处理的流程图。图21是图示了根据一个实施例的计算机的配置例子的视图。
具体实施例方式〈第一实施例〉[根据第一实施例的语音处理装置的配置例子]图9是图示了根据第一实施例应用本发明的语音处理装置的配置例子的框图。对与图4和图5中所示配置相同的图9中所示配置分配相同标号。将适当省略重复描述。图9中的语音处理装置100的配置与图4中所示解码装置40 (该解码装置具有图5中的音频信号解码单元42和图7中的立体声信号生成单元44)的配置不同主要在于设置了逆复用单元101而不是逆复用单元41和逆复用单元51,设置了不相关频率-时间变换单元102而不是MDCT单元54和混响信号生成单元71,并且设置了立体声合成单元103和生成参数计算单元104而不是立体声合成单元72和生成参数计算单元43。语音处理装置100例如对图I中的编码装置10(该编码装置具有图2中的音频信号编码单元13)空间编码的编码数据进行解码。在这一情况下,语音处理装置100使用单耳信号Xm的频率频谱系数来生成与在生成立体声信号时使用的单耳信号Xm不相关的信号V。更具体而言,语音处理装置100的逆复用单元101 (获取单元)对应于图4中的逆复用单元41和图5中的逆复用单元51。也就是说,逆复用单元101逆复用从图I中的编码装置10提供的复用编码数据,并且获取编码数据和BC参数。此外,虽然在编码数据上复用的BC参数可以是所有帧的BC参数或者可以是预定帧的BC参数,但是BC参数这里指代预定帧的BC参数。另外,逆复用单元101逆复用编码数据并且获得量化和熵编码的频率频谱系数和量化信息。另外,逆复用单元101将量化和熵编码的频率频谱系数提供给熵解码单元52,并将量化信息提供给频谱逆量化单元53。另外,逆复用单元101将BC参数提供给生成参数计算单元104。不相关频率-时间变换单元102根据作为频谱逆量化单元53的逆量化的结果而获得的单耳信号Xm的频率频谱系数生成单耳信号Xm和信号XD’(这些信号是两个不相关的时域信号)。另外,不相关频率-时间变换单元102将单耳信号Xm和信号XD’提供给立体声合成单元103。将参照下文将描述的图10和图11具体描述该不相关频率-时间变换单元 102。立体声合成单元103 (合成单元)使用从生成参数计算单元104提供的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号Xm和信号XD’。另外,立体声合成单元103输出作为合成的结果而获得的左音频信号\和右音频信号Xk作为立体声信号。将参照下文描述的图12具体描述该立体声合成单元103。生成参数计算单元104插值从逆复用单元101提供的预定帧的BC参数并且计算每中贞的BC参数。生成参数计算单元104使用当前处理目标巾贞的BC参数生成所述的生成参数,并且将生成参数提供给立体声合成单元103。[不相关频率-时间变换单元的具体配置例子]图10是图示了图9中的不相关频率-时间变换单元102的具体配置例子的框图。图10中的不相关频率-时间变换单元102包括MDCT单元54和MDST单元111。图10中的MDCT单元54 (第一变换单元)与图5中的MDCT单元54相同,并且执行从频谱逆量化单元53提供的单耳信号Xm的频率频谱系数的IMDCT。另外,IMDCT单元54将所得单耳信号Xm (该信号是时域信号(第一时域信号))提供给立体声合成单元103 (图9)。IMDST (Inverse Modified Discrete Sine Transform,逆改进型离散正弦变换)单元111 (第二变换单元)执行从矢量逆量化单元53提供的单耳信号Xm的频率频谱系数的MDST。另外,頂DST单元111将所得信号XD’(该信号是时域信号(第二时域信号))提供给立体声合成单元103 (图9)。如上文描述的那样,頂DCT单元54执行的变换是逆余弦变换,而頂DST单元111执行的变换是逆正弦变换,并且頂DCT单元54执行的变换的基底与MDST单元111执行的变换的基底正交。因而有可能认为单耳信号Xm和信号XD’基本上相互不相关。此外,根据下式(I)至(3)限定MDCT、MDCT和MDST。[式I]
权利要求
1.一种语音处理装置,包括 获取单元,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数; 第一变换单元,将所述获取单元获取的所述频域系数变换成第一时域信号; 第二变换单元,将所述获取单元获取的所述频域系数变换成第二时域信号;以及合成单元,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号, 其中所述第一变换单元执行的变换的基底与所述第二变换单元执行的变换的基底正交。
2.根据权利要求I所述的语音处理装置,还包括 划分单元,根据频率将所述获取单元获取的所述频域系数划分成多个组; 第三变换单元,将划分成所述多个组中的第一组的所述频域系数变换成第三时域信号;以及 加法单元,按照每个声道将所述第三时域信号与所述合成单元生成的所述多个声道的所述语音信号相加,并且生成整个频率频带中的所述多个声道的所述语音信号,所述第三时域信号是所述第一组的频率频带中的相应声道的语音信号,其中 所述获取单元获取第二组的频率频带中的所述参数和所述频域系数,所述第二组是除了所述第一组之外的组, 所述第一变换单元将划分成所述第二组的所述频域系数变换成所述第一时域信号, 所述第二变换单元将划分成所述第二组的所述频域系数变换成所述第二时域信号,并且 所述合成单元通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述第二组的频率频带中的所述多个声道的所述语音信号。
3.根据权利要求I所述的语音处理装置,还包括 第三变换单元,将所述获取单元获取的并且根据频率划分成多个组的所述频域系数之中的第一组的频域系数变换成第三时域信号;以及 加法单元,按照每个声道将所述第三时域信号与所述合成单元生成的所述多个声道的所述语音信号相加,并且生成整个频率频带中的所述多个声道的所述语音信号,所述第三时域信号是所述第一组的频率频带中的相应声道的语音信号,其中 所述获取单元获取每组的所述频域系数和第二组的频率频带的参数,所述第二组是所述多个组之中除了所述第一组之外的组, 所述第一变换单元将划分成所述第二组的所述频域系数变换成所述第一时域信号, 所述第二变换单元将划分成所述第二组的所述频域系数变换成所述第二时域信号,并且 所述合成单元通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述第二组的频率频带中的所述多个声道的所述语音信号。
4.根据权利要求I所述的语音处理装置,其中根据所述多个声道的所述语音信号的频域系数生成所述频域系数。
5.根据权利要求4所述的语音处理装置,还包括分离单元,分离所述获取单元获取的预定频率频带中的所述频域系数,以及除了所述预定频率频带之外的频率频带中的多个声道的所述语音信号的所述频域系数; 第三变换单元,将所述分离单元分离的所述多个声道的所述语音信号的所述频域系数变换成所述多个声道的第三时域信号;以及 加法单元,按照每个声道将所述多个声道的所述第三时域信号与所述合成单元生成的所述多个声道的所述语音信号相加,并且生成整个频率频带中的所述多个声道的所述语音信号,所述多个声道的第三时域信号是除了所述预定频率频带之外的所述频率频带中的所述多个声道的所述语音信号,其中 所述获取单元获取所述预定频率频带中的所述频域系数、除了所述预定频率频带之外的所述频率频带中的所述多个声道的所述语音信号的所述频域系数和所述预定频率频带中的所述参数, 所述第一变换单元将所述分离单元分离的所述预定频率频带中的所述频域系数变换成所述第一时域信号; 所述第二变换单元将所述分离单元分离的所述预定频率频带中的所述频域系数变换成所述第二时域信号,并且 所述合成单元通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述预定频率频带中的所述多个声道的所述语音信号。
6.根据权利要求I至5中的任一权利要求所述的语音处理装置,其中 所述频域系数是改进型离散余弦变换MDCT系数, 所述第一变换单元执行的变换是逆改进型离散余弦变换頂DCT,并且 所述第二变换单元执行的变换是逆改进型离散正弦变换頂DST。
7.根据权利要求I至5中的任一权利要求所述的语音处理装置,其中 所述第二变换单元包括 频谱反转单元,反转所述频域系数使得频率按照逆序; IMDCT单元,通过执行作为所述频谱反转单元的反转的结果而获得的所述频域系数的逆改进型离散余弦变换IMDCT来获得时域信号;以及 符号反转单元,每隔一个符号反转所述IMDCT单元获得的所述时域信号的每个采样的符号,并且 所述频域系数是改进型离散余弦变换MDCT系数,并且所述第一变换单元执行的变换是逆改进型离散余弦变换。
8.一种由语音处理装置执行的语音信号处理方法,所述方法包括 获取步骤,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数; 第一变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第一时域信号; 第二变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第二时域信号;以及 合成步骤,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号,其中所述第一变换步骤的处理中的变换的基底与所述第二变换步骤的处理中的变换的基底正交。
9.一种程序,用于使计算机执行 获取步骤,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数; 第一变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第一时域信号; 第二变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第二时域信号;以及 合成步骤,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号, 其中所述第一变换步骤的处理中的变换的基底与所述第二变换步骤的处理中的变换的基底正交。
全文摘要
本发明涉及一种当多声道音频信号被下混合和编码时在音频信号解码时防止延迟和计算量增加的语音处理装置、语音处理方法和程序。逆复用单元(101)获取在其上复用BC参数的编码数据。不相关频率-时间变换单元(102)执行根据这一编码数据获得的单耳信号(XM)的频域系数的IMDCT变换和IMDST变换,以生成单耳信号(XM)(该信号是时域信号)和与这一单耳信号(XM)基本上不相关的信号(XD’)。立体声合成单元(103)通过使用BC参数合成单耳信号(XM)和信号(XD’)来生成立体声信号。本发明例如适用于一种对下混合和编码的立体声信号进行解码的语音处理装置。
文档编号G10L19/00GK102792369SQ20118001330
公开日2012年11月21日 申请日期2011年3月8日 优先权日2010年3月17日
发明者前田祐儿, 户栗康裕, 松本淳, 松村祐树, 铃木志朗 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1