专利名称:语音编码的利记博彩app
该发明涉及语音编码,并特别适用于采用长时预测(LTP)参数的语音编码方法和装置。
语音编码被用于很多希望压缩音频语音信号以降低将要发送、处理或贮存的数据量的通讯应用中。特别的,语音编码广泛应用于蜂窝电话网络。其中移动电话和通讯控制基站配有所谓音频编解码器,该编解码器对音频信号进行编码和解码。由于最大化网络呼叫容量的需要,必须在蜂窝电话网中对数据进行语音编码压缩。
现代的语音编解码器一般通过在称为帧的短片段中处理语音来工作。在被称作GSM(由欧洲通讯标准研究所----ETSI----细则06.60定义)的欧洲数字蜂窝电话系统中,这种帧的长度为20毫秒,对应于8KHZ采样率下160个语音样本。在发送站,由语音编码器来分析每个语音帧以提取一组编码参数用来发送给接收站。在接收站,基于接收的参数,解码器产生合成的语音帧。典型的所提取的编码参数组包括用于信号短时预测的谱参数(已知为LPC参数),和用于信号长时预测(已知为LTP参数)的参数,各种增益参数,激励参数和码书矢量。
图1简要给出了所谓的CELP编解码器中的编码器(在移动站和控制基站中都提供有基本上相同的CELP编解码器)每个接收到的采样语音信号s(n)的帧,其中n表示采样编号,首先被短时预测单元1分析以确定该帧的LPC参数,这些参数被提供给复用器2以组合通过空气接口传送的编码参数。来自短时预测单元1的残留信号r(n),即,除去短时冗余后的语音信号帧,被传送给长时预测单元3来确定LTP参数,这些参数又被提供给复用器2。
编码器包括一个LTP合成滤波器4和一个LPC合成滤波器5,分别接收LTP和LPC参数,这些滤波器为信号c(n)引入短时和长时冗余以产生给成的语音信号ss(n),其中的冗余是通过码书6产生的。在比较器7,合成的语音信号与实际的语音信号s(n)一帧一帧的相比,以产生误差信号e(n)。在加权滤波器8对误差信号加权之后(以已知的方法加强信号的共振峰),信号被传送给码书搜索单元9,搜索单元9在码书6中为每一帧进行搜索以识别出与实际语音帧最匹配的码书中的记录(在LPT和LPC滤波,以及在乘法器10中乘以增益g之后),即确定最小化误差信号e(n)的信号c(n),表明最佳匹配记录的矢量被提供给复用器2以便作为语音编码信号t(n)的一部分通过空气接口传送。
图2简要给出一种CELP编解码器中的解码器。接收到的编码信号t(n)被解复用器11解复用成单个的编码参数。码书矢量被用于码书12,与编码器中的码书6相同,以提取码书记录c(n)的流,然后再将信号施加给串行放置的LTP合成滤波器14和LPC合成滤波器15之前,信号c(n)在乘法器13中被乘以接收增益g。LTP和LPC滤波器从传输信道接收相关的参数并在信号中重新引入短时和长时冗余以在输出处产生合成的语音信号ss(n)。
LTP参数已包括所谓的音调滞后值参数,该参数描述语音信号的基础频率。残留信号当前帧音调滞后值的确定通过两个步骤实现。首先,进行开环搜索,涉及对残留信号相对粗略的搜索,受限于预定的最大和最小延迟,以找到对一部分与当前帧最匹配的信号。然后对已经合成的信号进行闭环搜索。闭环搜索在音调滞后值的开环估计值邻近区域中小范围延迟内进行。重要的是,如果在开环搜索中发生了错误,那么在闭环搜索中不能校正该错误。
在早期已知的编解码器中,通过确定残留语音信号中帧的自相关函数,开环LTP分析可以为残留信号的给定帧确定音调滞后值,即R^(d)=Σn=0N-1r(n-d)r(n)---d=dL,...,dH]]>其中d是延迟,r(n)是残留信号,dL和dH是搜索边界,N是帧长度,音调滞后值dpl可以被识别为延迟dmax,该值对应于自相关函数
的最大值,这一点在图3中给予说明。
然而在这种编解码器中,存在一种可能是,自相关函数的最大值对应于多个或亚多个(submultiple)音调滞后值值,并且因此估计的音调滞后值将不正确。EP0628947通过对自相关函数
施加一个加权函数w(d)来解决这一问题。即R^w(d)=w(d)Σn=0N-1r(n-d)r(n)]]>其中加权函数具有下述形式w(d)=dlog2K]]>K是一个调整参数,该参数被设置为一个足够低的值以降低在多个音调滞后值上获得
的最大值的可能性,但是同时,该值被设置的足够大以排除亚多个音调滞后值。
EP0628947还建议在为当前帧确定音调滞后值时考虑为以前帧确定的音调滞后值。更特别的是,帧被分类为浊音或清音,对于当前帧,会在为最近的浊音帧确定的音调滞后值的邻近区域搜索最大值。如果
的所有最大值都位于该邻近区域之外,并且不超过该邻近区域中最大值的3/2,那么该邻近区域的最大值被识别为对应于该音调滞后值。用这种方法,可以保持音调滞后值估计的连续性,降低音调滞后值中错误变化的可能性。
根据该发明的第一方面,给出了一种对于信号帧序列中每一帧利用音调滞后值参数对采样信号进行编码的语音编码算法,该方法包括对于每一帧为信号帧确定预定最大延迟和最小延迟之间的自相关函数;对自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数;将对应于加权自相关函数最大值的延迟识别为该帧的音调滞后值参数。
最好的是,所述的采样信号是通过从音频信号中主要除去短时冗余而从音频信号获得的残留信号,另外可选的是,采样信号可以是一种音频信号。
最好的是,所述的加权通过将自相关函数与具有以下形式的加权函数组合来实现w(d)=(|Tprev-d|+dL)log2Knw]]>其中,Tprev是在一个或多个以前帧的基础上确定的音调滞后值参数,dL是所述的最小延迟,Knw是定义邻近区域加权的调整参数。另外,相对于较长的延迟,加权函数可以为较短的延迟来加强自相关函数。在这种情况下,使用了一种修正的加权函数w(d)=(|Tprev-d|+dL)log2Knw·dlog2Kw]]>其中Kw是另一个调整参数。
在本发明的某种实施方案中,Tprev是一个以前帧的音调滞后值Told。然而,在另一个实施方案中,Tprev是从一些以前帧的音调滞后值中获得。特别的,Tprev可以对应于预定数量的以前帧的音调滞后值的中值。可以使用另一种加权,这种加权与用来确定所述中值的n个音调滞后值的标准偏差成反比。使用后一方法,有可能降低错误音调滞后值对自相关函数加权的影响。
最好的是,该方法包括将所述帧划分成浊音和非浊音帧,其中所述的以前帧是最近的浊音帧,非浊音帧可以包括清音帧、包括无声段或背景噪声的帧。更好的是,如果所述的以前帧不是最近的帧,加权作用被削弱。在一个实施方案中,接收到连续的非浊音帧序列,加权作用的削弱基本上与该序列中的帧数成正比。对于在前一段给出的加权函数wn(d),调整参数Knw可以被修正为wd(d)=(|Tprev-d|+dL)log2KnwA·dlog2Kw]]>其中A是另一个调整因子,该因子随着连续非浊音帧序列中每一帧的接收而增长。通过将A返回为最小值,加权值对于下一个浊音帧而言恢复到其最大值。A值同样可以随着浊音帧的接收而增加,这产生一个开环增益,该增益小于预定的阈值增益。
根据该发明的第二个方面,提供了一种利用信号串形帧中每一帧的音调滞后值参数对采样信号进行语音编码的装置,该装置包括为每一帧确定信号帧在预定最大延迟和最小延迟之间的自相关函数的装置。
用来将自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数的加权装置,以及用来将对应于加权自相关函数最大值的延迟标识为该帧的音调滞后值参数的装置。
根据该发明的第三方面,给出了一种移动通讯设备包括上面该发明第二方面中的装置。
根据该发明的第四方面,给出了一种蜂窝电话网络,包括一个控制基站,该基站具有根据该发明第二方面的装置。
为了更好地理解该发明,并表示出同样的方法如何起作用,通过例子,将引用附图作为参考。其中图1简要给出一种CELP语音编码器。
图2简要给出一种CELP语音解码器。
图3说明了要被编码的语音信号帧,以及用来确定该帧的自相关函数的最大和最小延迟。
图4是根据该发明实施方案的语音编码方法主要步骤的流程图。
图5简略给出实现图4方法的系统。
这里将要描述一种用于采样语音信号帧的音调滞后值参数的开环预测的方法和装置。该方法的主要步骤在图4的流程图中给出。较好的是,所描述的方法和装置可以用于其它的传统语音编解码器,例如上面已参考图1描述的CELP编解码器。
将要被编码的采样语音信号被划分成固定长度的帧。如上面描述的,接收时,帧首先被传送给LPC预测单元1。一般地,会对残留信号进行开环LTP预测,该残留信号是原始语音信号的一部分,这部分信号在施加了LPC预测之后仍然保留,但是该信号的短时冗余被提取。该残留信号可以由r(n)表示,其中n表示采样编号。信号帧的自相关函数由以下公式确定R^w(d)=w(d)Σn=0N-1r(n-d)r(n)---d=dL,...,dH---{1}]]>其中w(d)是由以下公式给出的加权函数w(d)=(|Told-d|+dL)log2KnwA·dlog2Kw---{2}]]>Told是为最近接收、处理的浊音帧确定的音调滞后值,n,N,dL,dH与上面定义相同。Knw和K是调整参数,一般为0.85,另一个调整参数A在下面讨论。
在为语音帧确定了开环LTP参数之后,该帧被分类为浊音和清音帧(使得参数Told能够反馈用于等式{2})。这种分类可以用多种方法实现。一种合适的方法是确定开环LTP增益b,并将该值与一些预定的阈值增益比较,或者更理想地是有下面公式给出的自适应阈值增益bthrbthr=(1-α)Kbb+abthr-1{3}其中α是衰减常数(0.995),Kb是缩放因子(0.15)。项bthr-1是为刚刚接收的前一帧确定的阈值增益。另外,用于划分帧为浊音或清音的准则是确定一帧内残留信号的过零率。相对较高的过零率表明该帧为清音帧,而相对较低的过零率表明该帧为浊音帧,适当的阈值为帧长N的3/4。
另一个将帧划分为浊音和清音的准则是考虑音调滞后值的变化率。如果为该帧确定的音调滞后值严重偏离为最近一组帧确定的平均音调滞后值,那麽该帧可以被分类为清音帧。如果仅存在相对较小的偏差,那麽该帧可以被划分成浊音帧。
由{2}给出的加权函数wn(d)包括第一项
,该项使得加权后的自相关函数
在老的音调滞后值Told的邻近区域被加强。等式{2}的左边的第二项
,使得较小的音调滞后值被加强。这两项合起来明显降低了产生加权自相关函数最大值的多个或亚多个正确音调滞后值的可能性。
如果,在为当前帧i确定了音调滞后值之后,该帧被分类为浊音帧,并且该帧的开环增益被确定为大于一些阈值(例如0.4〕,那么等式{2}中的调整因子A对于下一帧i+1而言设置为1。如果当前帧被分类为清音帧,或者开环增益被确定为小于该阈值,调整因子按下述等式修正Ai+1=1.01Ai{4}可以根据等式{4}针对连续清音帧序列中的每一帧来修正调整因子A(或者开环增益小于阈值的浊音帧〕。但是,最好的是,仅在预定数量的连续清音帧被接收之后,才应用等式{4},例如,在每一组3个连续清音帧被接收之后。邻近区域的加权因子Knw一般被设置为0.85,而组合加权参数KnwA的上限为1.0,使得在该限制之内,在整个延迟范围d=dL到dH内,加权可以保持一致。
此外,只有预定数量的加权函数w(d)被使用,例如为3个。每个函数都分配有一个阈值等级。每个函数都有一个阈值,当自适应项,例如在{4}中定义的项超过了该阈值,那麽一个特定的函数被选出。定义有限数量加权函数的优点在于所定义的函数可以存储于内存之中。因此,为每一个新帧重新计算一个加权函数是不必要的。
用于实现上面描述的方法的一个简化系统在图5中给出,系统的输入16是LPC预测单元1给出的残留信号。该残留信号被提供给帧校正器17,该校正器为残留信号的每一帧产生一个相关函数。每一帧的相关函数被传送给第一加权单元18,该单元根据等式{2}中的第二项来加权该相关函数,即
。加权后的函数然后被传送给第二加权单元19,该单元另外根据等式{2}的第一项来加权相关函数,
。参数Told保持在缓存器20中,仅在分类单元21将当前帧分类为浊音帧时,该参数才被利用系统输出而更新。加权的相关函数被传送给搜索单元22,该单元识别出加权函数的最大值,并因而确定当前帧的音调滞后值。
技术人员将会建议在不偏离该发明的范围的前提下,可以对上面描述的实施方案做各种修改。特别是,为了防止为最近的浊音帧得到的错误的音调滞后估计值,并且很大程度上干扰当前估计值,图5中的缓存器20可以被安排为存储为最近的n个浊音帧估计的音调滞后值,其中n可以是,例如4。由加权单元19施加的加权函数通过将参数Told替换为Tmed而被修正,其中Tmed是n个被缓存的音调滞后值的中值。
在另一种修正中,加权单元19施加的加权与存储在缓存器20中的n个音调滞后值的标准偏差成反比。当n个被缓存的音调滞后值变化很小时,其效果是加强了中值音调滞后值邻近区域中的加权,而当n个音调滞后值相对变化较大时,其效果是削弱了中值音调滞后值邻近区域中的加权。例如,可以按下面的形式采用三个加权函数
其中Km1,Km2,Th1,Th2是分别等于0.75,0.95,2和6的调整参数。为了适应在大的音调滞后值时标准偏差中较大的变化,等式{5}中的阈值Th1,Th2可以与中值音调滞后值Tmed成正比。
权利要求
1.一种利用信号帧序列中每一帧的音调滞后值参数对采样信号进行编码的语音编码方法,对于每一帧,该方法包括为信号帧确定预定最大延迟和最小延迟之间的自相关函数;对自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数;将对应于加权自相关函数最大值的延迟识别为该帧的音调滞后值参数。
2.根据权利要求1的方法,其中的加权函数具有以下形式wd(d)=(|Told-d+dL)log2Knw]]>其中Told是所述以前帧的音调滞后值,dL是所述的最小延迟,Knw是定义邻近区域加权的调整参数。
3.根据权利要求1的方法,其中的自相关函数被加权以为各个以前帧确定的多个音调滞后值中值的邻近区域内的延迟函数。
4.根据权利要求3的方法,其中的加权函数具有以下形式wd(d)=(|Tmed-d|+dL)log2Knw]]>其中Tmed为各个以前帧确定的多个音调滞后值的中值,dL是所述的最小延迟,Knw是定义邻近区域加权的调整参数。
5.根据权利要求4的方法,其中的加权函数通过与所述多个音调滞后值的标准偏差成反比的因子来修正。
6.根据前面任何一个权利要求的方法,其中所述的加权相对于较长的延迟额外加强了较短的延迟。
7.根据权利要求4的方法,其中所述的加强由下面因子提供dlog2Kw]]>其中Kw是另一个加权参数。
8.根据前面任何一个权利要求的方法,包括将所述帧分类成浊音帧和清音帧的步骤,其中的以前帧是最近的浊音帧。
9.根据权利要求8的方法,其中,如果所述的以前帧或最近的以前帧,不是最近的帧,加权被削弱。
10.根据权利要求8或9的方法,其中,当连续非浊音帧的序列被接收到之后,加权被削弱,这种削弱基本上与该序列中的帧数成正比。
11.在依赖于权利要求2或4基础上的根据权利要求8的方法,其中调整参数被修正为log2KnwA其中A是另一个调整因子,该因子随着连续非浊音帧序列中每一帧或预定的多个帧的接收而增长,并且该值对于下一个浊音帧而言恢复到其最小值。
12.一种利用信号串形帧中每一帧的音调滞后值参数对采样信号进行语音编码的装置,该装置包括为每一帧确定信号帧在预定最大延迟和最小延迟之间的自相关函数的装置(17)。用来将自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数的加权装置(19),以及用来将对应于加权自相关函数最大值的延迟标识为该帧的音调滞后值参数的装置(22)。
13.一种包括权利要求12的装置的移动通讯设备。
14.一种包括控制基站的蜂窝电话网络,其中的控制基站包括权利要求12的设备。
全文摘要
一种使用长时预测(LTP)对采样语音信号进行编码的语音编码方法。通过为信号帧确定预定最大和最小延迟之间的自相关函数,可以为语音信号的每一帧确定LTP音调滞后值参数。然后,自相关函数被加权来加强为最近的浊音帧确定的音调滞后值参数邻近区域中的延迟函数。然后会找到加权自相关函数的最大值,并且该值被识别为该帧的音调滞后值参数。
文档编号G10L19/04GK1255226SQ98804901
公开日2000年5月31日 申请日期1998年3月13日 优先权日1997年5月7日
发明者A·拉卡尼米, J·瓦伊尼奥, P·奥亚拉, P·哈尔维斯托 申请人:诺基亚流动电话有限公司