专利名称::语音增强的方法及语音增加的声音采集系统的利记博彩app语音增强的方法及语音增加的声音采集系统
技术领域:
:本发明涉及一种语音增加的方法及集成该方法的声音采集系统。
背景技术:
:由于大量环境噪声的存在,声音采集系统,如麦克风传声器,采集到的语音信号普遍信噪比不够高。为了能采集到信噪比高的语音信号,通常,通过利用指向性麦克风采集一定范围内的语音信号,或利用语音增强的方法来提升语音信号的信噪比。现有相关的语音增强算法需要的计算量和存储空间都偏大,对硬件的要求比较高,在制成专用芯片时需要的硅的面积也比较大,从而使其成本也比较高,并且降噪效果也不是很理想。因此,有必要研究一种新的语音增强的方法,以达到良好的降噪效果。
发明内容本发明需解决的技术问题是提供一种降噪效果好的语音增加的方法,根据上述的技术问题,设计了一种语音增强的方法,其包括以下步骤(1)、将声音采集装置采集到带噪语音信号用芯片进行分帧、预加重处理、再经过短时傅里叶变换到频域;(2)、'将变换到频域后的带噪语音信号划分为若干频带,再计算各个频带能量并进行平滑,得到经平滑后的每个频带内的信号能量,所述信号能量包括语音能量和噪音能量,并得到所述噪音能量的初始估计值;(3)、通过信号能量及噪音能量的初始估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先-验信噪比估计值;(4)、由得到的先验信噪比估计值对当前帧进行判决,判断是否是噪声,否则执行步骤(5)、是则执行(6);(5)、对各频带的噪音能量的估计值进行更新,再通过信号能量及噪音能量的当前更新的估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值,继续执行步骤(4)以再进行判决;(6)、根据得到的先验信噪比估计值,计算各个频带的衰减增益因子;(7)、用得到的衰减增益因子,对划分到各频带的信号频谱进行处理;(8)、将处理后的频域信号变换到时域,进行去加重处理,变成输出信号。更优的是,所述步骤(7)中的处理为将当前帧的带噪语音信号乘以相应频带的衰减增益因子。更优的是,操作所述步骤(8)包括有(81)、通过逆快速傅里叶变换将频域信号变换为时域,得到增强后的时域语音信号;(82)、通过低通滤波器进行加重处理。本发明所解决的另一个技术问题是提供一种语音增加的声音釆集系统,其包括声音采集装置、集成如上述语音增加的方法的芯片。更优的是,所述芯片集成于声音采集装置内。更优的是,所述声音采集装置为麦克风传声器。与相关技术比较,本发明语音增强的方法实现了实时的语音增强系统,声音采集装置输出的是直接降噪后的语音信号,并大大提高了对噪音的衰减,保证了语音的可懂度,特别对汽车噪声,街道噪声等一类平稳的加性噪声的衰减效果尤为突出。图1为本发明语音增强的方法的流程示意图;具体实施方式下面结合附图和实施方式对本发明作进一步说明。本发明的主要思想是,通过将一种语音增强算法集成在专用的芯片中,并通过该设计芯片与相应的声音采集装置的接口数据传输,形成一个实时的语音增强系统。语音信号通过声音采集装置采集,再直接由芯片中的语音增强算法处理,得到信噪比增强后的信号,输出供次级使用。本发明的语音增强的声音釆集系统包括声音采集装置、语音信号处理芯片,芯片集成在该声音采集装置内。本实施例中该声音采集装置为麦克风传声器,麦克风采集的模拟信号还需转换为数字信号,以供芯片处理。本发明集成在芯片内的语音增强的方法,其包括以下步骤(1)、将声音采集装置采集到带噪语音信号(此信号为数字信号)用芯片进行分帧、预加重处理、再经过短时傅里叶变换到频域;(2)、将变换到频域后的带噪语音信号划分为若干频带,再计算各个频带能量并进行平滑,得到经平滑后的每个频带内的信号能量,所述信号能量包括语音能量和噪音能量,并得到所述噪音能量的初始估计值;(3)、通过信号能量及噪音能量的初始估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值;(4)、由得到的先验信噪比估计值对当前帧进行判决,判断是否是噪声,否则执行步骤(5)、是则执行(6);对各频带的噪音能量的估计值进行更新,再通过信号能量及噪音能量的当前更新的估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值,继续执行步骤(4)以再进行判决;(6)、根据得到的先验信噪比估计值,计算各个频带的衰减增益因子;(7)、用得到的衰减增益因子,对划分到各频带的信号频谱进行处理,将当前帧的带噪语音信号乘以相应频带的衰减增益因子;(8)、将处理后的频域信号变换到时域,进行去加重处理,变成输出信号。具体步骤(8)为(81)、通过逆快速傅里叶变换将频域信号变换为时域,得到增强后的时域语音信号;(82)、通过低通滤波器进行加重处理。下面通过具体的实施例再进行介绍,该语音增强的声音采集系统输入的带噪语音信号的采样率为8kHZ,精度为16位。首先,对在时域中的带噪语音信号进行分帧,是将带噪语音信号以帧为单位等分成若干带噪语音信号单元。该带噪语音信号单元由采样点组成,本发明选取了8KHz的采样频率,根据短时谱分析的需要,帧长一般设定成1035ms之间,本实施例以32ms分帧,即一帧带噪语音信号单元设有256个采样点,自然的,任意一帧带噪语音信号单元具有一定的帧长,本发明任意帧的帧长为256。分帧后的语音信号,经过一个高通滤波器,作为预加重处理。由于语音信号中的背景噪声在低频部分能量一般较大,所以使用该高通滤波器可以衰减低频部分的份量,使降噪效果更好。其形式如下a—般取值在0.75-0.95之间,这里a=0.9,可以取得较好的效果。由于语音信号是短时平稳的,所以可以对信号进行分帧处理,但分帧又会带来帧信号边界处的不连续而导致频率泄露。所以,对于分帧后的语音信号要进行短时傅里叶变换(STFT)。短时傅里叶变换可以理解为对帧信号先加窗再做傅里叶变换。加窗函数的目的就是为了在做短时傅里叶变换时,减少帧信号边界处的不连续而造成频率泄露,从而减少"块效应"。这里使用了一个长度等于帧长256点的汉明窗,它可以有效的降低吉布斯效应的震荡程度。汉明窗函数定义如下win(n)={0.54—0.46cos(2承兀承n/M)(K"M-10其余n短时傅里叶变换如下X(附,H)=丄,-m)xx(w)e一2"(Kk1《M-1其中,M=256,为短时傅利叶变换的计算长度。m表示第m帧信号。这样就将当前帧的带噪语音信号s从时域变换到了频域。变换到频域后的带噪语音信号包括语音信号和噪音信号,该信号以帧为单位划分为若干频带,之后针对不同频带的语音信号进行不同的策略操作。下面对4kHz以下带噪语音信号进行频带划分,之后的信号处理均在各个频带中进行,这样既可以减少运算复杂度,又可以针对不同的频带做不同的处理,得到更好的语音增强效果。本发明中的信号共划分为23个频带,具体见表1。表l23个频带划分<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>各个频带的信号能量估计,用如下公式计算并进行平滑<formula>formulaseeoriginaldocumentpage9</formula>其中,;r(^a)表示经平滑后的每个频带区间的信号能量,m表示当前帧的序号,k表示当前的子带的序号,a=0.75表示平滑因子,N为选取的频带总数,即23。经平滑后的每个频带区间的信号能量包括语音能量和噪音能量,在这里,先得到一个噪音能量的初始估算值,根据信号能量和噪音能量的初始估算值去计算得到各个频带当前帧的后验信噪比,并由前一帧的先验信噪比计算得到当前帧的先验信噪比估计值。再由得到的先验信噪比估计值对当前帧进行判决,判断是否是噪声如果判决为"否",即不是噪音,则对各频带的噪音能量的估计值进行更新,再通过信号能量及噪音能量的当前更新的估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比计算得到当前帧的先验信噪比估计值,再循环对当前帧进行判决,判断是否是噪音,噪音能量的估计值是否需要更新。如果判决为"是",即为噪音,根据得到的先验信噪比估计值,计算各个频带的衰减增益因子,继续下一步;计算当前帧信号的后验信噪比的公式,如下其中V(k)表示当前估计的噪声信号的能量值。然后基于Ephraim和Malah的先验信噪比估计公式,计算当前帧的先验信噪比估计值的公式如下+(1-a)max,yt)=max[S^戸,(附,10一2.5对VAD(m)进行判断,并进行噪声更新,如下j//F(w—:U)+(1—/i)五(w,A;)VAD(m)<77A:)=—1,yt)VAD(m)》〃其中7为噪声更新判决因子,本发明中取7=0.01。//为平滑因子,这里取//=0.9。接下来,对各个频带的衰减增益因子的进行计算。基于前面计算得出的先验信噪比估计值,采取不同的策略。对于信噪比大的频带,可认为是语音信号,采用频谱相减的方法得到衰减因子,对于信噪比小的频带,认为是噪声信号,对其进行一定程度的衰减。其具体公式如下。柳=纖min(l,U)/2),else其中,a,b,c分别为不同的常数。考虑到噪声主要集中在较低的频带,因此对于中低频段和高频,取不同的a,b,c。本发明中对于k《18的频带,即2kHz以下的信号,a=10,b=5.5,c=8对于k〉18的频带,即2kHz以上的信号,a=5,b=4.8,c=5得到衰减增益因子,再将当前帧的各频带的带噪语音信号X(m,k),乘以它,得到的就是该频带信噪比增强后的语音信号。知)=柳*単)(K"N-1其中,N=23为频带总数,S()t)为第k个频带增强后的语音信号估计值。最后,将处理后的信噪比增强后的语音信号从频域变换到时域,进行去加重处理,变成输出信号。其操作为第一步逆快速傅里叶变换(FFT),把频域的语音信号变换到时域,得到增强后的时域语音信号。时域的变换用通用的逆离散傅利叶变换(IDFT)实现。<formula>formulaseeoriginaldocumentpage11</formula>其中,M=256,为帧长。s为变换到时域后的全频带增强后的语音信号。第二步进行去加重处理。和前面的预加重处理相反,这里将信号通过一个低通滤波器,最大程度的还原原有的信号。滤波器的频响如下;<formula>formulaseeoriginaldocumentpage11</formula>这里的系凄t与前面预加重处理相对应,取《=0.9。与相关技术比较,本发明语音增强的方法实现了实时的语音增强系统,声音采集装置输出的是直接降噪后的语音信号,节约了另外使用相应算法的成本,并大大提高了对噪音的衰减、信噪比得到提高、保证了语音的可懂度,特别对汽车噪声,街道噪声等一类平稳的加性噪声的衰减效果尤为突出。以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。权利要求1、一种语音增强的方法,其特征在于,包括以下步骤(1)、将声音采集装置采集到带噪语音信号用芯片进行分帧、预加重处理、再经过短时傅里叶变换到频域;(2)、将变换到频域后的带噪语音信号划分为若干频带,再计算各个频带能量并进行平滑,得到经平滑后的每个频带内的信号能量,所述信号能量包括语音能量和噪音能量,并得到所述噪音能量的初始估计值;(3)、通过信号能量及噪音能量的初始估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值;(4)、由得到的先验信噪比估计值对当前帧进行判决,判断是否是噪声,否则执行步骤(5)、是则执行(6);(5)、对各频带的噪音能量的估计值进行更新,再通过信号能量及噪音能量的当前更新的估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值,继续执行步骤(4)以再进行判决;(6)、根据得到的先验信噪比估计值,计算各个频带的衰减增益因子;(7)、用得到的衰减增益因子,对划分到各频带的信号频谱进行处理;(8)、将处理后的频域信号变换到时域,进行去加重处理,变成输出信号。2、根据权利要求1所述语音增强的方法,其特征在于,所述步骤(7)中的处理为将当前帧的带噪语音信号乘以相应频带的衰减增益因子。3、根据权利要求l所述语音增强的方法,其特征在于操作所述步骤(8)包括有(81)、通过逆快速傅里叶变换将频域信号变换为时域,得到增强后的时域语音信号;(82)、通过低通滤波器进行加重处理。4、一种语音增加的声音采集系统,其特征在于,包括声音采集装置、集成如权利要求1所述语音增加的方法的芯片。5、根据权利要求4所述的声音采集系统,其特征在于所述芯片集成于声音采集装置内。6、根据权利要求4或5所述的声音采集系统,其特征在于所述声音采集装置为麦克风传声器。全文摘要本发明提供了一种实现语音增加的方法及其该声音采集系统,该系统包括麦克风采集装置和集成该语音增加的方法的芯片。该语音增强的方法包括对带噪语音信号进行分帧、预加重处理、变换到频域;划分为若干频带,计算各个频道的信号能量;计算当前帧的后验信噪比,及先验信噪比估计值;判决是否更新噪音能量的估计值;计算各个频带的衰减因子并进行处理得到信噪比增加的语音信号;将处理后的语音信号变换到时间域,再输出。文档编号G10L21/02GK101582264SQ200910108058公开日2009年11月18日申请日期2009年6月12日优先权日2009年6月12日发明者叶利剑申请人:瑞声声学科技(深圳)有限公司;瑞声声学科技(常州)有限公司