专利名称:用于减少音频处理算法中的非自然信号的方法和装置的利记博彩app
技术领域:
本申请涉及音频处理,例如涉及降噪算法。本发明尤其涉及减少用于将随时间和频率而变的增益应用于输入音频信号的音频处理算法中的非自然信号的方法。另外,本申请涉及用于将随时间而变的增益应用于输入音频信号的音频处理装置及涉及音频处理装置的用途。本申请还涉及包括处理器和程序代码的数据处理系统,程序代码使处理器执行本发明方法的至少部分步骤。本申请还涉及保存前述程序代码的计算机可读介质。本发明可用在音频处理系统如广播系统、听音装置如听力仪器等应用中。
背景技术:
跨时间和频率快速波动的增益导致数字音频处理系统中出现听得见的非自然信号。US 6,351,731描述了一种自适应滤波器,其特征在于语音谱估计器将针对输入信号时帧估计的谱量值信号接收为输入并产生表示时帧中的语音的估计的谱量值的估计的语音谱量值信号。谱增益调节器将初始谱增益信号接收为输入并通过限制初始谱增益信号在多个先前的时帧内相对于谱增益的变化率而产生调节后的增益信号。之后,调节后的增益信号应用于谱信号,然后转换为其时域当量。US 6,088,668描述了一种噪声抑制器,其包括信噪比(SNR)确定器、通道增益确定器、增益平滑器和乘法器。SNR确定器确定输入信号每通道的SNR。通道增益确定器确定每第i通道的通道增益。增益平滑器产生每第i通道的平滑增益,及乘法器使输入信号的每一通道与其相关联的平滑增益相乘。US 7,016,507描述了一种降噪算法,其具有两个目的,即相对于噪声增强语音及为压缩电路提供相对干净的信号。在实施例中,引入遗忘因子以减慢衰减函数中的急剧增
益变化。
发明内容
由音频处理算法如降噪算法产生的非自然信号的量可通过检测波动的增益并在这些情形下有选择地减小增益而得以明显减小。在本说明书中,术语增益广义地理解为包括衰减,S卩非对数标度上的增益因数大于或等于0,及高于和低于1 (衰减),或按dB计的增益因数包括正、零及负值(衰减)。图1示出了可怎样实施这样的检测装置。在每一子频带中,增益差定义为当前增益和先前增益之间的差。之后,该差随着时间的过去进行平滑。平滑例如可实施为HR滤波器或IIR滤波器,例如具有不同的上升时间和释放时间(HR=有限脉冲响应,IIR=无限脉冲响应)。之后,平滑后的增益值转换为0和1之间的数,其随后乘以按dB计的增益。 这样的转换的例子在图2中示出。本发明的目标在于提高用户对已经历一个或多个音频处理算法的声信号的感知。
本发明的目标由所附权利要求及下面的描述中限定的发明实现。石角育P匕自言胃白々力fe本申请的目标由减少用于将随时间和频率而变的增益应用于输入信号的音频处理算法中的非自然信号的方法实现。该方法包括-提供多个相邻时帧中的输入信号的时频表示i(k,m),每一时帧包括多个时频单元,每一时频单元包括输入信号的复值或实值,k、m分别为频率和时间指数;-将音频处理算法应用于输入信号的时频表示并提供估计的算法输出信号;-对输入信号的至少一频率,确定给定时帧的时频单元的估计的算法输出信号的值和在前时帧的该值之间的差;-确定所述差的量值的度量;-提供量值差的度量的时间平均值;-基于量值差的度量的时间平均值提供置信估计量,随着量值差的度量的时间平均值递增,置信估计量从最大值朝向最小值递减。本发明的优点在于提供确定及可能减少用于处理时频表示的音频信号的算法中的非自然信号的工具。在音频处理的上下文中,术语“非自然信号”意为因信号处理(数字化、降噪、压缩等)引起的、在呈现给听者时通常不被感知为自然声音的音频信号部分。非自然信号通常称为音乐噪声,其由所得信号中的随机谱峰值引起。这样的非自然信号听上去像短纯音。 音乐噪声例如在[Berouti et al. ; 1979]、[Cappe ; 1994]和[Linhard et al. ; 1997]中描述。在本说明书中,术语“估计的算法输出信号”意为没有本发明中提出的非自然信号减少措施时音频处理算法的输出。术语“改善的算法输出信号”意为已经历本发明中提出的非自然信号减少措施时音频处理算法的输出。相较“估计的算法输出信号”,“改善的算法输出信号”包含更少的非自然信号。优选地,估计的算法输出信号在与输入信号一样的频率单元中进行估计(即估计的算法输出信号的值在与输入信号一样的频率单元Af1,Af2,..., AfK(或至少其部分) 中提供,例如参见图3)。总的来说,音频处理算法可以是导致相当快速变化的增益或衰减的任何类型的算法,例如降噪算法、语音增强算法(例如参见[Ephraim et al;1984]等)。音频处理算法可适于对源自单一或源自多个输入变换器的输入信号起作用。在实施例中,本发明方法包括步骤将置信估计量应用于估计的算法输出信号从而提供改善的算法输出信号ο (k,m)。作为备选或另外,置信估计量用作另一算法或检测器如用于估计回响的算法的输入。输入信号可以是模拟或数字时变信号。输入信号可由按绝对(如伏特或安培)或相对(如dB)项测量的(时变)信号值表示。输入信号可以是相对增益(如按dB测量) 或归一化增益(或衰减),得到0和1之间的值(其可在后来转换为相对增益(或衰减), 例如按dB测量),例如平方归一化增益(或升到不同于2的任何其它幂的归一化增益)。在实施例中,给定时帧的时频单元的估计的算法输出信号的值与在前时帧的该值之间的差针对至少两个频率或频带进行确定,例如针对大部分频率或频带,如针对输入信号的所有频率或频带(因而确定估计的算法输出信号)。在实施例中,估计的算法输出信号的每一频带的进行比较的值(如信号值或增益或衰减值)按实际值(如声压或电压或电流)、或归一化值(如0和1之间)、或相对值(如按dB)提供。在实施例中,估计的算法输出信号的每一频率或频带的进行比较的值按归一化值提供,例如位于0和1之间。在实施例中,归一化增益或衰减转换为按dB测量的增益或衰减。在实施例中,给定时帧的时频单元的估计的算法输出信号的值与在前时帧的该值之间的差或平均差提供为如转换为0和1之间的数。总的来说,如果置信估计量高,则音频处理算法的效果保持不变。优选地,如果置信估计量低,则音频处理算法的效果减小(例如消除)。在实施例中,改善的算法输出信号o(k,m)表达为置信估计量ce(k,m)乘以估计的算法输出信号eao(k,m),即o(k,m) = ce (k,m) *eao (k,m)。在实施例中,置信估计量ce (k, m)大于或等于0,如在0到1的范围中。在实施例中,如果置信估计量ce(k,m)达到其最大值,则估计的算法输出信号 eao (k,m)保持不变。换言之,改善的算法输出信号ο (k,m) = eao(k,m) (ce(k,m) = 1)。在实施例中,如果置信估计量达到其最小值,则估计的算法输出信号eao(k,m)减小(如果其为增益或衰减,则从初始值朝向OdB减小)。换言之,改善的算法输出信号ο (k,m) =ce(k, m)*eao(k,m),其中 ce(k, m) < 1,例如=0。在实施例中,仅考虑估计的算法输出信号的量值。在实施例中,估计的算法输出信号的量值差的度量被发现为差的绝对值。在实施例中,估计的算法输出信号的量值差的度量被发现为差的平方绝对值。在该情形下,置信估计量对应于估计的算法输出信号的方差。在实施例中,(给定时帧的时频单元的估计的算法输出信号的值与在前时帧的该值之间的)量值差的度量在预定时间段求平均。在实施例中,预定时间段与用于使输入信号数字化的模数转换器的采样频率有关。在实施例中,预定求平均时间段对应于预定数量的时帧,例如多于5个时帧,如多于10个时帧,如从5到15的时帧数。在实施例中,(给定时帧的时频单元的估计的算法输出信号的值与在前时帧的该值之间的)量值差的度量使用可能具有不同的上升和释放时间的UR低通滤波器进行平均。在实施例中,置信估计量随时间平均量值差递增而单调减小。在实施例中,当量值差的时间平均度量低于预定的第一阈值水平Δ 1时,置信估计量具有第一高值PH(如1)。在实施例中,当量值差的时间平均度量高于预定的第二阈值水平Δ 2时,置信估计量具有第二低值PL (如0)。在实施例中,置信估计量为具有0和1之间的值的置信概率。在实施例中,当量值差的时间平均度量从预定的第一阈值水平△ 1增加到预定的第二阈值水平Δ 2时,置信估计量单调如线性从第一高值PH减小到第二低值PL。在实施例中,第一和第二阈值水平吻合(ΔΙ = Δ2)。在实施例中,在前时帧为前一时帧。在实施例中,给定时帧(m)的时频单元(k, m)的估计的算法输出信号的值eao(k,m)与在前时帧(m-Ι)的该值之间的量值差的度量 Δ eao (k,m)为 Δ eao (k,m) = | eao (k,m)-eao (k,m_l) |。作为备选,Δ eao (k,m) = |eao(k,m)-eao(k,m-l) |2或一些其它的度量表示两个值(可能为复值)之间的差。在实施例中,使用基于声源的空间分隔的降噪算法。在实施例中,降噪算法基于时频掩蔽(基于二进制或非二进制时频表示)。在实施例中,本发明方法用于检测给定声环境(如房间)中的回响。许多空间决策采取点声源。在回响环境中声源变得散射,对于采取点声源的一些算法,散射声可导致跨时间快速波动的输入增益估计量。因此,检测到波动增益将表明听者处于回响房间中。例如,这可通过分析来自音频处理算法的输出的量值差度量跨时间和频率的平均和而实现。在量值差度量的平均和高于预定量的情形下,确定快速变化的增益,及可能为回响。该信息优选可与当前声环境的其它指示器如一个或多个传感器组合。在实施例中,量值差度量与水平检测度量结合(两个度量均高于指示回响的预定水平)。在实施例中,来自双耳验配的两个听力仪器的对应数据进行比较以确定回响。如果来自两个听力仪器的量值差度量相等(或在彼此的预定差内),则可能为回响。咅频处理装置本申请进一步提供用于将随时间和频率而变的增益应用于输入信号的音频处理装置。该音频处理装置包括-T-TF单元,用于提供输入信号的时频表示,时频表示包括多个相邻时帧,每一时帧包括多个时频单元,每一时频单元包括输入音频信号在特定时间和频率的复值或实值;-音频处理单元,用于基于输入信号的时频表示提供估计的算法输出信号;-非自然信号减少单元,适于通过下述步骤提供改善的算法输出信号-对输入信号的至少一频率,确定给定时帧的时频窗口(bin)的估计的算法输出信号的值和在前时帧的该值之间的差;-确定所述差的量值的度量;-对预定时间段的量值差度量求平均;-基于量值差度量的时间平均值提供置信估计量,随着量值差度量的时间平均值递增,置信估计量从最大值朝向最小值递减。当由对应的结构特征适当替代时,上面描述的、“具体实施方式
”中详细描述的及权利要求中限定的方法的过程特征可与本发明装置结合,反之亦然。装置的实施例具有与对应方法一样的优点。在实施例中,音频处理装置包括组合单元,用于将置信估计量应用于估计的算法输出信号从而提供改善的算法信号。作为备选或另外,听音装置可包括另外的处理单元,适于在该装置的信号或该装置的声环境(如回响)的另外的处理或评估中使用置信估计量。通常,根据本发明的音频处理装置包括信号或正向通路(用于将随频率而变的增益应用于输入信号)及分析通路(用于分析输入信号及可能确定将在信号通路中应用的增益或对这样的确定起作用)。总的来说,本发明的概念和方法可在系统中使用,其中输入信号在信号通路中在时域进行处理及在分析通路中在频域进行分析(例如参见图6a)。在实施例中,信号在信号通路及分析通路中在频域进行处理。本发明的非自然信号减少算法通常将在音频处理装置的分析通路中使用(例如参见图6)。在实施例中,音频处理装置包括用于增强输入信号并提供处理后的输出信号的信号处理单元。在实施例中,信号处理单元适于提供随频率而变的增益以补偿用户的听力损失。在实施例中,音频处理算法(如降噪算法)和非自然信号减少算法由信号处理单元执行。在实施例中,音频处理装置包括输入变换器(传声器系统和/或直接电输入(如无线接收器))和输出变换器之间的信号或正向通路。在实施例中,信号处理单元适于根据用户的特定需要向正向通路的信号提供随频率而变的增益。在实施例中,音频处理装置包括用于接收直接电输入的接收器单元。接收器单元可以是包括天线、接收器和解调电路的无线接收器单元。作为备选,接收器单元可适于接收有线直接电输入。直接电输入可包括输入音频信号(全部或部分)。在实施例中,音频处理装置包括用于将电信号转换为用户感知为声信号的刺激的输出变换器。在实施例中,输出变换器包括多个耳蜗植入的电极或骨导听力装置的振动器。 在实施例中,输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施例中,音频处理装置如听音装置或通信装置包括AD转换单元,用于以采样频率fs对模拟电输入信号进行采样并将包括输入信号(振幅)在相邻时间点tn = n*(l/ fs)的数字时间样本\的数字化电输入信号(如输入音频信号)提供为输出,η为样本指数,例如整数η = 1,2,...,表示样本数。X个样本的持续时间因而由X/fs给出。在实施例中,相邻的样本^安排在时帧Fm中,每一时帧包括预定数量⑴)的数字时间样本S(1(q = 1,2,. . .,Q),对应于帧时长L = Q/fs,其中fs为模数转换单元的采样频率 (每一时间样本包括信号的振幅在特定采样时间tn(或η)的数字化值sn(或s (η)))。原则上,一帧可以为任何时长。通常,相邻的帧具有相等的时长。在本说明书中,时帧通常为 ms级,例如多于:3ms (在fs = 20kHz时对应于64个样本)。在实施例中,时帧具有至少8ms 的时长,如至少2%is,如至少50ms,如至少80ms。总的来说,采样频率可以为适合应用的任何频率(例如考虑功耗和带宽)。在实施例中,模数转换单元的采样频率fs大于1紐2,如大于4kHz,如大于8kHz,如大于16kHz,例如20kHz,如大于MkHz,如大于32kHz。在实施例中,采样频率在IkHz和64kHz之间的范围内。在实施例中,输入信号的时帧通过逐帧变换时帧而处理为时频表示以提供对应的频率样本的谱(k = 1,2,. . .,K,例如通过傅里叶变换算法),时频表示由TF单元(k,m)构成,每一 TF单元包括输入信号在特定时间(m)和频率 (k)单元的复值(量值和相位),例如参见图3。给定时间单元(m)中的频率样本可安排在频带FBjG = 1,2, ...,J)中,每一频带包括一个或多个频率单元(频率样本),例如参见图3。在实施例中,音频处理装置包括适于将佩戴音频处理装置的用户的局部环境中的两个以上声源分离的定向传声器系统。在实施例中,定向系统适于检测(如自适应检测) 传声器信号的特定部分源自哪一方向。这可以多种不同的方式实现,例如US 5,473,701或 WO 99/09786A1 或 EP 2088802A1 中描述的方式。在实施例中,音频处理装置包括反馈通路估计单元。在实施例中,反馈通路估计单元包括自适应滤波器。在特定实施例中,自适应滤波器包括可变滤波器部分和自适应算法部分,算法部分例如包括LMS或RLS算法,用于更新可变滤波器部分的滤波器系数。自适应滤波器的各个方面例如在[Haykin]中描述。在特定实施例中,音频处理装置包括话音检测器(VD),用于确定输入音频信号是否包括话音信号(在给定时间点)。在本说明书中,话音信号包括来自人类的讲话信号。其还可包括由人类语言系统(如唱歌)产生的其它形式的发声。在实施例中,话音检测器适
8CN 102543095 A
于将用户当前的声环境分类为话音或无话音环境。这具有可确定输入音频信号包括用户环境中的人类发声(如讲话)的时间段的优点,因而与仅包括其它声源(如人工产生的噪声) 的时间段分离。在实施例中,当检测到话音时,话音检测器适于应用非自然信号减少算法 (当检测到无话音时,禁止非自然信号减少算法以节能)。这样的话音和/或自我话音检测器例如可进一步用作补充确定如上所述的房间回响的传感器。音频处理装置包括TF转换单元(例如参见图6中的T- > TF单元),用于提供输入信号的时频表示。在实施例中,时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中,TF转换单元包括滤波器组,用于对(时变)输入信号进行滤波并提供多个(时变)输出信号,每一输出信号包括输入信号的完全分开的频率范围。在实施例中,TF转换单元提供输入音频信号的时频表示。在实施例中,TF转换单元包括傅里叶变换单元,用于将时变输入信号转换为频域的(时变)信号。在实施例中,音频处理装置考虑的频率范围从最小频率fmin延伸到最大频率fmax并包括典型的人听得见的、 从20Hz到20kHz的频率范围的一部分,例如从20Hz到12kHz的范围的一部分。在实施例中,音频处理装置考虑的频率范围fmin_fmax拆分为P个频带,其中P例如大于2,如大于5,如大于10,如大于50,如大于100,其中至少部分在至少部分处理步骤中个别进行处理(和/ 或分析)。频带可以为均勻宽度或非均勻宽度(如宽度随频率增加),例如参见图3。在实施例中,音频处理装置包括用于确定或估计输入信号的量值水平的水平检测器。在实施例中,音频处理装置包括水平决定单元。水平决定单元包括用于估计输入信号的水平的水平检测器和用于将输入水平估计量转化为输入水平加权因子的决定单元。在实施例中,水平决定单元的输出馈给非自然信号减少单元。水平决定单元的目的在于降低输入信号中具有相对低水平的时频单元在非自然信号减少单元中的权重(其中可能的波动因噪声引起)。在实施例中,音频处理装置还包括针对所涉及应用的其它相应功能,如音频压缩寸。在实施例中,音频处理装置适于实现非自然信号减少方案在特定时间应用于一个以上音频处理算法,使得降噪算法和另一算法的输出同时(或顺序)经受该方案以减少因一个以上音频处理算法引入的非自然信号的总数。在实施例中,音频处理装置包括广播系统、远程会议系统、娱乐系统、通信装置、或听音装置,例如助听器,如听力仪器或头戴式耳机。在实施例中,音频处理装置包括便携式
直ο音频处理装置的用途此外,本发明提供上面描述的、“具体实施方式
”中详细描述的及权利要求中限定的音频处理装置或音频处理系统的用途。在实施例中,提供在广播系统、远程会议系统、娱乐系统、通信装置、或听音装置,例如助听器,例如听力仪器或头戴式耳机中的用途。在实施例中,提供在双耳助听器系统中的用途。这具有来自独立音频处理算法的增益波动数据可进行比较并用于指示声环境和/或所接收的音频信号的性质(如与回响有关的性质)的优点。在实施例中,用于在回响检测器中估计回响。音频处理系统—方面,本发明提供包括第一和第二上面描述的、“具体实施方式
”中详细描述的及权利要求中限定的音频处理装置的音频处理系统。第一和第二音频处理装置分别产生第一和第二置信估计量(如概率)。在实施例中,每一音频处理装置包括用于建立到另一装置的双向链路的(无线)收发器并适于将置信估计量(或源自其的度量)传给另一音频处理装置。在实施例中,每一音频处理装置适于比较第一和第二置信估计量(或源自其的度量)并产生因而得到的置信估计量(或源自其的度量,例如回响估计量,例如概率),该因而得到的置信估计量应用于相应的估计的算法输出信号(如噪声减少的输出信号)。在实施例中,产生第一和第二置信概率(或源自其的度量)的平均(如加权平均)并用于应用于相应的估计的算法输出信号(如噪声减少的输出信号)。在实施例中,每一音频处理装置包括用于建立到另一装置的双向链路的无线收发器并适于将部分或全部音频信号(例如除控制信号之外,还包括音频处理算法的置信估计量)传给另一音频处理装置。在实施例中, 第一和第二音频处理装置中的每一个包括听力仪器,音频处理系统因而包括具有适于由用户佩戴在用户的相应耳朵之处或之中的第一和第二听力仪器的双耳助听器系统。计算机可读介质本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、“具体实施方式
” 中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。除了保存在有形介质如磁盘、⑶-ROM、DVD、硬盘、或任何其它机器可读的介质上,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。数据处理系统本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式
”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。本发明的进一步的目标由从属权利要求和本发明的详细描述中限定的实施方式实现。除非明确指出,在此所用的单数形式的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、 整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接” 或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
本发明将在下面参考附图、结合优选实施方式进行更详细地说明。图1示出了用于检测波动的输入增益及在这些情形下减小增益从而提供改善的信号的非自然信号减少单元的实施例。图2示出了用于使非自然信号最小化的增益减小策略的例子。图3为信号的时频映射的示意性图示,示出了均勻和非均勻的频带。
图4示出了偏移检测怎样用二进制增益作为输入进行工作的例子。图5示出了偏移检测怎样用连续增益作为输入进行工作的例子。图6示出了根据本发明实施例的音频处理装置的多个实施例。图7示出了使用本发明的非自然信号减少方法的例子,曲线(a)-(h)分布在分别标记为图7a和图7b的两页中。图8示出了用于确定回响的音频处理系统。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域的技术人员来说,从下面的详细描述可显而易见地得出其它实施方式。
具体实施例方式图1-8示出了本发明的方法和系统。图1示出了用于检测波动的输入增益及在这些情形下减小增益从而提供改善的信号的非自然信号减少单元的实施例。输入信号由表示给定时间和频率的信号量值的大于或等于0的数表示(例如由0 和1之间的数表示或等于0或1)。为检测快速增益变化,发现从一时帧到下一时帧的增益变化(参见时延单元“Z-1”及求减单元“+-”,提供图1中的增益差)。确定和平滑(平均) 信号的量值(分别参见图1中的量值和平滑单元)。量值单元(量值)可实施为“abs”或 “abs2”单元(分别指用于计算“abs”值和“abs”的平方值的单元)。平滑单元(平滑)可通过一阶IIR滤波器(或FIR滤波器)实施,可能具有不同的上升和释放时间。平滑后的值(在此)变换为0和1之间的慢速变化的平均值(指在决定增益时可怎样确信的值,参见图1中的“Ι0Μ”单元),其与时变增益相乘(参见图1中的乘法单元“X”,其中增益决定信号置信乘以预定增益“按dB计的增益”以对所涉及频率提供改善的增益值形式的输出信号)。时变增益(图1中标记为“按dB计的增益”)为来自音频处理算法的输出,例如等于输入信号,可能除对数变换之外,将输入信号提供为按dB计的增益。图2中示出了用于将偏移数量(由两个时刻之间的信号的量值差表示,对预定时间段求平均)映射到置信水平的可能方案(由图1中的IOM单元执行)。如果从一时帧到下一时帧的增益变化的(平均)量小Δ 1,在图2中标记为较少偏移),则没有(或较少)非自然信号引入信号中及由处理算法提供的增益(或衰减)(在所涉及时频单元中) 不应减小。然而,如果增益变化的(平均)量较高O Δ1,在图2中标记为——^许多偏移),则听得见的非自然信号的概率较高,输出增益(或衰减)应减小(=>所涉及处理算法的影响较小)。在图2的示例性方案中,示出了在从Δ1到Δ2的范围中,置信水平(图 2中的增益置信)从1到0线性减小。作为备选,根据应用,曲线的形状可以为非线性,如指数的,例如S形(如双曲正切)。在实施例中,随着“平均偏移数量”递增(或“时间平均量值差”递增),置信水平从最大值朝向最小值单调减小。在超过边界水平Δ2(定义图2中的许多偏移的最小值)之后,置信水平设为0。这可导致(对所涉及的时频单元)减小的值分配给音频处理算法的信号输出。最终,忽略处理算法的影响的值可分配给音频处理算法
11的信号输出。在实施例中,当音频处理算法提供二进制输出增益时,在“较少”和“许多”偏移之间区分的单一边界水平Δ0在50个时帧中的1-10个的范围中。在实施例中,确定预定数量Nprf的最近时帧的连续偏移数量<nshift (NpJ > (例如信号的二进制表示的),例如最后10或50或100个时帧。在实施例中,确定音频处理算法的输出信号(例如信号的二进制表示)在预定数量Nprf的最近时帧的连续量值差平均^d (Nprf) >,例如最后10或50 或100个时帧。关于图2,对于信号的归一化(二进制或非二进制)表示,Δ1和Δ2的示例性的值分别选择为0. 05-0. 2和0. 1-0. 3。总的来说,“较少”和“许多”偏移(或对应的阈值)相对于平均时间进行定义。在实施例中,如果时间平均量值差小于或等于0.05(或 0. 1)(对映射在0和1之间的间隔上的归一化增益值),(给定时频单元的)输入信号包含 “较少”偏移。在实施例中,对应地,如果时间平均量值差大于或等于0. 1(或0.2),(给定时频单元的)输入信号包含“许多”偏移。在实施例中,时间平均量值差针对所有先前的样本求平均(如由HR滤波器实施)。在实施例中,时间平均量值差针对预定数量的先前样本求平均(如由HR滤波器实施)。IOM单元的输入为每帧增益偏移数量的平滑后的估计量(时间平均量值差),及输出为乘以预定增益(或衰减)的值。当平均偏移数量或平均量值差低时,增益(或衰减)不被减小,但当增益(或衰减)相当波动时,减小增益(或衰减)以减少非自然信号的数量。 在实施例中,当偏移数量或平均量值差大于预定数(如图2中的Δ2,对应于许多偏移,及增益置信为0)时,将增益(或衰减)减小(朝向OdB)预定量。在实施例中,当偏移数量(或时间平均量值差)大于预定数时,将增益(或衰减)减小为OdB。图3示意性地示出了输入音频信号的时频映射。时变输入信号s (η)按时频表示 s(k,m)示出,包括多个窗口(或作为备选,称为时频单元)如DFT窗口(DFT=离散傅里叶变换,也可使用其它变换)中的信号的量值可能及相位值,时频单元由指数(k,m)定义,其中k = 1,...,K表示K个频率值,m= 1,...,M表示M个时帧,时帧由特定时间指数m和对应的K个DFT窗口定义。这对应于均勻频带表示,每一频带包括对应于特定频率和时间的信号的单一值,频率单元等距(均勻)。这在图3中示出并可以为安排在时帧中的数字化信号的离散傅里叶变换的结果,每一时帧包括输入信号(振幅)在相邻时间点、=q*(l/ fs)的多个数字时间样本s,,q为样本指数,例如整数q= 1,2,...指样本号,及fs为模数转换器的采样率。在实施例中,采样率在从IOkHz到40kHz的范围中,例如大于15kHz或大于 20kHz。图4和图5分别示出了偏移检测以二进制增益和连续增益作为输入(参见图1中的输入信号)怎样进行工作的例子。图4示出了提供二进制增益(如衰减)的音频处理算法的例子。上面部分示出了输入增益与时间(时帧数)的关系。中间部分的绘图示出了对应的输入增益差。无论输入增益(G)在何时波动,增益差的量值(I AGl)为1 ;否则为0(即如果|G(m)-G(m-l) |乒0,
AGl =1;否则AG| =0)。底部部分中的绘图示出了对应的平滑后的(平均)差与时间的关系。两条点水平线指示阈值,确定输入-输出映射中的两个拐点(例如参见图2中的 Δ1、Δ2)。如果平滑后的差高于Δ 1,则减小衰减(朝向OdB)以减少因增益波动引入的非自然信号。在实施例中,平滑后的增益差(底部曲线)通过例如用一阶IIR滤波器对增益差(中间曲线)进行滤波而提供。
图5与图4类似,但用0和1之间的连续增益代替二进制增益。作为备选,输入增益值可以为大于或等于0的绝对值或它们可以为按dB计的相对值。本发明概念的优点在于其为减少音频处理算法尤其是TF掩蔽算法中的非自然信号的有力工具。图6示出了音频处理装置如听音装置、听力仪器的实施例,包括非自然信号减少 (AR)单元、信号处理算法SP(如降噪算法(Ni ))和进一步增强信号RG的单元,例如通过应用随频率而变的增益(HA-G)。图6a示出了根据本发明实施例的音频处理装置。音频处理装置包括输入变换器单元IT (如包括传声器或传声器系统和/或无线接收器,参见图6f),用于提供电输入(音频)信号(如通过将输入声音转换为电信号如数字信号)及从另一装置接收这样的信号 (如通过有线或无线方式)。音频处理装置还包括输出变换器单元OT (如包括扬声器),用于将(处理后的)电信号转换为输出声音(或由人感知为声信号的信号)。输入变换器和输出变换器之间的信号通路(参见图6a中标记为信号通路的虚线箭头)包括处理单元RG, 用于在信号呈现给用户之前增强信号,例如通过将所得的增益应用于该信号实现。输入变换器和处理单元RG之间的分析通路(参见图6a中标记为分析通路的虚线箭头)包括时间到时频变换单元T- > TF,用于按多个相邻时帧IG-TF中的频带表示提供电输入信号。输入音频信号的频带表示由信号处理器SP中的处理算法(如降噪算法)进行处理,其处理输入信号IG-TF并提供处理后的输出信号SP-G(如以归一化形式,例如具有0和1之间的值)。 信号处理器AR中的非自然信号减少算法分析来自信号处理器SP的处理后的输出信号SP-G 的频带表示并将指示处理后的输出信号跨频带的时间的信号值波动(从1值变为另一值) 的信号P (SP-G)提供为输出,输出信号ρ (SP-G)表示波动概率,如某一数量的时间单元的平均。音频处理系统还包括组合单元(在此为乘法单元“X”),其中处理算法的输出信号SP-G 与指示输出信号SP-G的变化趋势的信号p(SP-G)结合并将调节后的信号SP-G’提供为输出,其用于控制或影响来自处理单元RG的输出信号(如确定因而得到的增益(dB),例如通过设置可变滤波器的滤波器系数或向增益增加所确定或所请求的增益或减去该增益)。处理单元RG的输出在此馈给输出变换器OT以呈现给用户,但作为备选,可在适当的处理单元中经受另外的处理(和/或通过有线或无线方式传给另一单元)。在图6a的实施例中,信号通路(包括处理单元RG)在时域处理输入音频信号,而信号通路因而得到的增益的分析和控制在频域确定。总的来说,图6b、6c、6d、6e和6f中所示的音频处理系统的实施例包括与图6a中所示和如上所述的实施例一样的元件。然而,分析通路和信号通路分别在频域分析和处理输入音频信号。因此,时频变换单元T-> TF的输出(IG-TF)也连接到处理单元RG。信号通路因而还包括时频到时间转换单元TF- > T,用于将处理后的信号在经输出变换器OT呈现给用户之前从频带表示转换为时域表示。所提及的差异在图6b的实施例中示出(与图 6a的实施例的唯一差异)。图6c中所示的音频处理系统的实施例不同于图6b的实施例之处在于时频变换单元T- > TF的输出(IG-TF)另外连接到水平决定单元LDU。水平决定单元LDU包括用于估计输入信号(IG-TF)的水平的水平检测器和用于将输入水平估计量转化为输入水平加权因子LWF的决定单元,从而形成水平决定单元LDU的输出并馈给非自然信号减少单元AR。水平决定单元LDU的目的在于,在输入信号具有相对低水平时(其中可能的波动因噪声引起),减小在时频单元的非自然信号减少单元AR中的权重,还可参见结合图8对水平决定单元LDU的描述,其目的和功能均一样。图6d中所示的音频处理系统的实施例不同于图6b的实施例之处在于输入变换器为传声器系统,其将时频表示中的(可能定向的)信号IG-TF提供为输出,传声器系统包括模数转换单元(A/D)和时间到时频转换单元(T- > TF)。分析通路中的处理算法假定为降噪算法(参见处理单元NR和输出信号NR-G,在降噪算法已应用于输入信号IG-TF之后提供信号增益值。此外,来自信号处理器AR的指示输出信号NR-G的波动的输出信号由ρ (NR-G) 指明)。还可以预见,音频处理装置为助听器(参见信号通路中标记为HA-G的信号处理单元,提供所请求的助听器增益输出信号HA-G。所请求的助听器输出信号HA-G(例如根据用户的听力仪器提供随频率而变的增益,例如不包括降噪)在组合单元“X”中与改善的降噪信号NR-G’组合(提供随时间和频率而变的增益减小(衰减))以按时频表示提供改善的助听器增益0G-TF。来自组合单元“X”的改善的信号OG-TF在此适于经输出变换器单元(除输出变换器功能之外,还包括时频到时间(TF->T)转换功能及可能包括数模(D/A)转换功能)呈现给用户。例如,如果降噪算法(在给定时频单元中)建议最大衰减IOdB(对应于信号NR-G)及非自然信号减少算法提供0.5的波动概率(对该时频单元),因而得到的增益为-5dB(对该时频单元)。这样得到的增益(dB)根据个人的听力受损情况与所请求的增益组合。在该情形下,所得的增益比(HA-G的)所请求的增益低5dB,在没有非自然信号减少的情形下,降噪算法独自将导致所得的增益比所请求的增益低10dB(对该时频单元))。 作为例子,如果改善的算法输出信号为意于添加到所请求的助听器增益输出信号HA-G或从其减去的dB值(在给定时频单元),将改善的助听器增益OG-TF提供为输出的组合单元 “X”应为加法单元(+)。图6e中所示的音频处理装置(如助听器)的实施例与图6d —样,但图6d的传声器系统在图6e中由两个传声器单元Ml、M2例示,用于拾取时变声输入声音信号ζ (t)并将其转换为相应的(数字)电输入信号,其在DIR,T-> TF单元中转换为时频表示并可能经受定向提取,这提供时频表示的输入信号i(k,m),其中k和m分别为频率和时间指数。根据本发明的音频处理装置的最小结构由非自然信号减少单元AR、信号处理单元SP和组合单元“X”(根据所涉及的应用,如乘法器或加法器单元)体现,如标记为APD的点框所示,其输入信号为i(k,m)及其输出信号为o(k,m)。表示改善的处理增益(如在降噪后)的输出信号o(k,m)乘到(或加到)从信号通路的信号处理单元HA-G请求的增益以提供改善的助听器增益or (k,m)。图6d的输出变换器单元在图6e中例示为时频到时间单元TF- > T及提供改善的时变输出声音信号z’ (t)的扬声器LS。图6f中的音频处理装置的实施例与图6e —样,但输入变换器代替(或作为可选择的备选方案)传声器(或传声器系统)且为包括天线ANT和收发器电路Rx的无线接收器,用于接收(及可能解调)无线传输的输入音频信号zm。来自无线接收器和时间到时频单元Rx、T-TF的输出信号为时频表示的输入音频信号i(k,m)。信号处理单元SPU表示APD、 HA-G和“X”模块及它们如图6d实施例的互相连接,其输出信号or(k,m)表示准备由扬声器LS呈现给用户(在适当转换之后)或进行进一步处理(包括经有线或无线收发器单元传给另一装置)的改善的信号。作为备选,输入音频信号zm也可通过有线接口如DAI接口接收。Mi图7结合图1和2中所示的音频处理装置的实施例示出了本发明方案的用途的例子。曲线图(a)-(h)示出了对于同样的100个时间单元(时帧,m= 1,2,... ,100)的时间段,具有0和1之间的值的归一化信号。曲线图(a)-(h)分布在标记为图7a和图7b的两页上,其中曲线图(a)-(d)在图7a上示出,及曲线图(e)-(h)在图7b上示出。在下面,曲线图(a)-(h)称为图7(a)-7(h)。0 7(a)示出了输入信号I Gvm)(例如对特定频率1 ,量值与时间的关系),其中信号值在前半时间段展现相对较小的量值变化及在后半时间段展现许多偏移。图7(b)的曲线示出了图7(a)的相邻时间单元的信号值之间的量值差,在此使用abs2 (11 (k0, m) -I (k0, m-1) |2)(参见图1中的量值)。图7 (c)的曲线示出了致力于图 7(b)的信号的求平均过程的结果(参见图1中的平滑)。图7(d)中的曲线示出了图7(c) 中的时间平均量值差转换为置信估计量(在此为概率)的结果。已在转换中使用的函数 MIN[1.05*(tanh(-20*x+2)+l)/2,l](参见图1中的IOM及等效于图2的函数)在图7(h) 中示出。图7(e)的曲线示出了在与图7(d)的置信估计量相乘之前(圆圈,图7(a))和之后 (星号)的输入信号。图7(f)中的曲线示出了在从归一化信号转换为按dB计的增益(衰减)信号之后的输入信号(图7(a)),即没有使用本发明的非自然信号减少方案。图7(g) 中的曲线示出了在从归一化信号转换为按dB计的增益(衰减)信号之后的已调节的输入信号(参见图7(e),星号),即示出了本发明的非自然信号减少方案的影响。从图7(f)和 7(g)的后半时间段的比较可清楚看出非自然信号减少方案的效果,尤其在时间单元75-95 附近,在那里输入信号(图7(a))随时间快速波动(及该波动基于非自然信号减少方案在图7(g)的信号中衰减)。图8示出了用于确定回响的音频处理系统。音频处理系统包括第一和第二根据本发明的音频处理装置。第一和第二音频处理装置中的每一个包括两个传声器,用于将输入声音转换为包括音频信号的电输入信号。每一电输入信号中时频转换单元T- > TF中转换到(时_)频域。来自相应T->TF单元的时间到时频转换的电输入信号馈给用于应用处理算法的单元,在此为提供输入信号的随方向而变的处理(如降噪)的随方向而变的增益估计器,例如处理后的增益或衰减或处理后的输入信号的、时频表示的特定值(例如参见图3)。来自相应T- > TF单元的时间到时频转换的电输入信号还馈给水平决定单元LDU。 水平决定单元LDU包括用于将两个时间到时频转换的电输入信号结合为组合输入信号的组合单元“组合”、用于估计组合输入信号的水平并提供组合输入水平估计量的水平检测器 “水平估计”、及用于将组合输入水平估计量转化为输入水平加权因子从而形成水平决定单元LDU的输出的决定单元Ι0Μ。当组合输入水平低于预定值时(输入信号的波动由输入变换器中的(波动)噪声引起),输入水平加权因子相对低(如等于0)。在该情形下,输入水平加权因子的低值确保具有小输入信号水平的(可能波动的)时频单元被抑制(通过乘到处理后的输入信号的时频表示)。另一方面,当组合输入水平高于预定值时,输入水平加权因子相对高(如等于1)。类似地,可预见逐步决定映射(I/O映射)(例如参见图2及相应的描述,其中水平轴应为估计的输入水平,及曲线应镜像在纵轴附近)。输入水平加权因子馈给组合单元(在此示为乘法单元“X”),其与来自处理算法的处理后的输入信号的时频表示(模块随方向而变的增益估计器)组合(在此为相乘)。所得的改善的处理后的输入
15信号馈给增益置信估计器(参见先前结合图6描述的非自然信号减少单元),在那里提供改善的处理后的输入信号的波动的平均度量(如对每一时频单元),称为增益置信信号。增益置信信号馈给回响检测单元,其中当前装置的增益置信信号(可能及从另一装置接收的相应增益置信信号,参见下述)被分析并提供给定时帧或多个时帧和/或一个或多个时帧的多个频带中输入信号中出现的回响的估计量。回响估计量基于相应时频单元中的增益置信信号的值的(可能加权的)和。增益置信信号的值的和相对大表明输入信号中偏移相对较少,从而表明相对小的回响,反之亦然。从相对低到相对高概率回响的逐步转变可在回响检测单元中实施(例如参见图2及相应的描述,图2中的水平轴应表示增益置信信号的值的和)。因此,第一和第二音频处理装置分别产生第一和第二置信估计量(如概率),和/ 或得到所涉及装置接收的输入信号中出现的回响(概率)的第一和第二估计量。图8的系统的每一音频处理装置包括用于建立到另一装置的双向链路(图8中的Comm.链路)的 (无线)收发器并适于将置信估计量(或源自其的度量)传给另一音频处理装置。每一音频处理装置适于比较第一和第二置信估计量(或源自其的度量,如回响概率)并产生因而得到的、应用于第一和第二装置的相应估计的算法输出信号(如噪声减少的输出信号)的置信估计量(或源自其的度量)。在实施例中,产生第一和第二置信概率(或源自其的度量)的平均值(如加权平均值)并用于应用于相应的估计的算法输出信号(如噪声减少的输出信号)。如果回响概率(或置信估计量)之一明显不同于另一个,这表明没有回响或回响小(因为回响效果假定导致空间分布的散射信号)。另一方面,如果两个度量实质上相等,回响结论可基于这些度量。在实施例中,每一音频处理装置包括用于建立到另一装置的双向链路(图8中的Comm.链路)的无线收发器并适于将部分或全部音频信号(除控制信号之外,还包括音频处理算法的置信估计量或输入信号的回响概率)传给另一音频处理装置。在实施例中,第一和第二音频处理装置中的每一个包括听力仪器,音频处理系统因而包括具有适于由用户佩戴在其相应耳朵之处或之中的第一和第二听力仪器的双耳助听器系统。本发明由独立权利要求的特征限定。从属权利要求限定优选实施例。权利要求中的任何附图标记不意于限定其范围。一些优选实施例已经在上述内容中进行了说明,但是应当强调的是,本发明不受这些实施例的限制,而是可以权利要求限定的主题内的其它方式实现。参考文献
US6,351,731
us6,088,668
us7,016,507
us5,473,701
WO99/09786A1
EP2088802A1[Haykin]S. HaykiniAdaptive filter theory(Fourth Edition),Prentice Hall, 2001.[Berouti et al. ; 1979]Μ. Berouti, R. Schwartz and J. Makhoul,“Enhancementof speech corrupted by acoustic noise"Proc IEEE ICASSP,1979,4,pp.208-211.[Cappe ; 1994]Olivier Cappe, “ Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor,“ IEEE Trans, on Speech and Audio Proc.,vol. 2,No. 2,Apr. 1994,pp. 345-349.[Linhard et al. ; 1997]Klaus Linhard and Heinz Klemm,"Noise reduction with spectral subtraction and median filtering for suppression of musical tones,“ Proc. of ESCA-NAT0 Workshop on Robust Speech Recognition for Unknown Communication Channels,1997,pp 159-162.[Ephraim et al. ; 1984]Ephraim,Y. & Malah,D. “ Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator “ , IEEE Trans. Acoustics Speech and Signal Processing,32(1984), pp.1109-1121.
权利要求
1.减少用于将随时间和频率而变的增益应用于输入信号的音频处理算法中的非自然信号的方法,所述方法包括-提供多个相邻时帧中的输入信号的时频表示i(k,m),每一时帧包括多个时频单元, 每一时频单元包括输入信号的复值或实值,k、m分别为频率和时间指数;-将音频处理算法应用于所述输入信号的所述时频表示并提供估计的算法输出信号; -对所述输入信号的至少一频率,确定给定时帧的时频单元的估计的算法输出信号的值和在前时帧的该值之间的差; -确定所述差的量值的度量; -提供量值差度量的时间平均值;-基于量值差度量的时间平均值提供置信估计量,随着量值差度量的时间平均值递增, 置信估计量从最大值朝向最小值递减。
2.根据权利要求1的方法,还包括步骤将所述置信估计量应用于估计的算法输出信号从而提供改善的算法输出信号ο (k,m)。
3.根据权利要求1的方法,其中所述置信估计量用作处理算法的输入。
4.根据权利要求1的方法,其中时间平均的量值差提供为0和1之间的实数。
5.根据权利要求1的方法,其中当时间平均的量值差低于预定的第一阈值水平Δ1时, 所述置信估计量具有第一高值PH,及其中当时间平均的量值差高于预定的第二阈值水平 Δ 2时,所述置信估计量具有第二低值PL。
6.根据权利要求1的方法,其中所述音频处理算法为降噪算法或语音增强算法。
7.根据权利要求1的方法,其中所述方法用于检测给定声环境中的回响。
8.根据权利要求7的方法,包括分析来自音频处理算法的输出的跨时间和频率的量值差度量平均和。
9.根据权利要求8的方法,其中所述量值差度量与水平检测度量结合以产生回响的指7J\ ο
10.用于将随时间和频率而变的增益应用于输入信号的音频处理装置,所述装置包括-T-TF单元,用于提供输入信号的时频表示,所述时频表示包括多个相邻时帧,每一时帧包括多个时频单元,每一时频单元包括输入音频信号在特定时间和频率的复值或实值; -音频处理单元,用于基于所述输入信号的所述时频表示提供估计的算法输出信号; -非自然信号减少单元,适于通过下述步骤提供置信估计量-对所述输入信号的至少一频率,确定给定时帧的时频窗口的估计的算法输出信号的值和在前时帧的该值之间的差; -确定所述差的量值的度量; -对预定时间段的量值差度量求平均;-基于所述量值差度量的时间平均值提供置信估计量,随着所述量值差度量的时间平均值递增,所述置信估计量从最大值朝向最小值递减。
11.根据权利要求10的音频处理装置,还包括组合单元,用于将所述置信估计量应用于估计的算法输出信号从而提供改善的算法信号。
12.根据权利要求10的音频处理装置,还包括数字滤波器如HR滤波器或UR滤波器,具有不同的上升和释放时间,用于对预定时间段的所述差求平均。
13.根据权利要求10的音频处理装置,还包括水平决定单元,所述水平决定单元包括用于确定或估计输入信号的量值水平的水平检测器和用于将输入水平估计量转化为输入水平加权因子的决定单元。
14.一种音频处理系统,包括第一和第二根据权利要求10的音频处理装置,第一和第二音频处理装置分别产生第一和第二置信估计量,每一音频处理装置包括用于建立到另一装置的双向链路的无线收发器并适于将其相应的置信估计量或源自其的度量传给另一音频处理装置。
15.根据权利要求10的音频处理装置或根据权利要求14的音频处理系统的用途。
全文摘要
本发明公开了用于减少音频处理算法中的非自然信号的方法和装置。该方法包括提供多个相邻时帧中的输入信号的时频表示i(k,m),每一时帧包括多个时频单元,每一时频单元包括输入信号的复值或实值,k、m分别为频率和时间指数;将音频处理算法应用于输入信号的时频表示并提供估计的算法输出信号;对输入信号的至少一频率,确定给定时帧的时频单元的估计的算法输出信号的值和在前时帧的该值之间的差;确定所述差的量值的度量;提供量值差的度量的时间平均值;基于量值差的度量的时间平均值提供置信估计量,随着量值差的度量的时间平均值递增,置信估计量从最大值朝向最小值递减。本发明的目的在于改善用户对经受一个或多个音频处理算法的声信号的感知。本发明可用于音频处理系统如广播系统或听音装置如听力仪器。
文档编号G10L21/00GK102543095SQ20111041017
公开日2012年7月4日 申请日期2011年12月9日 优先权日2010年12月9日
发明者M·S·彼德森 申请人:奥迪康有限公司