ime-delay estimation in the presence of roomreverberationIEEE Trans.Speech Audio Process.,vol.4, pp.l48-152,Mar.l996.")。用于性能统计的语音帧总数为936帧(帧长为1024个采样点)。声 源到前两只传声器间的真实时延为2.0个采样间隔。
[0160]图6是噪声和混响环境下各方法时延估计性能随传声器个数变化的曲线图。图6展 示了噪声(SNR = 1 OdB)和混响(混响时长T6Q = 300ms)环境下,本发明方法与对比方法的时延 估计性能随传声器个数变化的关系。其中对于本发明方法,δ = 0.001。可以看出,随着传声 器个数增加,四种时延估计方法的畸变估计概率和非畸变估计的根均方误差基本上都降 低,说明适当增加传声器个数能有效改善时延估计的鲁棒性。当使用两只传声器进行时延 估计时,所有具有预白化能力的时延估计方法都未获得明显的优势,而原始的MCCC方法具 有一定的鲁棒性。当使用多只传声器时,尽管MCCC方法获得较小的畸变估计概率,但对应的 根均方误差较大。尽管预白化MCCC和多通道空时预测MCSTP方法获得适当的根均方误差,然 而其畸变估计概率较大。相比之下,本发明提出的MCSTGSP方法在畸变估计概率和非畸变估 计的根均方误差间获得了良好的折中,这表明在噪声和混响环境下本发明用于时延估计是 有效的。
[0161] 图7是在噪声环境下各方法时延估计性能随混响时间变化的曲线图。图7中传声器 信号的信噪比SNR = 1 OdB。其中对于本发明方法,δ = 〇. 〇〇 1。如图7所示,当混响时长T6Q = 0ms 时,MCCC获得了最好的性能,表明该方法对噪声具有鲁棒性。随着T6Q增加,尽管MCCC方法的 畸变估计概率较小,但根均方误差较大,表明MCCC对混响鲁棒性较差。尽管MCSTP方法对混 响具有良好的鲁棒性,但对噪声不具有鲁棒性。对于预白化MCCC、MCSTP和MCSTGSP这三种具 有预白化能力的时延估计方法而言,MCSTGSP方法获得了最好的性能,表明提出的多通道群 稀疏预测时延估计方法在不同混响环境是有效的。
[0162] 图8是轻度混响环境下各方法时延估计性能随信噪比SNR变化的曲线图。图9是中 度混响环境下各方法时延估计性能随信噪比SNR变化的曲线图。图8中混响时长T 6Q= 120ms, 图9中混响时长T6Q = 300ms。其中对于本发明方法,δ = 〇. 〇〇 1。根据图8和图9可以看出原始的 MCCC算法对噪声具有最好的鲁棒性,尤其在低信噪比条件下,然而在高信噪比条件下MCCC 算法对混响最敏感。相对于MCCC,预白化MCCC对混响获得了更好的鲁棒性。MCSTP和预白化 MCCC在低信噪比条件下获得相当的性能,然而,由于其最优的预白化能力,MCSTP对混响更 具有鲁棒性。尽管这两种具有预白化能力的时延估计方法的性能在混响条件下获得了较大 的提高,但在噪声影响下其性能降低。本发明MCSTGSP在MCCC和MCSTP间获得了良好的折中, 尤其是MCSTGSP增强了对噪声的免疫力,这证实了利用预测系数矩阵的群稀疏特性可提高 多通道空时预测对噪声的鲁棒性。
[0163] 图10是轻度混响环境下本发明时延估计性能随参数δ变化的曲线图。图11是中度 混响环境下本发明时延估计性能随参数δ变化的曲线图。图1 〇中混响时长T6Q = 120ms,图11 中混响时长T6Q = 300ms。从图10和图11可以看出,一方面正则化参数δ越小,MCSTGSP越接近 MCSTP方法,极限情况是δ = 〇,即MCSTGSP退化成MCSTP。另一方面,随着δ增加,预测系数矩阵 越来越稀疏,因此MCSTGSP对噪声越鲁棒,对混响越敏感;极限情况是传声器信号未进行预 白化处理直接用于计算MCCC,因此对应的MCSTGSP退化成原始的MCCC。因此调节正则化参数 S的不同取值,MCSTGSP方法可构成一组具有不同程度预白化能力的时延估计器。
[0164] 以上实验结果表明,提出的MCSTGSP方法在噪声和混响环境下获得了良好的鲁棒 性,在MCCC和MCSTP两种方法间获得了有效的折中。而且,正则化参数的不同取值使MCSTGSP 方法构成一组具有不同预白化能力的时延估计器,可以根据用户的实际需要来进行调节。
[0165] 尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领域的技术 人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技 术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些 变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1. 一种多通道群稀疏线性预测时延估计方法,其特征在于,包括W下步骤: Sl :M只传声器分别对声源信号进行持续采集,第m只传声器采集的时域信号记为Xm = [Xm(O) ,Xm(I),…)],其中m=l,2,…,M,Xm(n)表示第m只传声器在时刻n的采集样 本,n = 0,1,…,L-I,L表示每只传声器采集的样本数量; S2:令时移序号d=l,声源信号到达第1只和第2只传声器间的初始时移Pl = -Pmax, Pmax表 示时延的最大可能值; S3:分别将第m只传声器采集的信号Xm按照时延fm(pd)进行时移,fm(pd)表示声源信号到 达第1只和第m只传声器间的相对时延,该时延是关于时移Pd的函数;时移后的信号中每个 样本记为Xm(n,pd),将M只传声器在时刻n的时移样本Xm(n,pd)进行叠放,得到信号向量x(n, Pd); S4:求解W下公式,得到预测系数矩阵A(Pd):其中,|| ? ||。表示矩阵的。范数,||,||,^表示矩阵的12范数,人是正则化参数,取值范围为入 >0; X(0,pd) = [x(0,pd) x(l,pd) ... x(;K+L-l,pd)]T Y(-l,Pd) = [y(-l,pd) y(0,pd) ... y(;K+L-2,pd)]T 其中: X(W,Pd) = [Xl(W,Pd),X2(W,Pd),...XM(W,Pd)]T y(w^],Pj) = [x; (W^I,) (w-1,p,,) ... 瓜;)了 Xm(W-l,Pd) = [Xm(W-l,Pd),Xm(W-2,Pd),-..Xm(W-KiPd) ]T W = O, I,…,K+L-1 ;K表示预测器阶数,其取值范围为K<X;对于Xm(q,pd),如果q<0或q >kl,则令xm(q,pd)=0; S5:计算预测误差矩阵E(0,pd): E(0,pd) =X(0,pd)-Y(-l ,pd)A(pd) S6:计算预测误差相关矩阵R(Pd):S7:计算多通道互相关系数P(Pd):其中det( ?)表示方阵的行列式,rm,m(pd)是矩阵R(Pd)的第m个对角元素; S8 :如果Pd <Pmax,令Pd = Pd+1,返回步骤S3,否则根据W下公式求得时延估计值f : f = argmaxpJ(>",)。 Pd2. 根据权利要求1所述的时延估计方法,其特征在于,所述步骤S4中预测系数矩阵的求 解方法为: S4.1:令迭代次数k=l,初始化大小为KMXM的辅助矩阵Zi(Pd)和拉格朗日乘子矩阵01 (Pd); S4.2:计算预测系数矩阵:S4.3:更新辅助矩阵: Z;; (/?,) = soft (a;.., (ii,) + 0; {p,)/(5, Xl[5) 其中马__i(化)表示辅助矩阵Zk+i(Pd)的第i行,i = l,2,…,MK;soft函数定义为:S4.4:更新拉格朗日乘子矩阵: 白k+i (Pd)=目k (Pd) +0 (Ak+i (Pd) -Zk+i (Pd)) S4.5:如果k<Q,Q表示最大迭代次数,令k = k+l,返回步骤S4.12,否则令预测系数矩阵 A(Pd) =Ak+i(pd)。3.根据权利要求1所述的时延估计方法,其特征在于,所述正则化参数A根据W下公式 计算:其中,表示求取矩阵的无穷范数,S是一个正常数。
【专利摘要】本发明公开了一种多通道群稀疏线性预测时延估计方法,采用各个可能的时延值计算多通道互相关系数,将多通道互相关系数的平方最大值所对应的时延作为时延估计值;多通道互相关系数的计算方法为:对每只传声器拾取的声信号分别截取一个长度为L的信号帧,对这些信号帧进行时移后叠放成信号向量以及信号矩阵,根据F/l1,2范数优化准则建立时延估计模型,求解群稀疏预测系数矩阵,然后计算预测误差相关矩阵,根据预测误差相关矩阵计算得到多通道互相关系数。本发明利用预测系数矩阵列向量的群稀疏特性构建一个F/l1,2范数优化准则,统一了多通道互相关系数方法和多通道空时预测方法,联合应用空间和时间线性预测的白化能力,以提高时延估计性能。
【IPC分类】G01S5/22, G01S5/26
【公开号】CN105652243
【申请号】
【发明人】何宏森, 陈景东, 杨涛
【申请人】西南科技大学
【公开日】2016年6月8日
【申请日】2016年3月14日