专利名称:一种适用于语音压缩感知的过完备字典构造方法
技术领域:
本发明属于信号采样及语音信号处理领域,特别涉及一种适用于语音压缩感知的过完备字典构造新方法。
背景技术:
语音是人类最方便直接的交流方式,传统的语音信号处理都基于Nyquist (奈奎斯特)采样定理,首先进行2倍带宽以上的高速采样,然后根据样值之间存在的强相关性再压缩,这一过程浪费了大量的采样资源。Nyquist采样定理是大多数信号采样所遵循的规律,表明了采样频率与信号频谱分布之间的关系,是任何信号精确重构的充分条件,但不一定是必要条件。如何根据语音信号的特殊性,对语音信号重新建模以获得更少的采样但又不影响语音的重构质量,是当前语音信号处理领域中的研究热点。
2004 年由 Donoho 与 Candes 等人提出的压缩感知(Compressed Sensing, CS)理论是基于信号在某个域的稀疏性建立的线性、非自适应采样的新理论,表明具有稀疏性的压缩感知技术能获得较经典奈氏理论更好的压缩性能,信号的稀疏性或可压缩性是实现压缩重构的必要条件之一。CS理论表明,可以在不丢失逼近原信号所需信息的情况下,用最少的观测数来采样信号,实现信号的降维处理,即直接对信号进行较少采样得到信号的压缩表示,从而在节约采样和传输成本的情况下,达到了在采样的同时进行压缩的目的。CS突破了传统的奈奎斯特采样定理的限制,从传统的信号采样转变成信息采样。只要信号是可压缩的或在某个域上是稀疏的,就可以利用随机观测矩阵直接将这样一个高维信号投影到低维空间上,可以利用这些少量的观测重构原信号。压缩感知重构过程中仅仅考虑了信号的稀疏性先验,而没有考虑任何关于信号结构的信息,通过随机观测包含了重构信号的足够信息。当信号具有稀疏性或可压缩性时,通过采集少量的信号观测值就可实现信号的准确或近似重构。由于语音信号具有可压缩性,能够用比Nyquist采样速率低很多的速率无失真地采样信号,基于压缩感知进行低速率无失真地采样给信号的采样、存储、传输和处理都带来了巨大的方便。所以CS理论与语音信号处理领域的结合,意味着对传统的基于奈奎斯特均匀采样定律下的语音分析方法的颠覆——用CS理论中的观测来代替传统语音采样值,势必导致采样信号特征根本性的变化,进而影响整个语音信号处理体系。将CS与语音信号相结合来探求语音信号处理领域的各种新方法具有很好的现实意义。CS压缩采样下重构信号性能与采样时采用的观测矩阵和重构时采用的转换矩阵有很大关系,观测矩阵多是高斯随机矩阵,转换矩阵目前绝大部分压缩感知中都应用正交基,少量的利用非正交冗余变换作为语音重构的稀疏表示方法。在观测数相同的情况下,语音表示越稀疏,则重构语音的质量越高,即转换矩阵的选择对信号重构性能来说很重要。语音信号采用离散余弦变换(DiscreteCosine Transform,DCT)基、小波基进行单一尺度的非自适应压缩感知重构时,当观测个数是原数值个数一半及以下时,其重构性能很差,主要因为语音信号在常规正交基下的稀疏性不够好导致重建信号性能较差。构造一种适用于语音压缩感知的过完备字典是语音压缩感知走向实用的关键。语音信号在基于训练码本构造的过完备线性预测(OvercompleteLinear Prediction, OLP)字典下呈现良好的稀疏性,基于过完备线性预测字典的语音压缩感知重建信号性能良好,并且具有较高的鲁棒性。基于此点,本案由此产生。
发明内容
本发明的目的,在于提供一种适用于语音压缩感知的过完备字典构造方法,其预先由训练语音的预测系数聚类构造过完备字典,不需要测试语音的预测系统,且构造方法简单,语音信号在过完备线性预测字典下呈现良好的稀疏性,基于过完备线性预测字典的语音压缩感知重构信号性能良好,且具有较好的鲁棒性。为了达成上述目的,本发明的解决方案是—种适用于语音压缩感知的过完备字典构造方法,包括如下步骤(I)在训练阶段由大量的训练语音构造过完备的线性预测字典,包括如下内容(11)对同一说话人的训练语音信号进行线性预测分析,得到线性预测系数矢量;(12)通过聚类算法由大量线性预测系数矢量构造线性预测系数矢量码本;(13)每个码矢构造一个矩阵,求逆得到相应的线性预测矩阵;(14)所有的矩阵一起构成过完备的线性预测字典;(2)在实测阶段采用随机高斯矩阵作为观测矩阵对语音信号进行CS采样;(3)基于前述线性预测字典采用BP算法高质量重构语音信号。上述步骤(12)中,采用LBG算法构造矢量码本,具体实现步骤为I)设全部线性预测系数矢量a的集合为S,码本大小为J,最大迭代次数为Q,畸变改进阈值为δ ;2)码本初始值随机选择J个矢量作为码本的初始码字Ofs…,bf,构成初始码本,迭代次数初值m=l ;3)根据最紧邻准则将S分成J个子集…名,即当a e S”时,4)计算总畸变
权利要求
1.一种适用于语音压缩感知的过完备字典构造方法,其特征在于包括如下步骤 (1)在训练阶段由大量的训练语音构造过完备的线性预测字典,包括如下内容 (11)对同一说话人的训练语音信号进行线性预测分析,得到线性预测系数矢量; (12)通过聚类算法由大量线性预测系数矢量构造线性预测系数矢量码本; (13)每个码矢构造一个矩阵,求逆得到相应的线性预测矩阵; (14)所有的矩阵一起构成过完备的线性预测字典; (2)在实测阶段采用随机高斯矩阵作为观测矩阵对语音信号进行CS采样; (3)基于前述线性预测字典采用BP算法高质量重构语音信号。
2.如权利要求1所述的一种适用于语音压缩感知的过完备字典构造方法,其特征在于所述步骤(12)中,采用LBG算法构造矢量码本,具体实现步骤为 .1)设全部线性预测系数矢量a的集合为S,码本大小为J,最大迭代次数为Q,畸变改进阈值为δ ;.2)码本初始值随机选择J个矢量作为码本的初始码字
全文摘要
本发明公开一种适用于语音压缩感知的过完备字典构造方法,步骤为首先在训练阶段由大量的训练语音构造过完备的线性预测字典,然后在实测阶段采用随机高斯矩阵作为观测矩阵对语音信号进行CS采样;最后基于前述线性预测字典采用BP算法高质量重构语音信号。此方法不需要测试语音的预测系统,且构造方法简单,语音信号在过完备线性预测字典下呈现良好的稀疏性,基于过完备线性预测字典的语音压缩感知重构信号性能良好,且具有较好的鲁棒性。
文档编号G10L19/12GK102881293SQ201210380638
公开日2013年1月16日 申请日期2012年10月10日 优先权日2012年10月10日
发明者孙林慧, 杨震, 杨真真 申请人:南京邮电大学