基于神经网络的声纹识别系统的最优码本设计方法

文档序号:2833351阅读:874来源:国知局
专利名称:基于神经网络的声纹识别系统的最优码本设计方法
技术领域
本发明属于语音信号处理中的声纹识别技术,尤其涉及一种基于神经网络的声纹识别系统的最优码本设计方法。
背景技术
在当今信息时代的前提下,作为信息安全的重要组成部分之一的身份识别技术引来了新的挑战。传统的密码识别由于算法的局限性与硬软件解密技术的提升已经展现了它的弊端,而作为身份识别的新技术之一,声纹识别技术,因其独特的方便性、经济性及准确性等优点,越来越受到人的重视。声纹识别,就是从说话人的一段语音中提取出说话人的个性特征,通过对个人特 征的分析与识别,从而达到对说话人进行辨认或者确认的目的。声纹识别的基本依据在于每个人独特的声道特性和发音特点,使得说话人的语音信号具有区别于其他说话人的特征,因此说话人识别并不注意语音信号的内容,而是希望从语音信号中提取个人的特征。声纹识别的关键技术,主要是语音信号的特征参数提取和最优码本的建立。最常用的语音信号的特征参数有两种一种是根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC),反映了说话人语音的听觉频率的非线性特性,在噪声中环境中能体现优势;另一种是根据语音信号的全极点模型得到的线性预测倒谱系数(Linear Prediction Cepstrum Coefficients, LPCC),反映了说话人声道的生理结构差异。MFCC的分析着眼于人耳的听觉特性,Mel频率尺度更符合 人耳的听觉特性,能很好的反映语音的特性。LPCC特征参数的提取,是基于语音信号为自回归信号的假设,利用线性预测分析从而获得倒谱参数。LPCC参数的最大优点是它能够极为精确地估计语音参数,用很少的参数有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能较差,识别率容易受环境的影响。中国专利申请200410000055. 9,其名称为电话信道说话人声纹识别系统,公开号CN1556522,该专利文献对声纹识别系统的系统模型以及工作原理作了描述,同时对LPCC特征参数的提取方法以及如何在声纹识别系统中引入神经网络模型作了详细说明。参考文献郭华.基于神经网络的声纹识别系统的设计与实现.上海交通大学工程硕士专业学位论文.2008.该文献对声纹识别技术的研究现状做了详细总结,同时对声纹识别技术中的MFCC以及LPCC参数的提取、矢量量化法、遗传算法、以及BP神经网络模型等关键技术作了详细描述,作者为了使得声纹识别效果最优,还将粒子群算法引入神经网络进行优化。综上所述,声纹识别技术目前已经得到广泛的应用和发展,大量学者对声纹识别的准确率以及如何应用做了研究,但是往往都是针对单一算法进行优化或者改进,目前最优码本的设计方法主要采用态时间规整(DTW)、矢量量化(VQ)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、人工神经网络方法(ANN)、支持向量机(SVM)、动态贝叶斯网络(DBN)等技术。但现有的系统中往往都只采用了一种单独的技术,而各种技术往往都是针对某一特定的应用场景具有较好的识别率,当系统的应用场景发生改变时,自适应能力不强。

发明内容
为了克服现有技术中系统采用单一技术生成码本导致适应能力不强的缺陷,本发明提出一种基于神经网络的声纹识别系统的最优码本设计方法,通过采用多种算法同时生成多个码本,然后根据多个码本的识别正确率的高低来选择最优码本,从而提高系统的自适应能力和稳定性。为达到上述目的,本发明所采用的具体技术方案如下一种基于神经网络的声纹识别系统的最优码本设计方法,包括SI:用于语音信号输入的步骤;
S2:对输入的语音信号段进行预处理的步骤;S3:对预处理后的语音信号段提取特征参数的步骤;其关键在于,还包括S4:用于生成三个初始码本的步骤,该步骤中第一初始码本采用矢量量化法生成,第二初始码本采用遗传算法生成,第三初始码本先采用矢量量化法,再采用遗传算法生成;S5:用于神经网络训练的步骤,该步骤中利用神经网络分别对三个初始码本进行训练,得到第一初始码本识别正确率、第二初始码本识别正确率以及第三初始码本识别正确率;S6:用于选择最优码本的步骤,该步骤中选择三个初始码本中识别正确率最高的一个初始码本作为输入的语音信号段的最优码本。系统中同时设置三种算法来对提取的特征参数进行处理,从而生成三个初始码本,由于不同的算法有不同的特点,所以不同地区,不同语种的语音特征其识别的准确率也有所不同,针对某一语音特征,如果矢量量化法生成的码本识别正确率高,则系统选择第一初始码本作为最优码本,如果遗传算法生成的码本识别正确率高,则系统选择第二初始码本作为最优码本,如果是先采用矢量量化法,再采用遗传算法生成的码本识别正确率高,则系统选择第三初始码本作为最优码本,因此,提高了系统的自适应能力和稳定性。在背景技术中提及了多种码本设计方法,但相对于其他算法来说,矢量量化法和遗传算法更具有代表性,其自身应用范围较广,所以在降低系统运算复杂性的同时,采用这两种算法以及这两种算法的组合足以满足声纹识别的大的应用领域。作为进一步描述,所述步骤S2中,对输入的语音信号段进行预处理包括预加重以及分帧,其中分帧采用交叠分段方法,帧长为256 (32ms),帧移为100 (12.5ms)。通常分帧可采用连续分段的方法或者交叠分段的方法,本系统中采用交叠分段方法,可以使帧与帧之间平滑过渡,保持其连续性,交叠分段中每一帧的长度叫帧长,后一帧与前一帧的偏移量叫帧移,利用可移动的窗口函数对原语音信号进行截取即可实现分帧。再进一步描述,所述特征参数为梅尔频率倒谱系数与线性预测倒谱系数的混合特征参数。作为优选,混合特征参数提取方法是将语音信号段的每一帧等分为两部分,将该语音信号段中所有帧的前半部分提取梅尔频率倒谱系数,将该语音信号段中所有帧的后半部分提取线性预测倒谱系数。由于MFCC反映了说话人语音的听觉频率的非线性特性,在噪声中环境中能体现优势,而LPCC参数的最大优点是它能够极为精确地估计语音参数,用很少的参数有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能较差,识别率容易受环境的影响。本发明在特征参数提取时同时采用MFCC与LPCC两种方式进行,既能体现在噪声环境中的应用优势,又能有效表现出语音波形及其频谱性质。其显著效果是较之单一的码本进行模式识别,采用基于神经网络得到的最优码本的声纹识别系统,获得了较高的识别率和稳定性,并提高了系统的自适应性。


图I是本发明系统原理框图;图2是图I中矢量量化法的方法流程图;图3是图I中遗传算法的方法流程图。
具体实施例方式下面结合附图和具体实施例对本发明作进一步详细说明如图I所示,一种基于神经网络的声纹识别系统的最优码本设计方法,包括 SI:用于语音信号输入的步骤;本实施例中语首/[目号输入是利用录首软件Cool Edit录制小语首库,其中米样频率为8KHz,量化比特为16bit的一段wav文件,且为语音与文本无关的连续语音,为提高语音质量,用Cool Edit软件去除静音段,并将噪声衰减IOdB ;S2:对输入的语音信号段进行预处理的步骤;预处理包括预加重以及分帧,其中分帧采用交叠分段方法,帧长为256 (32ms),帧移为 100 (12. 5ms);结合本例,对步骤SI中输入的语音信号,通过一个传输函数为H(z) = l-a*z_1的一阶高通滤波器,进行预加重,使其对高频部分进行增强,其中a取值一般在(O. 9,I)之间,优选O. 95 ;预加重后的语音信号再采用交叠分段的方法进行分帧,通常采用的窗口函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等,其中矩形窗
W(^) = I1 (0^H)(I)
I O (η < O, η > \)汉明窗
(0.54 - 0.46 * cos(2 * pi * η / (N -I)) (O < " < Λ; — I),、
Μ{η)-<\1)
[O(η < O, η>Ν)汉宁窗 0.5(1 - cos(2 * pi { Λ' -I))) (Ο </;< N-I)^、
难)=<Κ )
[O(η < O, η>Ν)本实施例中采用公式(2)所示的汉明窗作为窗口函数进行分帧处理;S3:对预处理后的语音信号段提取特征参数的步骤;所述特征参数为梅尔频率倒谱系数与线性预测倒谱系数的混合特征参数,即同时包括了 MFCC 和 LPCC。在实施过程中,混合特征参数提取方法是将语音信号段的每一帧等分为两部分,将该语音信号段中所有帧的前半部分提取梅尔频率倒谱系数,将该语音信号段中所有帧的 后半部分提取线性预测倒谱系数。以长度为8秒的语音信号段为例,SKhz采样后具有64000个采样点,经过预处理后得到一个256*638维的语音数据矩阵,其中每一列表示一帧语音数据,长度为256,共有638列,按照帧长等分为两部分来分别提取MFCC和LPCC,即分为两个128*638维的语音数据矩阵。对于MFCC参数的提取,依次对每一列语音数据单独进行,先按照公式(4)对第一个128*638维的语音数据矩阵中的时域信号χ(η)进行离散傅里叶变换得到其线性频谱X(k),这里,N的取值即为128。
x(/” =完 χ(,φ-/2.— v, (0<n,k<N-V)()接着,对频谱X(k)取平方求得功率谱,然后将所得功率谱通过Mel频率滤波器,得到相应的Mel频谱Xm(k),其中Mel频率滤波器是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个如公式(5)所示的传递函数Hm(k)的三角形带通滤波器,其中O < m < M,M为滤波器的个数,中心频率为f (m),各f (m)之间的间隔随着m值的减小而缩小,随着m值
的增大而增宽。
O,々</(/"-I)
H,r,{k) = l/K } I ,(5)
f(m + \)-k "、 ,
~:-, / (m) <k< f (m +1)
f(in + \)- f(m) '.
0,k>f(m + \)然后,对输出的Me I频谱Xm (k)按照公式(6 )计算对数频谱S (m);
f N-I\
.V(/ ) = In V|x(A-)|2 H/n(k) |, 0<m<M(6)最后,对输出的对数频谱S (m)按照公式(7)进行离散余弦变换DCT,得到MFCC参数 c(j);
权利要求
1.一种基于神经网络的声纹识别系统的最优码本设计方法,包括 Si用于语音信号输入的步骤; S2:对输入的语音信号段进行预处理的步骤; S3:对预处理后的语音信号段提取特征参数的步骤; 其特征在于,还包括 S4:用于生成三个初始码本的步骤,该步骤中第一初始码本采用矢量量化法生成,第二初始码本采用遗传算法生成,第三初始码本先采用矢量量化法,再采用遗传算法生成; S5:用于神经网络训练的步骤,该步骤中利用神经网络分别对三个初始码本进行训练,得到第一初始码本识别正确率、第二初始码本识别正确率以及第三初始码本识别正确率;S6 :用于选择最优码本的步骤,该步骤中选择三个初始码本中识别正确率最高的一个初始码本作为输入的语音信号段的最优码本。
2.根据权利要求I所述的基于神经网络的声纹识别系统的最优码本设计方法,其特征在于所述步骤S2中,对输入的语音信号段进行预处理包括预加重以及分帧,其中分帧采用交叠分段方法,帧长为256 (32ms),帧移为100 (12.5ms)。
3.根据权利要求I所述的基于神经网络的声纹识别系统的最优码本设计方法,其特征在于所述特征参数为梅尔频率倒谱系数与线性预测倒谱系数的混合特征参数。
4.根据权利要求3所述的基于神经网络的声纹识别系统的最优码本设计方法,其特征在于混合特征参数提取方法是将语音信号段的每一帧等分为两部分,将该语音信号段中所有帧的前半部分提取梅尔频率倒谱系数,将该语音信号段中所有帧的后半部分提取线性预测倒谱系数。
全文摘要
本发明涉及一种基于神经网络的声纹识别系统的最优码本设计方法,包括语音信号输入、语音信号预处理、语音信号特征参数提取、三路初始码本生成、神经网络训练以及最优码本选择五个步骤,在预处理后同时了提取MFCC和LPCC参数,然后采用局部最优的矢量量化法和全局最优的遗传算法,实现了基于VQ、GA、VQ与GA的三路并列算法对混合语音特征参数矩阵产生初始码本,通过对三路码本的神经网络识别准确率的判决,选出最优码本。其显著效果是利用该最优码本,使得声纹识别系统获得较高的识别率和稳定性,并提高了系统的自适应性;较之单一的码本进行模式识别,采用基于神经网络得到的最优码本的声纹识别系统,其性能有明显的改进。
文档编号G10L17/00GK102800316SQ20121031406
公开日2012年11月28日 申请日期2012年8月30日 优先权日2012年8月30日
发明者李勇明, 施忠继, 王品, 邹雪, 梅林 申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1