一种语种识别模型的训练方法及语种识别方法

文档序号:9525207阅读:592来源:国知局
一种语种识别模型的训练方法及语种识别方法
【技术领域】
[0001] 本发明涉及语音数据语种信息的识别方法,更具体地说,本发明涉及基于音素相 关特征的语种识别方法。
【背景技术】
[0002] 随着现代社会信息的全球化,语种识别成为语音识别技术研究热点之一。语种识 别技术的目的是能够制造一种在一定程度上模仿人的思维对语音进行语种辨识的机器,也 就是从语音信号中提取出各语种的差异信息,并W此为依据判断所属语种。提取的语音信 号特征直接影响到语种识别的结果。
[0003] 主流的语种识别技术包括基于声学频谱特征识别和基于音素特征识别两大类。
[0004] 声学频谱特征是指美尔倒谱的移位差分谱特征(MSDC)(文献[1] P. A. Torres-Carrasquillo, E. Singer, M. A. Kohler,民.J. Greene, D. A.民eynolds, and JR Deller Jr, "Approaches to language identication using Gaussian mixture models and shifted delta cepstr过1 fe过tures,^in Seventh International Conference on Spoken Language Processing. Citeseer, 2002.),基于声学频谱特征的模型方法 只是把从语音中提取的倒谱特征作为该语音的特征,然后对送些特征进行建模,没 有涉及语音的发音信息。建模通常使用高斯混合模型(GMM)(文献巧化.BurgetP. Matejka and J.Cernocky,"Discriminative training techniques for acoustic language identification,,,International Conference on Acoustics,Speech,and Signal Processing, vol. 1,2006.)和支持向量机模型(SVM)(文献口]W.M. Campbell, J. P. Campbell, D. A.民eynolds, E. Singer and P. A. Torres-Carrasquillo, "Support vector machines for speaker and language recognition", Computer Speech Language,vol. 20 ,no. 2-3, pp. 210-229, 2006.)。基于因子分析的ivector系统(文献[4] Najim Dehak, Pedro A Torres-Carrasquillo,Douglas A民eynolds, and民eda Dehak, "Language recognition viai-vectors and dimensionality reduction.,',in INTE民SPEECH, 2011,pp. 857 - 860.) 在语种识别中取得了很好的性能,得到了广泛的应用。Ivector方法定义了一个称为总变化 量因子空间的低维空间,这个空间同时包含了说话人空间和信道空间,然后将高维的高斯 超向量表示为低维的总变化量因子,实验证明,低维的总变化量因子能够完全表征高维的 高斯超向量。该方法引入语种识别后,迅速成为声学建模的主流方法,许多语种识别的研究 都是在该方法基础上开展的。然而,语种识别中对于Ivector方法的研究只是局限于声学 频谱特征,并没有推广到包含丰富的语音发音信息的音素特征。
[000引基于音素特征的语种识别系统采用音素识别器对语音进行解码得到音素 序列或音素网格,然后使用文法特征对语种进行建模。文献[5] (W.M. Campbell, F. Richardson and D.A.民eynolds, "Language recognition with word lattices and support vector machines",International Conference on Acoustics, Speech, and Signal Processing, vol. 4, 2007. )。PPRVSIVKH· Li, B. Ma, C. -H. Lee, A vector space modelingapproachtospokenlanguageidentification,Audio,Speech,andLanguage Processing,IE邸Transactionsonl5 (1)(2007) 271 - 284)将向量空间模型引入基于音素 识别的语种识别技术中,将音素序列或音素网格视为"文本",从音素序列或音素网格中提 取有鉴别性的音素串作为特征项组成特征向量,然后采用支持向量机进行分类,得到了很 好的语种识别性能。
[0006] 传统的基于音素特征的识别系统考虑了语音的发音特征,在识别性能上优于基于 声学频谱特征系统,但由于解码音素序列计算复杂度高,运行时间长,因此很少在实际系统 中使用。

【发明内容】

[0007] 本发明的目的在于克服传统基于声学频谱特征方法没有包含语音发音信息的缺 陷,克服传统基于音素特征方法解码音素序列计算复杂度高,运行时间长的缺陷,从而提供 一种降低运算复杂度,提高识别性能的语种识别方法。
[0008] 为了实现上述目的,本发明提供了一种语种识别模型的训练方法及语种识别方 法,其中语种识别模型的训练方法包括如下步骤:
[0009]步骤1-1),采集一定数量的目标语种语音数据作为训练语句,提取训练语句的音 素后验概率;
[0010]步骤1-2),将音素后验概率转换到对数域,并进行降维,对降维后的特征进行均值 方差规整(MVN),得到音素相关特征;
[0011]假设xit是第i个训练语句的第t顿对数域音素后验概率向量,Ti是第i个训练语 句的顿数,mi是第i个训练语句所有顿对数域音素后验概率的均值,如下式得到:
[001 引
(1)
[0013]由训练语句所有顿对数域音素后验概率的均值可计算出协方差矩阵C,如下式:
[0014] (2)
[0015] 其中,N是训练语句的个数;
[0016] 由协方差矩阵的前UL值与音素个数相近)个最大本征值对应的本征向量生成 PCA转换矩阵Apca,由所述的PCA转换矩阵Apca与对数域音素后验概率向量得到降维后的特 征,其表达式为:
[0017]
^3)
[0018]对降维后的特征yit进行均值方差规整(MVN),得到音素相关特征向量Zit。
[0019] 步骤1-3),利用音素相关特征计算Baum-Welch统计量;
[0022] c是高斯分量,Ω是全局背景模型(UBM)的方差,p(cIZit,Ω)表示第t顿属于第 C个高斯分量的概率,μ。是第C个高斯分量的均值向量。
[002引步骤1-4),利用Baum-Welch统计量提取音素变化量因子;
[0024] 第i个训练语句的的音素变化量因子W由下式得到:
[00巧]W = (I巧Τ? iN(i)T) Υ?中(i) (6)
[002引其中,Να)为对角矩阵,对角线上元素为NJ,Κα)由一阶Baum-Welch统计量Fc拼接得到,Σ和Τ在因子分析过程中由EM算法训练得到。
[0027]步骤1-5),对音素变化量因子进行建模,建立语种识别模型;
[0028] 采用一对一和一对多策略,使用SVM对音素变化量因子进行建模,建立SVM模型, SVM模型即为所述的语种识别模型。
[0029] 本发明提供的一种语种识别方法,基于上述技术方案的语种识别模型的训练方 法,包括如下步骤:
[0030]步骤2-1),提取待识别语音数据的音素后验概率;
[0031]步骤2-2),将音素后验概率转换到对数域,并进行降维,对降维后的特征进行均值 方差规整(MVN),得到音素相关特征;
[003引步骤2-3),利用音素相关特征计算Baum-Welch统计量;
[003引步骤2-4),利用Baum-Welch统计量提取音素变化量因子;
[0034]步骤2-5),将音素变化量因子对所述的SVM模型打分,并对得分进行均值方差规 整,对规整后的得分使用线性鉴别性分析(LDA)和高斯后端规整进行得分校正,得到最终 识别结果;
[0035] 所述的均值方差规整的计算过程为:
[0038] 其中,Μ是所述的支持向量机模型的个数,Sm是第m个SVM模型的初始得分,μ和 0分别为该测试数据所有SVM模型得分的均值和标准差,k为可调参数,s"m是规整后得分。
[0039] 本发明的优点在于:
[0040] 1、考虑了语言的发音特征,语种间的差异信息更明显;
[0041] 2、将音素相关特征用于因子分析,提高系统语种识别的性能;
[0042] 3、去除了传统基于音素特征识别系统的解码过程,大大降低了系统的计算复杂 度。
【附图说明】
[0043] 图1是一种语种识别模型的训练方法
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1