一种基于子带vts的模型自适应方法

文档序号:9632277阅读:813来源:国知局
一种基于子带vts的模型自适应方法
【技术领域】
[0001] 本发明涉及到在对数谱域用子带矢量泰勒级数逼近每个子带上的环境变换关系, 从含噪语音中估计子带噪声参数,根据估得的噪声参数对每个子带上的声学模型均值分量 进行子带变换,得到含噪语音声学模型的模型自适应方法,属于语音识别技术领域。
【背景技术】
[0002] 语音识别系统在实际应用中通常会受到噪声、口音等语音变异性的影响,这往往 导致其识别性能急剧下降,因此必须对系统的前端特征参数或后端声学模型进行补偿,使 它们互相匹配,提高语音识别系统在实际环境中的识别性能。
[0003] 模型自适应是一种重要的鲁棒语音识别技术,它根据测试环境下的少量自适应数 据调整声学模型的参数,使之与测试环境下的特征参数相匹配。模型自适应可分为直接自 适应和间接自适应两类。直接自适应又称为贝叶斯方法,它根据最大后验准则直接估计声 学模型的参数。由于每个基本语音单元的声学模型用各自的自适应数据分别更新参数,因 此直接自适应需要大量自适应数据,这在实际应用中很难满足。间接自适应也称为基于变 换的模型自适应,它将全部声学模型的所有高斯单元分为若干类,然后假定每一类中所有 高斯单元的参数符合同一个变换,用每一类的所有自适应数据估计该类的变换参数。在间 接自适应中,由于考虑了不同模型、不同高斯之间的空间相关性,用多个状态的数据估计同 一组变换参数,间接增加了参数估计的数据量,因此只需要较少的自适应数据即可取得较 好的效果,也不需要每个语音单元都有各自的自适应数据。
[0004] 在噪声快速变化的非平稳环境中,可用于参数估计的自适应数据很少,此时基于 变换的模型自适应同样存在数据稀疏问题,即因为观测样本不足导致最大似然估计的结果 不准确。为了跟踪非平稳环境,就需要用很少的数据进行模型自适应,因此研究少量数据时 的快速模型自适应具有非常重要的意义。

【发明内容】

[0005] 发明目的:针对现有技术中存在的问题,本发明提供一种基于子带矢量泰勒级数 (VTS:VectorTaylorSeries)的模型自适应方法,该方法考虑了Mel滤波器组相邻通道之 间的相关性,将全部Mel通道划分为若干个子带,假设每个子带内的全部Mel通道的环境变 换关系共享同一个噪声参数,从而增加最大似然参数估计可用的数据量。该方法可以较好 地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数 据时的快速模型自适应。
[0006] 技术方案:一种基于子带VTS的模型自适应方法,主要包括子带划分、子带回 归、参数估计、子带变换和参数合并等模块,系统以隐马尔可夫模型(HMM:HiddenMarkov Model)为声学模型,下面具体说明其内容。
[0007] (1)根据自适应数据的数量,将Mel滤波器组的全部通道划分为若干个子带;
[0008] (2)将纯净语音HMM每个高斯单元的均值向量从倒谱域变换回对数谱域,得到HMM 的对数谱域均值向量;
[0009] (3)根据子带划分方案,将HMM的每个对数谱域均值向量分解到每个子带上,得到 每个子带的对数谱域均值分量;
[0010] (4)设每个子带上全部Mel通道的环境变换关系泰勒级数展开式共享同一个噪声 参数,即对数谱域噪声均值;
[0011] (5)利用每个子带上的噪声参数,构造待估计的子带回归式,应用于HMM每个对数 谱域均值向量在该Mel子带上的分量;
[0012] (6)将待估计的子带回归式代入最大期望算法的辅助函数,并令辅助函数关于子 带噪声参数的导数等于〇,从含噪测试语音中估计出每个子带的噪声参数;
[0013] (7)利用估得的子带噪声参数,对纯净语音HMM各子带的均值分量进行子带变换, 得到含噪语音HMM的均值向量;
[0014] (8)假设噪声只影响HMM每个高斯单元的均值向量,含噪语音HMM与纯净语音HMM 的其他参数都相同,将估得的含噪语音均值向量与纯净语音HMM的其他参数合并为新的模 型参数集,即可得到与测试环境匹配的含噪语音声学模型。
[0015] Mel滤波器组的子带数目由自适应数据的数量动态决定,自适应数据越少,子带数 目就越少,子带内包含的Mel通道就越多,子带参数估计共享的数据量就越多;自适应数据 越多,子带数目就越多,直至与Mel通道数相同,恢复为传统的VTS模型自适应。
[0016] 有益效果:本发明利用Mel滤波器组相邻通道之间的相关性,使相邻通道的环境 变换关系共享同一个噪声参数,以增加最大似然参数估计的数据量。在自适应过程中,首 先将纯净语音隐马尔可夫模型每个高斯单元的均值向量从倒谱域变换回对数谱域,再根据 自适应数据量将每个对数谱域均值向量划分为若干个子带分量,且假设每个子带上的全部 Mel通道的噪声均值都相同,构建VTS环境变换关系式。各子带的噪声参数通过最大期望算 法从含噪测试语音中估计,然后根据估得的子带噪声参数对纯净语音HMM各子带的均值分 量进行子带变换,得到含噪语音均值向量。最后将含噪语音均值向量与纯净语音HMM的其 他参数合并,得到与测试环境匹配的含噪语音声学模型。本发明可以较好地克服数据稀疏 问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型 自适应。
【附图说明】
[0017] 图1为基于子带VTS的模型自适应语音识别系统的总体框架图,其中纯净HMM在 训练阶段通过纯净语音训练而成,图中的子带划分、子带回归、参数估计、子带变换和参数 合并模块都工作在测试阶段。
【具体实施方式】
[0018] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0019] 如图1所示,本发明的基于子带VTS的模型自适应方法主要包括子带划分、子带回 归、参数估计、子带变换和参数合并模块。下面逐一详细说明附图中各模块的具体实施方 案。
[0020] 1、子带划分
[0021] 根据自适应数据的数量,将Mel滤波器组的全部通道划分为若干个子带;
[0022] 在子带划分中,首先将预先训练的纯净语音声学模型每个高斯单元的均值向量μ 变换回对数谱域,得到对数谱域均值向量u:
[0023] u=C1μ (1)
[0024] 其中,C1表示离散余弦变换矩阵的逆矩阵。
[0025] 然后将D维对数谱域均值向量u= [Ul,u2,…,1?]?分为Κ个子带:
[0026]
(2、
[0027] 为了便于描述,u可以写为K个D维子带均值分量之和的形式:
[0028] (S)'
[0029]
[0030] 2、子带回归
[0031] 假设在每个子带上,所有Mel通道的噪声均值相同,则测试环境含噪语音均值分 量i与训练环境纯净语音均值分量uk之间的变换关系符合如下VTS展开式:
[0032]
(4)
[0033] 其中,iv#un(Xk分别表示第k个子带上的噪声均值及其初值;ek为第k个子带上 的单位向量,该子带Mel通道对应元素的值为1,其他子带Mel通道对应元素的值为0 ;对角 矩阵Uk的表达式为:
[0034]
[0035] 其中,diag()表示以括号中向量的元素为对角元素生成对角矩阵。
[0036] 将所有子带上的含噪语音均值分量▲相加,即可得到对数谱域含噪语音均值向量 M-i
[0037]
(6)
[0038] 在式(6)两边取离散余弦变换,即可得到倒谱域含噪语音均值向量?·
[0039]
(7)
[0040] 其中,C表示离散余弦变换矩阵。
[0041] 3、参数估计
[0042] 在式(7)的子带回归表达式中,子带参数1^从含噪测试语音中估计。假设语音 识别系统以隐马尔可夫模型(HMM)为声学模型,纯净HMM第i个状态的概率密度函数为:
[0043]
(8)
[0044] 其中,xt为第t帧倒谱特征向量;c1Π1、μ1Π1、Σιηι分别是HMM第i个状态的第m个高 斯单元的混合系
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1