基于深度神经网络后验概率算法的口语发音评测方法

文档序号:8261268阅读:1093来源:国知局
基于深度神经网络后验概率算法的口语发音评测方法
【技术领域】
[0001] 本发明属于语言识别领域,涉及一种基于深度神经网络算法的口语发音评测方 法。
【背景技术】
[0002] 在不同语言的地区的人们当前的全球化加速了对外语水平的要求,对于英语作为 第二语言的学习者,电脑辅助语言学习是非常有帮助的。计算机辅助发音训练,旨在评估学 生的语音水平和检测或识别一个高精度的发音错误或不足,其仍然是一个具有挑战性的研 宄领域。
[0003] 传统口语评测方案,目的是给出一个以音素为基本单位的分数。在计算这个分数 时,假设有一GMM+HMM模型能够很好地根据某些声学片段确定这些片段所对应音素的似然 概率,然后通过似然差来衡量对应音素的发音质量,其计算复杂度消耗主要在
[0004] (1)强制对齐(FA):受约束的音素序列的Viterbi解码过程。
[0005] (2)识别(REC):不受约束的音素序列的Viterbi解码过程。
[0006] 由于REC是不受约束的音素序列的Viterbi解码过程,相对于FA音素解码网络更 大,更耗时。
[0007] 同时,传统口语评测方案,质量主要依赖于声学模型的质量,因为基于的假设是一 些GMM+HMM模型能够很好地根据某些声学片段确定这些片段所对应音素的似然概率。

【发明内容】

[0008] 本发明所要解决的技术问题是提供一种基于深度神经网络算法的口语发音评测 方法和系统,用以提高语音识别的性能,且基于深读神经网络算法的口语发音评测方法,其 计算复杂度相对较低。
[0009] 本发明解决上述技术问题所采取的技术方案如下:
[0010] 一种基于深度神经网络后验概率算法的口语发音评测方法,包括:
[0011] 步骤一:将语音按帧提取为音频特征向量序列;
[0012] 步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典, 确定音素状态的时间边界,该模型为DNN+HMM模型;
[0013] 步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值, 作为该音素状态的后验概率,并按照以下公式得到基于音素状态后验的单词后验得分:
[0014] P(word) =iEf=〇p(s{) ^1 ^
[0015] 其中,P(word)为单词的后验得分,为该单词的第j个音素状态的第i帧, PCS/)为S/的后验概率,k为音素状态所占的帧长,n为该单词所包含的音素状态个数,即 音素状态的后验得分为其每一帧的后验概率累加按所占帧长取平均,单词的后验得分则为 其所含的音素状态后验得分的平均值。
[0016] 所述音频特征包括选取感知线性预测特征PLP或者梅尔倒谱系数MFCC特征。
[0017] 还包括步骤四:按照以下公式得到基于音素状态后验的句子级后验得分,计算如 下:
[0018]
【主权项】
1. 一种基于深度神经网络后验概率算法的口语发音评测方法,包括: 步骤一:将语音按帧提取为音频特征向量序列; 步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典,确定 音素状态的时间边界; 步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值,作为 该音素状态的后验概率,并按照以下公式得到基于音素状态后验的单词后验得分:
其中,P(W〇rd)为单词的后验得分,5/为该单词的第j个音素状态的第i帧,PCS/)为 ?S/的后验概率,k为音素状态所占的帧长,n为该单词所包含的音素状态个数,S卩音素状态 的后验得分为其每一帧的后验概率累加按所占帧长取平均,单词的后验得分则为其所含的 音素状态后验得分的平均值。
2. 根据权利要求1或2所述的口语发音评测方法,其特征在于,还包括步骤四:按照以 下公式得到基于音素状态后验的句子级后验得分,计算如下:
其中,P(sent)为句子的后验得分,P(Si)为该句中第i帧的对应音素状态后验概率,句 子的后验得分便为其所有帧对应音素状态的后验概率平均; 步骤五:通过预先设定的映射函数,将单词级和句子级的后验得分映射到所需要的分 数段。
3. 根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括: 将拥有相同上下文的音素状态的后验概率进行累加,作为当前音素状态的后验概率。
4. 根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括: 根据训练数据确定好的各个音素状态后验概率分布,对音素状态的后验概率进行归一 化; 由训练数据统计出当前音素状态后验概率在训练集上的均值与标准差,将当前音素状 态的后验概率减去其均值除以标准差,使其后验概率归一化到标准正太分布,用这归一化 后的值作为它最终计算评分的后验概率值。
5. 根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括: 将每个音素的所有上下文不同的音素状态累加起来,作为该音素后验概率,以加强该 音素与其它音素的区分性。
6. 根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括: 将拥有相同中心音素的状态后验概率进行累加,来代表该输出结点状态的后验概率。
7. 根据权利要求2或3所述的口语发音评测方法,其特征在于,进一步包括: 通过训练数据估计各个音素状态的在训练集上的后验概率分布,将所有输出音素状态 的后验概率进行归一化。
【专利摘要】本发明公开了一种基于深度神经网络后验概率算法的口语发音评测方法,包括:步骤一:将语音按帧提取为音频特征向量序列;步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典,确定音素状态的时间边界,该模型为DNN+HMM模型;步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值,作为该音素状态的后验概率,并得到基于音素状态后验的单词后验得分,单词的后验得分则为其所含的音素状态后验得分的平均值。
【IPC分类】G10L25-69, G10L15-00, G10L15-06, G10L15-14
【公开号】CN104575490
【申请号】CN201410840991
【发明人】惠寅华, 王欢良, 杨嵩, 代大明, 袁军峰, 林远东
【申请人】苏州驰声信息科技有限公司
【公开日】2015年4月29日
【申请日】2014年12月30日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1