用lstm循环神经网络模型进行语音识别的方法和装置的制造方法
【技术领域】
[0001 ] 本发明涉及语音识别技术领域,尤其涉及一种利用LSTM(Long-Short Term Memory,长短时记忆)循环神经网络模型进行语音识别的方法和装置。
【背景技术】
[0002] 语音识别技术是指将输入的一段语音信号转化成文本输出的过程,通常包括声学 模型、语言模型以及对应的解码搜索方法,其性能很大程度上依赖声学模型的构建。由于语 音是典型的时序信号,循环神经网络,尤其是长短时记忆LSTM循环神经网络,因其具有很强 的时序建模能力而逐渐变成语音识别中声学建模的新方向。
[0003] 但是,语音信号又具有短时平稳特性,特征提取(例如,窗长25ms,步长10ms)得到 的相邻帧差异常常较小,这一方面造成模型建模能力浪费,另一方面因为简单模式反复重 复出现会造成"余尾效应",即具有简单模式的帧(比如静音帧)连续几十帧输入到网络中, 会导致循环神经网络对该简单模式记忆太强,而在不同标签的帧输入时,仍旧不能很快速 的调整过来,导致估计错误,影响识别性能,例如,如图1所示,因为标签1对应的模式比较简 单却重复了很多个时间节拍,当真实具有新的标签3的特征输入网络时,网络迟迟不能反应 过来,因此导致随后的三帧均被错误的预测成标签1。
【发明内容】
[0004] 本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
[0005] 为此,本发明的第一个目的在于提出一种利用长短时记忆LSTM循环神经网络模型 进行语音识别的方法。该方法可以很好地解决深度循环神经网络的"余尾效应",提高了语 音识别的准确性。
[0006] 本发明的第二个目的在于提出一种利用长短时记忆LSTM循环神经网络模型进行 语音识别的装置。
[0007] 为达上述目的,本发明第一方面实施例的利用长短时记忆LSTM循环神经网络模型 进行语音识别的方法,包括:接收第t时刻的语音输入数据;根据预设规则选择第t-i时刻至 第t-n时刻的LSTM隐含层状态,其中,η为正整数;根据所述选择的至少一个LSTM隐含层状 态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结 果。
[0008] 本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法,在 语音识别的过程中,可接收当前第t时刻的语音输入数据,并根据LSTM循环神经网络模型、 以及预设规则选择第t-Ι时刻至第t-n时刻的LSTM隐含层状态,最后,将选择的至少一个 LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的 LSTM结果,即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系,算法自动地学习 不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的时间跨度依赖,而对 变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模式的简单程度自动学 习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的"余尾效应",从而提 高了语音识别的准确性。
[0009] 为达上述目的,本发明第二方面实施例的利用长短时记忆LSTM循环神经网络模型 进行语音识别的装置,包括:接收模块,用于接收第t时刻的语音输入数据;选择模块,用于 根据预设规则选择第t-ι时刻至第t-n时刻的LSTM隐含层状态,其中,η为正整数;生成模块, 用于根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述 LSTM循环神经网络模型生成第t时刻的LSTM结果。
[0010] 本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置,在 语音识别的过程中,可通过接收模块接收当前第t时刻的语音输入数据,选择模块根据LSTM 循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,生成模 块将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以 计算出该第t时刻的LSTM结果,即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关 系,算法自动地学习不同时间尺度之间的依赖关系,对于简单重复模式自适应的采用大的 时间跨度依赖,而对变化比较剧烈的自适应的采取小的时间跨度,从而根据语音帧序列模 式的简单程度自动学习与其适应的时序依赖关系,从而很好的解决了深度循环神经网络的 "余尾效应",从而提高了语音识别的准确性。
[0011] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0012] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中:
[0013] 图1是现有技术中存在的余尾效应的不意图;
[0014] 图2是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音 识别的方法的流程图;
[0015] 图3是本发明提出的LSTM循环神经网络模型与普通常规的LSTM结构的基本对比原 理的示例图;以及
[0016] 图4是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音 识别的装置的结构框图。
【具体实施方式】
[0017]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0018]语音识别技术是指将输入的一段语音信号转化成文本输出的过程,通常包括声学 模型、语言模型以及对应的解码搜索方法,其性能很大程度上依赖声学模型的构建。现有的 大词汇量汉语语音识别方法主要基于混合方法,例如:高斯混合模型(Gaussian Mixture Model;以下简称:GMM)+隐马尔科夫模型(Hidden Markov Model;以下简称:HMM)、深度神经 网络(Deep Neural Network;以下简称:DNN)+HMM等。具体而言,在基于统计的混合方法建 模的语音识别中,HMM用于表示声学建模单元,比如一个音子一个HMM,每一个HMM又包含几 个顺序跳转的状态(通常为三到五个),用于估计隐马尔可夫模型的状态后验概率的方法 有:高斯混合模型、深度神经网络(特指深度多层感知机)、深度卷积神经网络和深度循环神 经网络等以及几者的组合模型。
[0019] 目前,基于统计的深度神经网络-隐马尔科夫模型(DNN-HMM)是主流系统的标准配 置。深度神经网络用于估计隐马尔可夫模型的状态后验概率,基于此解码算法在融合语言 模型的条件下进行最优序列搜索。因此,DNN-HMM模型应用于语音识别包含"对齐"和"优化" 两个步骤,首先利用对齐算法在给定答案的训练数据上获得因马尔科模型的状态标签,DNN 模型主要用于精确建模状态的后验概率,因此该方法亦被称为混合建模方法(Hybrid)。
[0020] 语音是典型的时序信号,循环神经网络,尤其是长短时记忆(Long short-term mem〇ry,LSTM)循环神经网络,因其具有很强的时序建模能力逐渐变成语音识别中声学建模 的新方向。但是,语音信号又具有短时平稳特性,特征提取(窗长25ms,步长10ms)得到的相 邻帧差异常常较小,这一方面造成模型建模能力浪费,另一方面因为简单模式反复重复出 现会造成"余尾效应",即具有简单模式的帧(比如静音帧)连续几十帧输入到网络中,会导 致循环神经网络对该简单模式记忆太强,而在不同标签的帧输入时,仍旧不能很快速的调 整过来,导致估计错误,影响识别性能。例如,如图1所示,因为标签1对应的模式比较简单却 重复了很多个时间节拍,当真实具有新的标签3的特征输入网络时,网络迟迟不能反应过 来,因此导