一种低资源嵌入式语音识别的拒识方法

文档序号:9565593阅读:790来源:国知局
一种低资源嵌入式语音识别的拒识方法
【技术领域】
[0001] 本发明属于语音识别领域,具体地说,本发明涉及一种低资源嵌入式识别的拒识 方法。
【背景技术】
[0002] 在语音识别系统的应用中,经常出现集外词,噪声等非正确语音,因此对识别结果 的拒识非常重要。一般来说,为保证识别结果有比较高的识别率,系统往往给出尽可能多的 候选;如何拒识错误的候选成为关键问题。置信度判别技术就是送个问题的有效解决办法。 可靠的置信度计算在很多应用场合十分有效。例如,在噪音或背景音乐环境下,识别结果会 出现一些错误,对于送些错误的识别结果,应该分配较低的置信度加W拒识,从而有效地降 低虚警。
[0003] 目前,语音识别中有很多置信度计算方法(文献[1] =Wessel F. Word Posterior Probabilities for Large Vocabulary Continuous Speech Recognition. PH D Dissedation,2002.)。基于声学模型的置信度计算方法就是常用的一种方法,送种方法 可W在整个声学空间上计算命令词的置信度,对于命令词语音的每一顿观测序列,首先计 算出其后验概率,然后通过计算对数域的算术均值就可W得到整个命令词的置信度(文献 巧];刘镜.语音识别中置信度分析的理论和应用.硕±学位论文,2000.),通过合适的置 信度域值,郝些错误的识别结果就可W被拒识。然而,传统的置信度计算方法对计算速度和 存储空间都有比较高的要求,致使其在低资源应用上遇到了一定的障碍,很难达到实时识 别的要求。
[0004] 伴随着个人移动通信和移动计算的迅猛发展,资源受限的小型手持设备迫切需要 带有拒识功能的语音识别技术为其提供方便高效的输入平台。针对资源受限环境下的语音 识别送一特殊应用,研究一种低资源下的拒识算法尤为重要。

【发明内容】

[0005] 本发明的目的在于克服已有语音识别拒识方法占用资源过多,集外词拒识率不高 等缺陷,提出一种低资源条件下简单高效的二次判别拒识方法。
[0006] 为了实现上述目的,本发明提出一种低资源嵌入式语音识别的拒识方法,包括:
[0007] 基于命令词表,构建命令词的解码网络;基于垃圾音素(filler)列表,构建垃圾音 素解码网络;将垃圾音素解码网络并联到命令词解码网络中,形成完整的解码网路空间; 生成语音背景概率得分表;
[0008] 采用二次判别拒识方法对待识别语音进行识别,其中所述的二次判别拒识方法 为:对待识别语音进行第一次识别,对第一次识别结果中的垃圾因素拒识,再对第一次识别 结果中的命令词进行第二次判别,得到最终识别结果。
[0009] 上述技术方案中,所述第一次识别进一步包括:
[0010] 101)对待识别语音进行预处理,得到若干个语音特征顿;
[0011] 102)将一个语音特征顿输入解码网络空间,在语音背景概率得分表中查询该语音 特征顿的背景概率得分,并进行记录;
[0012] 103)如果当前语音特征顿为第一个语音特征顿,转入104);否则,转入105);
[0013] 104)计算所有与根节点相连节点的似然概率得分;转入102);
[0014] 105)获取当前语音特征顿之前的所有语音特征顿在解码网络中的活跃节点;
[0015] 106)判断当前语音特征顿是否到达词尾节点,如果判断结果是肯定的,转入 108);否则,转入107);
[0016] 107)计算当前语音特征顿中所有节点的似然概率得分,转入114);
[0017] 108)创建新令牌,将词尾节点持有的有效令牌连接到新令牌上;
[0018] 109)判断新令牌持有路径中的最高概率得分是否大于口限;如果判断结果是肯 定的,转入111);否则,转入110);
[001引 110)删除新令牌,转入114);
[0020] 111)判断新令牌对应的单词是否为垃圾音素,如果判断结果是肯定的,转入 1。);否则,转入114);
[0021] 112)获取重入次数,所述重入次数等于新令牌持有路径的长度;判断重入次数是 否超过口限;如果判断结果是肯定的,转入114);否则,转入113);
[0022] 113)构建重入令牌;用重入令牌替换重入节点上似然概率得分最低的令牌;转入 114);
[0023] 114)判断当前语音特征顿是否为最后一顿;如果判断结果是肯定的,转入115); 否则,转入102);
[0024] 1切第一次识别结束,根据解码路径判断识别结果是否为命令词,如果判断结果 是肯定的,输出命令词;否则,输出拒识信息。
[00巧]上述技术方案中,所述113)中,所述构建重入令牌包括;计算重入节点的似然概 率得分,W似然概率得分作为重入令牌的得分,路径为令牌持有的路径,生成重入令牌。
[0026] 上述技术方案中,所述第二次判别进一步包括:
[0027] 201)计算命令词中每一个语音特征顿的后验概率得分,所述每一个语音特征顿的 后验概率得分等于该语音特征顿的似然概率得分除W该语音特征顿的背景概率得分;
[0028] 202)计算命令词中每一个音素的置信度得分,所述每一个音素的置信度得分等于 该音素包含的所有语音特征顿的后验概率得分的平均值;
[0029] 203)计算命令词的置信度得分,所述命令词的置信度得分等于该命令词包含的所 有音素的置信度得分的平均值;
[0030] 204)将命令词置信度得分与预先设定的口限进行比较,如果得分大于该口限,贝U 接受该命令词,否则就拒识。
[0031] 本发明优点在于:
[0032] 1、在语音解码识别过程中,通过控制垃圾音素解码网络的规模,降低内存占用;
[0033]2、采用二次判别拒识方法,降低虚警,提高对集外词的拒识率,满足了低资源条件 嵌入式语音识别的应用需求。
【附图说明】
[0034] 图I;本发明的命令词识别路径示意图;
[0035] 图2 ;本发明的垃圾音素识别路径示意图;
[0036] 图3 ;本发明的二次判别拒识方法的流程图。
【具体实施方式】
[0037] 下面结合附图对本发明的技术方案作进一步详细地描述。
[0038] 首先对本文涉及的专业术语进行解释;
[0039] 状态;语音识别中使用隐马尔可夫模型(HMM)对识别单元进行建模,其最小描述 单位就是状态。一般来说,一个音素就是一个H至五状态的HMM。一个词就是构成词的多 个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的 HMMo
[0040] H音子;是考虑一个音素左右两方面的语音环境,通常包括送个音素与它跟左邻 音素之间的过渡段、送个音素本身W及它跟右邻音素之间的过渡段。
[0041] 音素上下文;是指一个音素的左邻音素和右邻音素。
[0042] 令牌;从起始语音顿到当前语音顿的一条活动搜索路径,它包含路径标识信息W 及路径与声学模型W及语言模型匹配的分值。
[0043] 有效令牌;是指某个节点上,在当前顿保存下来的令牌。
[0044] 根节点:是解码网络的开始节点,所有解码路径都是从根节点开始的。
[0045] 初始节点:是指解码网络中,与根节点相连接的节点。
[0046] 活跃节点;是指当前顿上累计概率得分超过一定阔值而没有被剪枝掉的节点。
[0047] 词尾节点;是解码网络中标识一个词结束的节点。
[004引重入节点;特指与根节点连接的垃圾网络中的节点。
[0049] 现结合附图对本发明的具体实施作进一步的描述:
[0050] (1)参考图1,基于命令词表,构建命令词的解码网络;
[0051] 采用图结构,W状态作为图节点,构造解码网络空间;由于不同的H音子可共享某 一相同状态,系统采用一种前向、后向归并算法,在WH音子为单元的音素上下文描述中提 取送种共享模式,并利用图结构有效表示送种共享结构,从而生成了紧致的可精细描述声 学上下文的解码网络空间。
[005引 似参考图2,基于垃圾音素(filler)列表,构建垃圾音素解码网络,从而获得与命 令词网络竞争的网络路径;
[0053] 为了让垃圾音素可W描述非命令词外的任何语音现象,尽量挑选包含各种声韵现 象的音素;在本实施例中挑选了 19个垃圾音素构建垃圾解码网络,所述的19个垃圾音素是 al、ay_en、ah_en、at4、aul、b、ch、d、e4、ea4、er_en、h、ix4、iy_en、1、nn、〇3、S、u4。
[0054] (3)将垃圾音素解码网络并联到命令词解码网络中,形成完整的解码网路空间; [00巧]所述并联是指将两个解码网络的开始节点和结束节点合并到一起,形成一个解码 网络。
[0056] (4)生成语音背景概率得分表;
[0057] (5)采用二次判别拒识方法对待识别语音进行识别,其中所述的二次判别拒识方 法为;对待识别语音进行第一次识别:解码识别,对第一次识别结果中的垃圾因素拒识,再 对第一次识别结果中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1