语音识别装置、方法以及电子设备的制造方法
【技术领域】
[0001] 本发明涉及语音识别技术领域,尤其涉及一种语音识别装置、方法W及电子设备。【背景技术】
[0002] 关键词识别(KeywordReco即ition,KWR)是语音识别的一个分支,又称关键词检 出(KeywordSpotting,KWS),是从语音中识别出一组给定的词,即关键词,而忽略除关键词 W外的其它词和各种非话音。关键词识别与连续语音识别的不同之处主要是:连续语音识 别要求识别出语音的所有内容,而关键词识别则只要求从语音中识别出关键词即可。
[0003]现有技术中,通常基于声学模型来识别语音中的关键词;例如,可W直接根据语音 的声学模型,来识别关键词,但该种方法容易产生错误拒绝(FalseRejection,FR)和错误 接受(FalseAlarm,FA);在一些改进的方案中,可W构建填充(Filler)模型来提高关键词 识别的准确性,或者,可W在构建填充模型的基础上进一步构建混淆词,从而进一步提高关 键词识别的准确性,其中,填充模型和混淆词都是基于声学模型而构建的。
[0004]应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、 完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为该些方案在本发明的
【背景技术】部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
【发明内容】
[0005]现有技术通常是基于声学模型来识别关键词,对于发音与其它词比较接近的关键 词而言,错误识别的比率仍然较高。例如,对于许多发音较短的关键词而言,很容易与其它 词具有相似的发音,如"师长"与"市场"、"年事"与"您是"、"爱也"与"A型"等,因此,采用 现有技术中基于声学模型的关键词识别方法很难准确识别出该些关键词。此外,对于基于 填充模型和混淆词的方法而言,还存在该样的缺陷:随着关键词或应用环境的变化,混淆词 需要重新设计和训练,无法适应多样化的任务和使用条件。
[0006]本发明实施例提供一种语音识别装置、方法W及电子设备,能够结合上下文的语 义信息,进行关键词识别,解决了相似发音导致的误识别问题。
[0007]根据本发明实施例的第一方面,提供一种语音识别装置,该装置包括:
[0008]识别单元,其用于对语音进行识别,W获得候选关键词;
[0009]解码单元,其结合语义信息,对所述语音中包含识别出所述候选关键词的语音的 语音进行解码,W生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格;
[0010] 计算单元,其根据所述词语网格,计算所述候选关键词的置信度;
[0011] 判断单元,其根据所述置信度,判断是否将所述候选关键词确定为关键词。
[0012] 根据本发明实施例的第二方面,提供一种电子设备,其具有如上述第一方面所述 的语音识别装置。
[0013] 根据本发明实施例的第H方面,提供一种语音识别方法,该方法包括:
[0014] 对语音进行识别,W获得候选关键词;
[0015] 结合语义信息,对所述语音中包含识别出所述候选关键词的语音的语音进行解 码,W生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格;根据所述词 语网格,计算所述候选关键词的置信度;
[0016] 根据所述置信度,判断是否将所述候选关键词确定为关键词。
[0017] 本发明的有益效果在于;通过结合语义信息,对初步识别的候选关键词进行进一 步地识别,可降低错误识别的概率,提高语音识别的准确性。
[0018]参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原 理可W被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附 权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
[0019]针对一种实施方式描述和/或示出的特征可相同或类似的方式在一个或更 多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特 征。
[0020] 应该强调,术语"包括/包含"在本文使用时指特征、整件、步骤或组件的存在,但 并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
【附图说明】
[0021] 所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部 分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下 面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动性的前提下,还可W根据该些附图获得其他的附图。在附图中:
[0022] 图1是本发明实施例1的语音识别装置的组成示意图;
[0023] 图2是是基于填充模型的关键词识别搜索网络示意图;
[0024] 图3是本发明实施例1的词语网格示意图;
[00巧]图4-图7是本发明实施例2的词语网格的示意图;
[0026] 图8是本发明实施例3的电子设备的系统构成的示意框图;
[0027] 图9是本发明实施例4的语音识别的方法的流程图。
【具体实施方式】
[0028]参照附图,通过下面的说明书,本发明的前述W及其它特征将变得明显。在说明书 和附图中,具体公开了本发明的特定实施方式,其表明了其中可W采用本发明的原则的部 分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权 利要求的范围内的全部修改、变型W及等同物。
[0029] 实施例1
[0030] 图2是本发明实施例1的语音识别装置的组成示意图,如图2所示,语音识别装置 100包括识别单元101、解码单元102、计算单元103和判断单元104。
[0031] 其中,识别单元101用于对语音进行识别,W获得候选关键词;解码单元102用于 结合语义信息,对所述语音中包含识别出所述候选关键词的语音的语音进行解码,W生成 与所述包含识别出所述候选关键词的语音的语音对应的词语网格;;计算单元103根据该 词语网格,计算该候选关键词的置信度;判断单元104根据该置信度,判断是否将该候选关 键词确定为关键词。
[0032] 由上述实施例可知,通过结合语义信息,对初步识别出的候选关键词进行进一步 地识别,可降低错误识别的概率,提高语音识别的准确性。
[0033] 在本发明实施例中,该语音可W是语音采集设备,如麦克风等设备实时采集的语 音,也可W是存储在存储介质上的语音。
[0034] 下面参照附图,详细说明本发明实施例1的语音识别装置100。
[00巧]在本发明实施例中,识别单元101用于对语音进行识别,W获得候选关键词。其 中,对语音进行识别,可W是对输入该装置的语音进行处理,并提取语音,根据该语音特征 获得候选关键词。
[0036] 在本发明实施例中,识别单元101对该语音进行的处理可W是分峽处理,例如,可 每峽25毫砂,峽叠为10毫砂的方式将该语音划分为多个峽。
[0037] 在本发明实施例中,识别单元101可W针对该语音的每一峽,提取该峽的语音特 征,例如,可W提取该帧的梅尔频率倒谱系数(Mel-Frequen巧CepstralCoefficients, MFCC)及其一阶、二阶差分W及能量等特征。识别单元101提取语音特征的具体方法,可W 参考现有技术,本发明实施例不再费述。
[0038] 在本发明实施例中,识别单元101可W根据提取出的语音特征,获得候选关键词。 识别单元101可W采用现有技术中的任何一种方法来获得候选关键词,例如,可W直接根 据语音的声学模型,来获得候选关键词,或者可W基于填充模型来获得候选关键词,或者可 W基于填充模型和混淆词来获得候选关键词。W下W基于填充模型的方法为例简要说明。 图2是基于填充模型的候选关键词搜索网络示意图,如图2所示,候选关键词和填充模型共 同组成并行搜索网络,其中,填充模型可W拟合自然界的各种发音现象,例如背景噪声、咳 嗽、喘气等非语言现象,从而吸收非语言发音。通过对候选关键词加上合适的奖赏分或对填 充模型给予合适的惩罚分,使得关键词得分超过填充模型得分,从而获得关键词。此外,女口 图2所示,该并行搜索网络还可W进一步具有混淆词,该混淆词与该候选关键词具有相似 的发音,能够提高候选关键词的识别率。
[0039] 对于上述基于填充模型和基于填充模型与混淆词的关键词识别方法的详细说明, 可W参考专利公告文件CN102194454B(发明人李鹏等,发明名称"用于检测连续语音中的 关键词的设备和方法",授权公告日1012年11月28日)和"ImprovedMandarinKeyword SpottingusingConfusionGarbageModel"(作者化ileiZhang等,ICPR1010)W及上述 两个文献所引用的文献,本发明实施例不再费述。
[0040]由于具有相似发音的词语往往具有