一种交互系统的语音识别方法和装置的制造方法

文档序号：8944173阅读：582来源：国知局

一种交互系统的语音识别方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域，具体涉及一种交互式系统的语音识别方法和装置。
【背景技术】
[0002]随着多媒体技术的发展，各种交互式系统都采用了语音交互的方式，以提高与用户的互动效率和提高趣味性。例如问答系统，先通过语音或图像显示的方式向用户抛出问题，然后用户语音回答。再例如一些展示系统，需要用户发出语音指令来选择展示哪些目录中的内容。在这些场景下都需要对用户的语音进行准确识别，才能在问答系统下判断用户给出的语音答案是否正确，以及在展示系统下判断用户到底选择了哪些目录，以便展示相应目录中的内容。
[0003]因此在交互系统中对用户的语音进行准确和快速的识别是亟需解决的问题。

【发明内容】

[0004]鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种交互式系统的语音识别方法和装置。
[0005]依据本发明的一个方面，提供了一种交互系统的语音识别方法，其中，该方法包括:
[0006]根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本；
[0007]将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本；
[0008]采集所述互动状态下的用户的语音信号；
[0009]将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。
[0010]可选地，该方法进一步包括:
[0011]若在所述样本组中发现匹配的预期样本，则确定用户给出的答案为该预期答案。
[0012]可选地，该方法进一步包括:
[0013]若未在所述样本组中发现匹配的预期样本，则将所述语音信号与所述至少两个样本组中另一个样本组中的预期样本进行匹配。
[0014]可选地，该方法进一步包括:
[0015]若在所述另一个样本组中发现匹配的预期样本，则确定用户给出的答案为该预期答案。
[0016]可选地，该方法进一步包括:
[0017]若未在所述另一个样本组中发现匹配的预期样本，则确定用户未给出预期答案。
[0018]可选地，该方法进一步包括:
[0019]计算所述语音信号与预期样本的匹配度值，如果匹配度值达到预设值，则确定所述语音信号与该预期样本匹配，反之如果匹配度值未达到预设值，则确定所述语音信号与该预期样本不匹配。
[0020]可选地，所述将所述预期答案对应的多个预期样本划分为至少两个样本组包括:
[0021]将所述预期答案对应的多个预期样本，按照与所述预期答案的相似程度的不同划分为至少两个样本组，或者按照用户可能答复的预期答案的概率的不同划分为至少两个样本组。
[0022]可选地，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配包括:
[0023]将所述语音信号与至少两个样本组中的与所述预期答案的相似程度最高的一个样本组中的预期样本进行匹配，或者将所述语音信号与至少两个样本组中的包含用户可能答复的概率最高的预期答案的一个样本组进行匹配。
[0024]可选地，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配包括:
[0025]将所述语音信号与至少两个样本组中的一个样本组中优先级最高的预期样本进行匹配。
[0026]可选地，该方法进一步包括:
[0027]根据所采集的该互动状态下的历史语音信号，相应扩充所述预期答案对应的样本组数量，或者，相应扩充所述预期答案对应的一个样本组包含的预期样本数量，或者相应扩充所述语音识别样本库中的样本数量；
[0028]可选地，在采集所述互动状态下的用户的语音信号之前，该方法进一步包括:
[0029]通过结合语音、图像和视频中任一种或多种的形式，展现互动状态。
[0030]依据本发明的另一个实施例，公开了一种交互系统的语音识别装置，其中，该装置包括:
[0031]预期样本确定单元，适于根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本；
[0032]分组单元，适于将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本；
[0033]采集单元，适于采集所述互动状态下的用户的语音信号；
[0034]匹配处理单元，适于将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。
[0035]可选地，所述匹配处理单元，适于当在所述样本组中发现匹配的预期样本时，确定用户给出的答案为该预期答案。
[0036]可选地，所述匹配处理单元，适于当未在所述样本组中发现匹配的预期样本时，将所述语音信号与所述至少两个样本组中另一个样本组中的预期样本进行匹配。
[0037]可选地，所述匹配处理单元，适于当在所述另一个样本组中发现匹配的预期样本时，确定用户给出的答案为该预期答案。
[0038]可选地，该装置进一步包括:
[0039]所述匹配处理单元，适于当未在所述另一个样本组中发现匹配的预期样本，则确定用户未给出预期答案。
[0040]可选地，所述匹配处理单元，适于计算所述语音信号与预期样本的匹配度值，如果匹配度值达到预设值，则确定所述语音信号与该预期样本匹配，反之如果匹配度值未达到预设值，则确定所述语音信号与该预期样本不匹配。
[0041]可选地，所述分组单元，适于将所述预期答案对应的多个预期样本，按照与所述预期答案的相似程度的不同划分为至少两个样本组，或者按照用户可能答复的预期答案的概率的不同划分为至少两个样本组。
[0042]可选地，所述匹配处理单元，适于将所述语音信号先与至少两个样本组中的与所述预期答案的相似程度最高的一个样本组中的预期样本进行匹配，或者将所述语音信号与至少两个样本组中的包含用户可能答复的概率最高的预期答案的一个样本组进行匹配。
[0043]可选地，所述匹配处理单元，适于先将所述语音信号先与至少两个样本组中的一个样本组中优先级最高的预期样本进行匹配。
[0044]可选地，该装置进一步包括:
[0045]扩充单元，适于根据所采集的该互动状态下的历史语音信号，相应扩充所述预期答案对应的样本组数量，或者，相应扩充所述预期答案对应的一个样本组包含的预期样本数量，或者相应扩充所述语音识别样本库中的样本数量；
[0046]可选地，该装置进一步包括:
[0047]展现单元，适于通过结合语音、图像和视频中任一种或多种的形式，展现互动状
??τ O
[0048]根据本发明的这种根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本，将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本，采集所述互动状态下的用户的语音信号，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配的技术方案，由于将预期答案对应的预期样本预先找出来并分组，将用户的语音信号直接与其中一组预期样本进行匹配，因此使得匹配的范围缩小到一个可预期的小范围，不仅提高了交互系统的语音识别的速度，而且提高了语音识别的准确性。
[0049]上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0050]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0051]图1示出了根据本发明一个实施例的一种交互系统的语音识别方法的流程图；
[0052]图2示出了根据本发明一个实施例的一种交互系统的语音识别装置的结构图；以及
[0053]图3示出了根据本发明又一个实施例的一种交互系统的语音识别装置的结构图。【具体实施方式】
[0054]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0055]图1示出了根据本发明一个实施例的一种交互系统的语音识别方法的流程图。如图1所示，该方法包括:
[0056]

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐路;韩笑;苑一时;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

上一篇：一种语音控制的遥控装置及其实现方法
上一篇：语音交互方法及装置的制造方法