电子装置及利用电子装置和服务器的语音识别执行方法【
技术领域:
】[0001]本发明的多种实施例涉及一种利用装载于电子装置的语音识别模型和可在服务器中利用的语音识别模型来识别用户的语音输入并执行语音命令的技术。【
背景技术:
】[0002]除利用键盘或鼠标的传统输入方式之外,最近的电子装置还可支持利用用户的语音(speech)的输入方式。例如,诸如智能手机或平板电脑的电子装置可对在特定功能(例如,S-Voice或Siri等)被执行的状态下输入的用户的语音进行分析而将该语音变换为文本,或者可执行对应于语音的操作。此外,一些电子装置中语音识别功能一直被激活(always-on),因此随时可根据用户的语音而被唤醒(awake)、解除锁定(unlocked)、或者可执行诸如互联网检索、通话或SMS/E-mail阅读的功能。【
发明内容】[0003]虽然已知与语音识别相关联的多样的研宄和技术,但是在电子装置中执行语音识别的方法只能是局限性的。例如,电子装置为了实现针对语音输入的迅速的响应而可以利用自行装载于电子装置的语音识别模型。然而,电子装置的存储空间和处理能力有限,由此导致可识别的语音输入的数量或种类也有限。[0004]为了针对语音输入而获得较为准确且确切的结果,电子装置可将语音输入传送给服务器而请求语音识别,并提供从服务器回复的结果,或者可基于回复的结果而执行特定操作。然而,这一方法增加电子装置的通信使用量,并带来相对较慢的响应速度。[0005]本说明书中公开的多样的实施例可提供一种语音识别执行方法,其利用两种以上的互不相同的语音识别能力或语音识别模型,来改善在前述的各种情况下可能发生的低效率,并且可以给用户提供快的响应速度和高的准确性。[0006]根据本发明的多样的实施例的一种电子装置,可包括:处理器,利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别(ASR;automaticspeechrecognit1n);以及通信模块,将所述语音输入提供给服务器,并从所述服务器接收对应于所述语音输入的语音命令。其中,所述处理器(I)在所述自动语音识别的执行结果的可信度为第一临界值以上的情况下可执行对应于所述自动语音识别的执行结果的操作,(2)在所述自动语音识别的执行结果的可信度小于第二临界值的情况下可提供针对所述可信度的反馈。[0007]根据本发明的多样的实施例,利用自行装载于电子装置的语音识别模型而执行语音识别,并基于其语音识别结果而补充利用通过服务器的语音识别结果,从而可以提供具有快的响应速度和高的准确性的语音识别功能。[0008]此外,可将利用电子装置和服务器的语音识别结果进行比较,并基于比较结果而在语音识别模型或语音识别算法中予以反映。据此,准确率和响应速度可随着语音识别的反复执行而越来越持续地得到改善。【附图说明】[0009]图1表示根据本发明的一个实施例的电子装置以及通过网络与电子装置连接的服务器。[0010]图2表示根据本发明的另一实施例的电子装置和服务器。[0011]图3表示根据本发明的一个实施例的语音识别执行方法的流程图。[0012]图4表示根据本发明的另一实施例的语音识别执行方法的流程图。[0013]图5表示根据本发明的一个实施例的更新临界值的方法的流程图。[0014]图6表示根据本发明的一个实施例的更新语音识别模型的方法的流程图。[0015]图7表示根据本发明的一个实施例的网络环境内的电子装置。[0016]图8表示根据本发明的一个实施例的电子装置的框图。【具体实施方式】[0017]以下,参考附图记载本发明的多样的实施例。然而,这不是为了将本发明限定在特定的实施方式,应该理解为本发明包括对实施例进行的多样的变更、均等物和/或替代物。关于对附图的说明,对类似的构成要素可使用类似的附图标记。[0018]在本说明书中,“具有”、“可具有”、“包括”或“可包括”等表述用于表示相关特征(例如,数值、功能、操作或部件等构成要素)的存在,其并不排除附加性的特征的存在。[0019]在本说明书中,“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或一个以上”等表述可包括一并罗列的项目的所有可能的组合。例如,“A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以指:(1)包括至少一个A的情形;(2)包括至少一个B的情形;或(3)将至少一个A和至少一个B都包括的情形。[0020]在多样的实施例中使用的“第一”、“第二”、“首先”或“其次”等表述可以与顺序和/或重要程度无关地修饰多样的构成要素,且并不限定相关构成要素。例如,第一用户设备和第二用户设备可以与顺序或重要程度无关地表示互不相同的用户设备。例如,在不脱离本发明的权利范围的前提下,第一构成要素可命名为第二构成要素,类似地,第二构成要素也可以更名为第一构成要素。[0021]当提到某一构成要素(例如,第一构成要素)(以功能方式或通信方式)连接到((operativelyorcommunicatively)coupledwith/to)或接入到(connectedto)另一构成要素(例如,第二构成要素)时,应理解为所述某一构成要素直接连接到所述另一构成要素,或者通过其他构成要素(例如,第三构成要素)连接到所述另一构成要素。相反,当提到某一构成要素(例如,第一构成要素)“直接连接到”或“直接接入到”另一构成要素(例如,第二构成要素)时,可理解为所述某一构成要素与所述另一构成要素之间并不存在其他构成要素(例如,第三构成要素)。[0022]本说明书中使用的“构成为(或设置为)(configuredto)...”这一表述可根据情况与例如“适合于(suitablefor)...”、“具备…能力的(havingthecapacityto),,、“设计为(designedto)...”、“变更为(adaptedto)...”、“制造为(madeto)...”或“能够(capableof)...”等互换使用。“构成为(或设置为)”这一术语并不局限于表示以硬件方式“特别设计(specificallydesignedto)”。在某些情况下,“构成为…的装置”这一表述可以表示该装置能够与其他装置或部件一起构成。例如,句子“构成(或设置)为执行A、B和C的处理器”可表示用于执行相关操作的专用处理器(例如,嵌入式处理器)或通用处理器(generic-purposeprocessor)(例如,CPU或应用处理器(applicat1nprocessor)),其中所述通用处理器可通过执行存储于存储器装置的一个以上的软件程序而执行相关操作。[0023]本说明书中使用的术语只是用于说明特定的实施例,并非旨在限定其他实施例的范围。只要在文脉上并不表示明确不同的含义,则单数的表述也可以包含复数的表述。包括技术或科学方面的术语在内,这里使用的所有术语可具有与本发明所属的
技术领域:
中具有普通知识的人员通常理解的含义相同的含义。通常使用的定义于词典中的术语可被解释为具有与相关技术在文脉上具有的含义相同或者类似的含义,只要没有在本说明书中明确定义,就不会被解释为理想化或者过于形式化的含义。根据情况,即使是本说明书中定义的术语,也不能被解释为排除本发明的实施例。[0024]尤其,在一些实施例中,大于关系(“>”)可互换为大于等于关系(“彡”)。[0025]以下,参考附图而说明根据多样的实施例的电子装置。在本说明书中,用户可以指使用电子装置的人或使用电子装置的设备(例如,人工智能电子设备)。[0026]图1表示根据本发明的一个实施例的电子装置以及通过网络与电子装置连接的服务器。[0027]参考图1,电子装置可包括诸如用户终端100的构成要素。例如,用户终端100可包括麦克风110、控制器120、自动语音识别(ASR;automaticspeechrecognit1n)模块130、自动语音识别模型140、收发器150、扬声器170以及显示器180。图1所示的用户终端100的构成为示例性的,可变形为能够实现本说明书中公开的多种实施例的多样的形态。例如,电子装置可包括:诸如图2所示的用户终端101、图7所示的电子装置701、图8所示的电子装置801的构成要素,或者可以利用这些构成要素而适当地变性。以下,以用户终端100为基准而说明本发明的多样的实施例。[0028]用户终端100可通过麦克风110而从用户处获取语音输入。例如,在用户执行与语音识别相关联的应用或者语音识别一直处于激活状态的情况下,用户的讲话(speech)可通过麦克风110而被获取。麦克风110可包括用于将模拟信号变换为数字信号的模数转换器(ADC;Analog-DigitalConvertor)。然而,在一些实施例中,控制器120可包括模数转换器、数模转换器(DAC;Digital-AnalogConvertor)以及多样的信号处理电路或预处理(pre-processing)电路。[0029]控制器120可将通过麦克风110获取的语音输入或者基于语音输入而生成的音频信号(或语音信号)提供给自动语音识别模块130和收发器150。由控制器120提供给自动语音识别模块130的音频信号可以是为了语音识别而经过预处理的信号。例如,所述音频信号可以是噪声过滤(noisefiltering)信号或应用适于人类的语音的均衡器(equalizer)的信号。相反,由控制器120提供给收发器150的信号却可以是语音输入本身。不同于向自动语音识别模块130传送的信号,控制器120向接收器150传送原声数据,从而可以借助于服务器200而实现更恰当或者性能更优的音频信号处理。[0030]控制器120可控制用户终端100的一般操作。例如,控制器120控制来自用户的语音输入,并控制语音识别操作,且可以控制基于语音识别的功能的执行。[0031]自动语音识别模块130可对由控制器120提供的音频信号执行语音识别。自动语音识别模块130可对语音输入(音频信号)执行孤立词识别(isolatedwordrecognit1n)、连接词语音识另Ij(connectedwordrecognit1n)、大容量词汇识别(largevocabularyrecognit1n)等。由自动语音识别模块130执行的自动语音识别可以是以说者无关(speaker-1ndependent)方式实现,或者也可以是以说者相依(speaker-dependent)方式实现。自动语音识别模块130无需非得由一个语音识别引擎构成,也可以由两个以上的语音识别引擎构成。此外,当自动语音识别模块130包括多个语音识别引擎时,各个语音识别引擎的识别目的可不同。例如,一个语音识别引擎可识别用于激活自动语音识别功能的讲话(wakeupspeech),例如可以识别“Hi,Galaxy(喂,盖世)”,而另一个当前第1页1 2 3 4 5