语音唤醒的控制方法、装置及终端与流程

文档序号:11097792阅读:612来源:国知局
语音唤醒的控制方法、装置及终端与制造工艺

本发明涉及语言处理技术领域,尤其涉及一种语音唤醒的控制方法、装置及终端。



背景技术:

随着智能技术的发展,在控制终端设备时,用户可以通过唤醒词控制终端设备从休眠状态下被唤醒,终端设备在唤醒模式下可以执行用户的语音指令。

现有技术中,在通过唤醒方式控制终端设备时,控制方式通常为:接收唤醒词,进入唤醒模式,在执行完一条控制指令后结束唤醒。

但是,在用户需要执行多条指令的情况下,则需要反复执行上述过程,使得操作更加繁琐,且增加了唤醒词被拒识的风险。



技术实现要素:

本发明解决的技术问题是如何实现语音唤醒控制的便捷性。

为解决上述技术问题,本发明实施例提供一种语音唤醒的控制方法,语音唤醒的控制方法包括:

接收第一语音数据并进行语音识别,以得到第一识别结果;在所述第一识别结果中存在唤醒词时,进入唤醒模式;接收第二语音数据并进行语音识别,以得到第二识别结果;根据所述第二识别结果进行响应,响应后保持对语音的接收。

可选的,所述根据所述第二识别结果进行响应包括:在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应。

可选的,所述控制方法还包括:在所述第二识别结果中不存在所述第一控制指令时,提示用户指令异常。

可选的,所述控制方法还包括:在接收到第三语音数据时,根据所述第三语音数据执行相应的操作。

可选的,所述根据所述第三语音数据执行相应的操作包括:根据所述第三语音数据对相应的控制指令进行响应,或结束所述唤醒模式。

可选的,所述在接收到第三语音数据时,根据所述第三语音数据执行相应的操作包括:确定执行完成所述第一控制指令的时间为时间起始点;在所述时间起始点之后的第一设定时间内,如果接收到所述第三语音数据,则进行语音识别,以得到第三识别结果。

可选的,所述控制方法还包括:在所述时间起始点之后的所述第一设定时间内,如果未接收到所述第三语音数据,则发送语音提示;在发送所述语音提示后的第二设定时间内,如果未接收到所述第三语音数据,则结束所述唤醒模式。

可选的,对所述第一控制指令进行响应的同时,对所述第二语音数据提取声纹,以得到第一声纹;所述在接收到第三语音数据时,根据所述第三语音数据执行相应的操作还包括:对所述第三语音数据提取声纹,作为第二声纹;将所述第一声纹和所述第二声纹进行匹配,以得到第一相似度得分;在所述第一相似度得分大于第一阈值,且所述第三识别结果中存在第二控制指令时,响应所述第二控制指令。

可选的,所述在接收到第三语音数据时,根据所述第三语音数据执行相应的操作还包括:在所述第一相似度得分小于第二阈值时,结束所述唤醒模式,所述第二阈值小于所述第一阈值。

可选的,所述在接收到第三语音数据时,根据所述第三语音数据执行相应的操作还包括:在所述第一相似度得分大于所述第二阈值且小于所述第一阈值时,将所述第二声纹与预设声纹库进行匹配,以得到第二相似度得分;在所述第二相似度得分大于第一阈值时,在所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令;在所述第二相似度得分小于第二阈值时,结束所述唤醒模式。

可选的,所述控制方法还包括:接收第一语音数据并进行语音识别的同时,对所述第一语音数据进行声纹提取以得到第一语音数据的声纹;如果在接收所述第三语音数据之前,以及接收所述第二语音数据之后,存在至少一条中间语音数据,则接收所述至少一条中间语音数据的同时,对所述至少一条中间语音数据提取声纹进行声纹识别;将所述第二声纹与所述第一声纹、所述至少一条中间语音数据的声纹和所述第一语音数据的声纹进行匹配,以得到第三相似度得分;在所述第三相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

可选的,所述控制方法还包括:接收第一语音数据并进行语音识别的同时,对所述第一语音数据进行声纹识别以得到第一语音数据的声纹;如果所述第三语音数据和所述第二语音数据之间没有接收其他语音数据,则将所述第二声纹与所述第一声纹和所述第一语音数据的声纹进行匹配,以得到第四相似度得分;在所述第四相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

可选的,所述将所述第二声纹与所述第一声纹、至少一条中间语音数据和所述第一语音数据的声纹进行匹配包括:将所述第二声纹与所述第一声纹、所述至少一条中间语音数据的声纹和所述第一语音数据的声纹分别进行两两匹配,得到多个相似度得分;将所述多个相似度得分与对应的设定权重的乘积相加,以作为所述第三相似度得分,其中,所述第二声纹与所述第一语音数据的声纹对应的设定权重最大。

可选的,采用GMM-UBM模型提取声纹。

可选的,所述在接收到第三语音数据时,根据所述第三语音数据执行相应的操作还包括:在所述第三识别结果中存在结束词时,结束所述唤醒模式。

可选的,采用以下方式对所述第一控制指令进行响应:确定所述第一控制指令对应的指令文本;对所述指令文本进行分词处理以及关键词提取处理,以得到关键词;将所述关键词与预设知识库进行匹配,确定标准问题以及对应的答案,并发送所述答案。

为解决上述技术问题,本发明实施例还公开了一种语音唤醒的控制装置,语音唤醒的控制装置包括:第一语音识别模块,用于接收第一语音数据并进行语音识别,以得到第一识别结果;唤醒模块,用于在所述第一识别结果中存在唤醒词时,进入唤醒模式;第二语音识别模块,用于接收第二语音数据并进行语音识别,以得到第二识别结果;语音接收模块,用于根据所述第二识别结果进行响应,响应后保持对语音的接收。

为解决上述技术问题,本发明实施例还公开了一种终端,所述终端包括所述语音唤醒的控制装置。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明技术方案接收第一语音数据并进行语音识别,以得到第一识别结果;在所述第一识别结果中存在唤醒词时,进入唤醒模式;接收第二语音数据并进行语音识别,以得到第二识别结果;根据所述第二识别结果进行响应,响应后保持对语音的接收。本发明技术方案在对第二识别结果进行响应后,还可以继续处于唤醒模式,保持对语音的接收,而不是结束唤醒模式;从而在需要执行多条指令的情况下,避免反复进入唤醒模式,实现了语音唤醒控制的便捷性,进而可以实现人机语音交互中多指令的识别与执行。

进一步,对所述第一控制指令进行响应的同时,对所述第二语音数据提取声纹,以得到第一声纹;所述在接收到第三语音数据时,根据所述第三语音数据执行相应的操作还包括:对所述第三语音数据提取声纹,作为第二声纹;将所述第一声纹和所述第二声纹进行匹配,以得到第一相似度得分;在所述第一相似度得分大于第一阈值,且所述第三识别结果中存在第二控制指令时,响应所述第二控制指令;在所述第一相似度得分小于第二阈值时,结束所述唤醒模式。本发明技术方案通过将第三语音数据和第二语音数据的声纹进行匹配,在匹配得到的第一相似度得分表明第三语音数据和第二语音数据的来源为同一人时,可以执行第三识别结果中的第二控制指令;在第三语音数据和第二语音数据的来源不是同一人时,结束唤醒模式,可以提高语音唤醒控制的安全性,避免非法人员的非法语音控制。

进一步地,在所述第三语音数据与第二语音数据之间存在多条语音数据时,将所述第二声纹与所述第一声纹、多条语音数据和所述第一语音数据的声纹进行匹配,以得到第三相似度得分;在所述第三相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

本发明技术方案通过将第三语音数据与多个语音数据进行对比,可以进一步提高对第三语音数据的来源判断的准确性,从而进一步提高语音唤醒控制的安全性。

附图说明

图1是本发明实施例一种语音唤醒的控制方法的流程图;

图2是本发明实施例另一种语音唤醒的控制方法的流程图;

图3是本发明实施例又一种语音唤醒的控制方法的流程图;

图4是本发明实施例一种语音唤醒的控制装置的结构示意图;

图5是本发明实施例另一种语音唤醒的控制装置的结构示意图;

图6是本发明实施例又一种语音唤醒的控制装置的结构示意图。

具体实施方式

如背景技术中所述,现有技术在用户需要执行多条指令的情况下,则需要反复执行上述过程,使得操作更加繁琐,且增加了唤醒词被拒识的风险。

本发明实施例在对第二识别结果进行响应后,还可以继续处于唤醒模式,保持对语音的接收,而不是结束唤醒模式;从而在需要执行多条指令的情况下,避免反复进入唤醒模式,实现了语音唤醒控制的便捷性,进而可以实现人机语音交互中多指令的识别与执行。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种语音唤醒的控制方法的流程图。

图1所示的语音唤醒的控制方法可以包括以下步骤:

步骤S101:接收第一语音数据并进行语音识别,以得到第一识别结果;

步骤S102:在所述第一识别结果中存在唤醒词时,进入唤醒模式;

步骤S103:接收第二语音数据并进行语音识别,以得到第二识别结果;

步骤S104:根据所述第二识别结果进行响应,响应后保持对语音的接收。

本实施例中,以终端设备或智能系统在步骤S101之前处于休眠模式为例,对语音唤醒的控制方法进行说明。

具体实施中,由于终端设备或智能系统可以通过唤醒词进行唤醒,因此在步骤S101和步骤S102中,接收第一语音数据并进行语音识别,在第一语音数据的第一识别结果中存在唤醒词时,进入唤醒模式。终端设备或智能系统在处于唤醒模式时,可以根据用户的语音执行相应的控制指令。

具体而言,所述唤醒词可以是用户自定义设置的,也可以是终端设备系统配置的,本发明实施例对此不做限制。

具体实施中,经步骤S102进入唤醒模式后,在步骤S103中接收第二语音数据并进行语音识别,以得到第二识别结果。然后在步骤S104中,根据所述第二识别结果进行响应,并在响应完成后保持对语音的接收。也就是说,相对于现有技术执行完一条控制指令后结束唤醒,步骤S104在对第二识别结果响应完成后可以继续保持对语音的接收,以便可以对下一语音进行响应。

本发明实施例在对第二识别结果进行响应后,还可以继续处于唤醒模式,保持对语音的接收,而不是结束唤醒模式;从而在需要执行多条指令的情况下,避免反复进入唤醒模式,实现了语音唤醒控制的便捷性,进而可以实现人机语音交互中多指令的识别与执行。

具体而言,步骤S104可以包括以下步骤:在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应;在所述第二识别结果中不存在所述第一控制指令时,提示用户指令异常。也就是说,第二识别结果中存在第一控制指令的话,则执行第一控制指令;在第二语音数据不正常的情况下,第二识别结果中不存在第一控制指令,则对用户进行提示,以便用户可以根据提示来选择退出唤醒模式或者重新输入语音。更具体而言,可以设置时间段,例如5秒;在5秒内未检测到第一控制指令时,则结束唤醒模式。

图2是本发明实施例另一种语音唤醒的控制方法的流程图。

图2所示的语音唤醒的控制方法可以包括以下步骤:

步骤S201:接收第一语音数据并进行语音识别,以得到第一识别结果;

步骤S202:在所述第一识别结果中存在唤醒词时,进入唤醒模式;

步骤S203:接收第二语音数据并进行语音识别,以得到第二识别结果;

步骤S204:在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应;

步骤S205:确定执行完成所述第一控制指令的时间为时间起始点;

步骤S207:在所述时间起始点之后的所述第一设定时间内,如果未接收到所述第三语音数据,则发送语音提示;

步骤S208:在发送所述语音提示后的第二设定时间内,如果未接收到所述第三语音数据,则结束所述唤醒模式;

步骤S206:在所述时间起始点之后的第一设定时间内,如果接收到所述第三语音数据,则进行语音识别,以得到第三识别结果;

步骤S209:在所述第三识别结果中存在结束词时,结束所述唤醒模式。

本实施例中,步骤S201至步骤S203可以参照图1所示的步骤S101至步骤S103,此处不再赘述。

本实施例中,在接收到第三语音数据时,根据所述第三语音数据执行相应的操作。具体而言,可以根据所述第三语音数据对相应的控制指令进行响应,或结束所述唤醒模式。

具体实施中,在步骤S205中,确定时间起始点为执行完成所述第一控制指令的时间。那么,在步骤S206中,在所述时间起始点之后的第一设定时间内,如果接收到所述第三语音数据,则进行语音识别,以得到第三识别结果。相应地,在步骤S207中,在所述时间起始点之后的所述第一设定时间内,如果未接收到所述第三语音数据,则发送语音提示。例如,自时间起始点开始5秒内未接收到语音信号,则发送语音提示:“请问还有什么可以帮您的吗”。

然后在步骤S208中,在发送所述语音提示后的第二设定时间内,如果未接收到所述第三语音数据,则结束所述唤醒模式。例如,在发送语音提示后5秒内仍未接收到语音信号,则判断为无指令,结束本次唤醒。也就是说,本实施例通过设置第一设定时间和第二设定时间,一方面为用户提供等待时间,另一方面避免终端设备无限制的等待,导致资源浪费。

具体而言,在步骤S206至步骤S208中,可以采用能量双门限法判断是否接收到第三语音数据。例如,设置三个阈值:低能量阈值T_low、高能量阈值T_high以及过零率阈值Z_CR,当某帧语音信号能量大于低能量阈值T_low或者大于过零率阈值Z_CR时,则可以判定语音信号的开始,当某帧语音信号能量大于T_high时,则可以判定为正式的语音信号,如果语音信号能量大于高能量阈值T_high保持一段时间,则确定该语音信号为所需语音信号。

具体实施中,终端设备或智能系统可以通过结束词结束唤醒。在执行完步骤S206后可以执行步骤S209,用以对第三识别结果中是否包括结束词进行判断,在所述第三识别结果中存在结束词时,结束所述唤醒模式。本领域技术人员可以理解的是,结束词可以是用户自定义设置的,也可以是终端设备系统配置的,例如,终止词可以是“不用”,“没有”,“就这样”。本发明实施例对此不做限制。

具体实施中,在步骤S204中,可以采用以下方式对所述第一控制指令进行响应:确定所述第一控制指令对应的指令文本;对所述指令文本进行分词处理以及关键词提取处理,以得到关键词;将所述关键词与预设知识库进行匹配,确定标准问题以及对应的答案,并发送所述答案。也就是说,在本实施例的应用场景中,对所述第一控制指令进行响应可以是对第二语音数据进行回答。

需要说明的是,在步骤S204中,如果在所述第二识别结果中不存在所述第一控制指令时,提示用户指令异常;那么在步骤S205中,则确定提示用户指令异常的时间为时间起始点。

本发明实施例在用户长时间无应答或者发送的语音中包括结束词时,结束唤醒模式,相对于现有技术执行完一条控制指令后结束唤醒,在可以执行多条指令的基础上,进一步提高了语音唤醒控制的便捷性,提高了用户体验。

图3是本发明实施例又一种语音唤醒的控制方法的流程图。

图3所示的语音唤醒的控制方法可以包括以下步骤:

步骤S301:接收第一语音数据并进行语音识别,以得到第一识别结果;

步骤S302:在所述第一识别结果中存在唤醒词时,进入唤醒模式;

步骤S303:接收第二语音数据并进行语音识别,以得到第二识别结果;

步骤S304:在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应,同时对所述第二语音数据提取声纹,得到第一声纹;

步骤S305:在接收到第三语音数据时,对所述第三语音数据提取声纹,作为第二声纹;

步骤S306:将所述第一声纹和所述第二声纹进行匹配,以得到第一相似度得分;

步骤S307:在所述第一相似度得分大于第一阈值,且所述第三识别结果中存在第二控制指令时,响应所述第二控制指令;

步骤S308:在所述第一相似度得分小于第二阈值时,结束所述唤醒模式;

步骤S309:在所述第一相似度得分大于所述第二阈值且小于所述第一阈值时,将所述第二声纹与预设声纹库进行匹配,以得到第二相似度得分;

步骤S310:在所述第二相似度得分大于第一阈值时,在所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令;

步骤S311:在所述第二相似度得分小于第二阈值时,结束所述唤醒模式。

本实施例中,步骤S301至步骤S303可以参照图1所示的步骤S101至步骤S103,此处不再赘述。

具体实施中,在步骤S304中,在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应的同时对所述第二语音数据提取声纹,得到对应于第二语音数据的第一声纹。其中,声纹可以表征语音数据的特征,不同的语音来源具备不同的声纹,故声纹可以用以判断不同的语音数据是否来源于同一人。例如,两段语音数据的声纹一致,则表明两段语音数据来源于同一个人,否则来源于不同的人。

具体实施中,在步骤S305中,在接收到第三语音数据时,在对第三语音数据进行语音识别之前,对所述第三语音数据提取声纹,作为第二声纹。其中,第二声纹可以表征第三语音数据的来源的特征。也就是说,在接收到第三语音数据后,首先对第三语音数据的来源进行验证,在验证安全后,再去执行第三语音数据中的控制指令。具体而言,可以采用Gauss混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)提取声纹。更具体地,可以采用GMM_UBM来训练声纹模型,并用于声纹提取。

具体实施中,在步骤S306中,通过将所述第一声纹和所述第二声纹进行匹配,得到第一相似度得分。也就是说,通过第一声纹和第二声纹的相似度得分来表示第一声纹和第二声纹是否相似,以及是否来源于同一人。具体而言,相似度得分可以是两段语音对应声纹的余弦(cosine)距离,那么第一相似度得分为第一声纹和所述第二声纹的余弦距离。

具体实施中,在步骤S307中,在所述第一相似度得分大于或大于等于第一阈值,例如,第一相似度得分大于0.6;表示第一声纹和第二声纹相似,来源于同一人,那么如果第三语音数据的所述第三识别结果中存在第二控制指令,则响应所述第二控制指令。相应地,在步骤S308中,在所述第一相似度得分小于第二阈值或小于等于时,例如,第一相似度得分小于0.4;表示第一声纹和第二声纹差异大,不是来源于同一人,为了保证安全,则结束所述唤醒模式。其中,所述第二阈值可以小于第一阈值,也可以等于第一阈值。

具体实施中,如果第二阈值小于第一阈值,那么在步骤S309中,在所述第一相似度得分大于所述第二阈值且小于所述第一阈值时,将所述第二声纹与预设声纹库进行匹配,以得到第二相似度得分。也就是说,在无法判定第二语音数据和第三语音数据是否来自于同一人时,例如,第一相似度得分大于0.4且小于0.6,可以将第二声纹与预设声纹库进行匹配,得到第二相似度得分。具体而言,预设声纹库可以是预先配置的,可以通过录取终端设备的常用人员的多条语音,提取得到对应声纹,并将其存入预设声纹库。具体地,第二相似度得分可以是第一声纹与预设声纹库中多条声纹的最大余弦距离。

具体实施中,在步骤S310中,如果所述第二相似度得分大于第一阈值时,例如,第二相似度得分大于0.6;表示第一声纹与预设声纹库中的声纹相似,第一声纹的来源为终端设备的常用人员,那么如果第三语音数据的所述第三识别结果中存在第二控制指令,则响应所述第二控制指令。相应地,在步骤S311中,如果所述第二相似度得分小于第二阈值时,例如,第二相似度得分小于0.4;表示第一声纹不是预设声纹库中的任一声纹,第一声纹的来源不是终端设备的常用人员,为了保证安全,则结束所述唤醒模式。

本发明实施例通过将第三语音数据和第二语音数据的声纹进行匹配,在匹配得到的第一相似度得分表明第三语音数据和第二语音数据的来源为同一人时,可以执行第三识别结果中的第二控制指令;在第三语音数据和第二语音数据的来源不是同一人时,结束唤醒模式,可以提高语音唤醒控制的安全性,避免非法人员的非法语音控制。

优选地,在步骤S306至步骤S308中,还可以将第二声纹与多条语音数据进行比对,以提高声纹比对的准确性。具体步骤如下:

接收第一语音数据并进行语音识别的同时,对所述第一语音数据进行声纹识别提取以得到第一语音数据的声纹;如果在接收所述第三语音数据之前,以及接收所述第二语音数据之后,存在至少一条中间语音数据,则接收所述至少一条中间语音数据的同时,对所述至少一条中间语音数据提取声纹;将所述第二声纹与所述第一声纹、所述至少一条中间语音数据的声纹和所述第一语音数据的声纹进行匹配,以得到第三相似度得分;在所述第三相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

也可以包括以下步骤:接收第一语音数据并进行语音识别的同时,对所述第一语音数据进行声纹识别以得到第一语音数据的声纹;如果所述第三语音数据和所述第二语音数据之间没有接收其他语音数据,则将所述第二声纹与所述第一声纹和所述第一语音数据的声纹进行匹配,以得到第四相似度得分;在所述第四相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

也就是说,在本次的唤醒模式中,可以将所述第三语音数据与第三语音数据之前出现过的多条语音数据的至少一部分进行比对。具体地,可以是第二声纹与所述第一声纹、第三语音数据与第二语音数据之间的所述至少一条中间语音数据以及所述第一语音数据的声纹进行比对;也可以是与所述第一声纹以及第三语音数据与第二语音数据之间的所述至少一条中间语音数据进行比对;还可以是与第一声纹和第一语音数据的声纹进行比对。

具体而言,第三语音数据的第二声纹与多个声纹特征进行比对时,第三相似得分的计算方式如下:将所述第二声纹与所述第一声纹、所述至少一条中间语音数据的声纹和所述第一语音数据的声纹分别进行两两匹配,得到多个相似度得分;将所述多个相似度得分与对应的设定权重的乘积相加,以作为所述第三相似度得分,其中,所述第二声纹与所述第一语音数据的声纹对应的设定权重最大。也即以第二声纹与第一语音数据的声纹的相似度得分为主,同时考虑第二声纹与第二声纹之前其他语音数据的声纹的相似度得分,计算得到第二声纹比对的最终得分。例如,第一语音数据的声纹、第一声纹、第二声纹以及所述至少一条中间语音数据的声纹分别表示为vid1,vid2,vid3……vidn;两两匹配后多个相似度得分分别为Score21,Score31,Score32……Scoren1等;故第三相似度得分其中,weight∈[0,1]。可以理解的是,第二声纹与第一声纹和第一语音数据的声纹进行比对时,也可以采用上述计算方式,本发明实施例对此不做限制。例如,将所述第二声纹与所述第一声纹和所述第一语音数据的声纹分别进行两两匹配,得到三个相似度得分;将所述三个相似度得分与对应的设定权重的乘积相加,以作为所述第四相似度得分,其中,所述第二声纹与所述第一语音数据的声纹对应的设定权重最大。

本发明实施例的具体实施方式可参照前述相应实施例,此处不再赘述。

本发明实施例通过将第三语音数据与多个语音数据进行对比,可以进一步提高对第三语音数据的来源判断的准确性,从而进一步提高语音唤醒控制的安全性。

需要说明的是,图3所示实施例可以结合图2所示实施例进行实施,例如,在步骤S206之后,执行步骤S305至步骤S311,也就是在时间起始点之后的第一设定时间内如果接收到第三语音数据,则通过声纹对比的方式判断第三语音数据的来源,进而确定执行指令或退出唤醒模式;也可以是在发送语音提示后的第二设定时间内如果接收到第三语音数据,执行步骤S305至步骤S311,通过声纹对比的方式判断第三语音数据的来源,进而确定执行指令或退出唤醒模式。应当理解的是,本领域技术人员在此基础上可作出任意可实施的变化例,本发明实施例对此不做限制。

图4是本发明实施例一种语音唤醒的控制装置的结构示意图。

图4所示的语音唤醒的控制装置40可以包括第一语音识别模块401、唤醒模块402、第二语音识别模块403和语音接收模块404。

其中,第一语音识别模块401用于接收第一语音数据并进行语音识别,以得到第一识别结果;唤醒模块402用于在所述第一识别结果中存在唤醒词时,进入唤醒模式;第二语音识别模块403用于接收第二语音数据并进行语音识别,以得到第二识别结果;语音接收模块404用于根据所述第二识别结果进行响应,响应后保持对语音的接收。

本实施例中,以终端设备或智能系统在语音唤醒的控制装置40工作之前处于休眠模式为例,对语音唤醒的控制过程进行说明。

具体实施中,由于终端设备或智能系统可以通过唤醒词进行唤醒,因此第一语音识别模块401接收第一语音数据并进行语音识别,唤醒模块402在第一语音数据的第一识别结果中存在唤醒词时,进入唤醒模式。具体而言,所述唤醒词可以是用户自定义设置的,也可以是终端设备系统配置的,本发明实施例对此不做限制。

具体实施中,进入唤醒模式后,第二语音识别模块403可以接收第二语音数据并进行语音识别,以得到第二识别结果。然后语音接收模块404根据所述第二识别结果进行响应,并在响应完成后保持对语音的接收。也就是说,相对于现有技术执行完一条控制指令后结束唤醒,语音接收模块404可以在对第二识别结果响应完成后可以继续保持对语音的接收,以便可以对下一语音进行响应。

本发明实施例在对第二识别结果进行响应后,还可以继续处于唤醒模式,保持对语音的接收,而不是结束唤醒模式;从而在需要执行多条指令的情况下,避免反复进入唤醒模式,实现了语音唤醒控制的便捷性,进而可以实现人机语音交互中多指令的识别与执行。

具体而言,语音接收模块404可以包括第一响应单元(图未示)和第一提示单元(图未示)。第一响应单元在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应;第一提示单元在所述第二识别结果中不存在所述第一控制指令时,提示用户指令异常。也就是说,第二识别结果中存在第一控制指令的话,则执行第一控制指令;在第二语音数据不正常的情况下,第二识别结果中不存在第一控制指令,则对用户进行提示,以便用户可以根据提示来选择退出唤醒模式或者重新输入语音。更具体而言,可以设置时间段,例如5秒;在第二识别结果中不存在第一控制指令且在设置的时间段之内也未识别到第一控制指令,则结束唤醒模式。

具体而言,第一响应单元可以包括指令文本确定子单元(图未示)、关键词确定子单元(图未示)和答案发送子单元(图未示)。指令文本确定子单元用于确定所述第一控制指令对应的指令文本;关键词确定子单元,用于对所述指令文本进行分词处理以及关键词提取处理,以得到关键词;答案发送子单元,用于将所述关键词与预设知识库进行匹配,确定标准问题以及对应的答案,并发送所述答案。

本发明实施例的具体实施方式可参照图1所示实施例,此处不再赘述。

图5是本发明实施例另一种语音唤醒的控制装置的结构示意图。

图5所示的语音唤醒的控制装置50可以包括第一语音识别模块501、唤醒模块502、第二语音识别模块503、语音接收模块504和操作执行模块505;操作执行模块505可以包括时间起始点确定单元5051、语音识别单元5052、第二提示单元5053和第一结束单元5054。

其中,第一语音识别模块501用于接收第一语音数据并进行语音识别,以得到第一识别结果;唤醒模块502用于在所述第一识别结果中存在唤醒词时,进入唤醒模式;第二语音识别模块503用于接收第二语音数据并进行语音识别,以得到第二识别结果。第一语音识别模块501、唤醒模块502、第二语音识别模块503和语音接收模块504的具体实施方式可参照图4所示第一语音识别模块401、唤醒模块402、第二语音识别模块403和语音接收模块404,此处不再赘述。

其中,操作执行模块505用于在接收到第三语音数据时,根据所述第三语音数据执行相应的操作。具体而言,操作执行模块505可以根据所述第三语音数据对相应的控制指令进行响应,或结束所述唤醒模式。

具体实施中,时间起始点确定单元5051用于确定执行完成所述第一控制指令的时间为时间起始点;语音识别单元5052用于在在所述时间起始点之后的第一设定时间内,如果接收到所述第三语音数据,则进行语音识别,以得到第三识别结果。那么,操作执行模块505在所述第三识别结果中存在结束词时,结束所述唤醒模式;在第三识别结果中存在控制指令时,可以执行控制指令,也可以对第三语音数据进行声纹比对,以确定是否执行控制指令,此处可参照图3所示实施例。

具体实施中,第二提示单元5053用于在所述时间起始点之后的所述第一设定时间内,如果未接收到所述第三语音数据,则发送语音提示。例如,自时间起始点开始5秒内未接收到语音信号,则发送语音提示:“请问还有什么可以帮您的吗”。第一结束单元5054用于在发送所述语音提示后的第二设定时间内,如果未接收到所述第三语音数据,则结束所述唤醒模式。例如,在发送语音提示后5秒内仍未接收到语音信号,则判断为无指令,结束本次唤醒。也就是说,本实施例通过设置第一设定时间和第二设定时间,一方面为用户提供等待时间,另一方面避免终端设备无限制的等待,导致资源浪费。

具体而言,可以采用能量双门限法判断是否接收到第三语音数据。例如,设置三个阈值:低能量阈值T_low、高能量阈值T_high以及过零率阈值Z_CR,当某帧语音信号能量大于T_low或者大于Z_CR时,则可以判定语音信号的开始,当某帧语音信号能量大于T_high时,则可以判定为正式的语音信号,如果语音信号能量大于T_high保持一段时间,则确定该语音信号为所需语音信号。

具体实施中,终端设备或智能系统可以通过结束词结束唤醒。操作执行模块505可以对第三识别结果中是否包括结束词进行判断,在所述第三识别结果中存在结束词时,结束所述唤醒模式。本领域技术人员可以理解的是,结束词可以是用户自定义设置的,也可以是终端设备系统配置的,例如,终止词可以是“不用”,“没有”,“就这样”。本发明实施例对此不做限制。

具体实施中,语音接收模块504在所述第二识别结果中存在第一控制指令时,对所述第一控制指令进行响应,可以采用以下方式对所述第一控制指令进行响应:确定所述第一控制指令对应的指令文本;对所述指令文本进行分词处理以及关键词提取处理,以得到关键词;将所述关键词与预设知识库进行匹配,确定标准问题以及对应的答案,并发送所述答案。也就是说,在本实施例的应用场景中,对所述第一控制指令进行响应可以是对第二语音数据进行回答。

需要说明的是,如果在所述第二识别结果中不存在所述第一控制指令时,提示用户指令异常;那么时间起始点确定单元5051则可以确定提示用户指令异常的时间为时间起始点。

本发明实施例在用户长时间无应答或者发送的语音中包括结束词时,结束唤醒模式,相对于现有技术执行完一条控制指令后结束唤醒,在可以执行多条指令的基础上,进一步提高了语音唤醒控制的便捷性,提高了用户体验。

本发明实施例的具体实施方式可参照图2所示实施例,此处不再赘述。

图6是本发明实施例又一种语音唤醒的控制装置的结构示意图。

图6所示的语音唤醒的控制装置60可以包括第一语音识别模块601、唤醒模块602、第二语音识别模块603、语音接收模块604、声纹提取模块605和操作执行模块606;操作执行模块606可以包括第一声纹提取单元6061第一声纹匹配单元6062、第二响应单元6063、第二声纹匹配单元6064、第三响应单元6065、第二结束单元6066、第三声纹匹配单元6067和第四响应单元6068。

其中,第一语音识别模块601用于接收第一语音数据并进行语音识别,以得到第一识别结果;唤醒模块602用于在所述第一识别结果中存在唤醒词时,进入唤醒模式;第二语音识别模块603用于接收第二语音数据并进行语音识别,以得到第二识别结果。第一语音识别模块601、唤醒模块602、第二语音识别模块603和语音接收模块604的具体实施方式可参照图4所示第一语音识别模块401、唤醒模块402、第二语音识别模块403和语音接收模块404,此处不再赘述。

其中,声纹提取模块605用于在所述第一响应单元(图未示)对所述第一控制指令进行响应的同时,对所述第二语音数据提取声纹,以得到第一声纹。

具体实施中,声纹提取模块605可以对所述第二语音数据提取声纹,得到对应于第二语音数据的第一声纹。其中,声纹可以表征语音数据的特征,不同的语音来源具备不同的声纹,故声纹可以用以判断不同的语音数据是否来源于同一人。例如,两段语音数据的声纹一致,则表明两段语音数据来源于同一个人,否则来源于不同的人。

具体实施中,第一声纹提取单元6061可以在接收到第三语音数据时,在对第三语音数据进行语音识别之前,对所述第三语音数据提取声纹,作为第二声纹。其中,第二声纹可以表征第三语音数据的来源的特征。也就是说,在接收到第三语音数据后,首先对第三语音数据的来源进行验证,在验证安全后,再去执行第三语音数据中的控制指令。具体而言,可以采用Gauss混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)提取声纹。更具体地,可以采用GMM_UBM来训练声纹模型,并用于声纹提取。

具体实施中,第一声纹匹配单元6062用于将所述第一声纹和所述第二声纹进行匹配,以得到第一相似度得分;可以通过将所述第一声纹和所述第二声纹进行匹配,得到第一相似度得分。也就是说,通过第一声纹和第二声纹的相似度得分来表示第一声纹和第二声纹是否相似,以及是否来源于同一人。具体而言,相似度得分可以是两段语音对应声纹的余弦(cosine)距离,那么第一相似度得分为第一声纹和所述第二声纹的余弦距离。

具体实施中,第二响应单元6063用于在所述第一相似度得分大于第一阈值,且所述第三识别结果中存在第二控制指令时,响应所述第二控制指令。在所述第一相似度得分大于或大于等于第一阈值,例如,第一相似度得分大于0.6;表示第一声纹和第二声纹相似,来源于同一人,那么如果第三语音数据的所述第三识别结果中存在第二控制指令,则响应所述第二控制指令。相应地,第二响应单元6063在所述第一相似度得分小于第二阈值或小于等于时,例如,第一相似度得分小于0.4;表示第一声纹和第二声纹差异大,不是来源于同一人,为了保证安全,则结束所述唤醒模式。其中,所述第二阈值可以小于第一阈值,也可以等于第一阈值。

具体实施中,如果第二阈值小于第一阈值,第二声纹匹配单元6064用于在所述第一相似度得分大于所述第二阈值且小于所述第一阈值时,将所述第二声纹与预设声纹库进行匹配,以得到第二相似度得分。也就是说,在无法判定第二语音数据和第三语音数据是否来自于同一人时,例如,第一相似度得分大于0.4且小于0.6,可以将第二声纹与预设声纹库进行匹配,得到第二相似度得分。具体而言,预设声纹库可以是预先配置的,可以通过录取终端设备的常用人员的多条语音,提取得到对应声纹,并将其存入预设声纹库。具体地,第二相似度得分可以是第一声纹与预设声纹库中多条声纹的最大余弦距离。

具体实施中,第三响应单元6065用于在所述第二相似度得分大于第一阈值时,在所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令。如果所述第二相似度得分大于第一阈值时,例如,第二相似度得分大于0.6;表示第一声纹与预设声纹库中的声纹相似,第一声纹的来源为终端设备的常用人员,那么如果第三语音数据的所述第三识别结果中存在第二控制指令,则响应所述第二控制指令。相应地,结束单元6066在所述第二相似度得分小于第二阈值时,例如,第二相似度得分小于0.4;表示第一声纹不是预设声纹库中的任一声纹,第一声纹的来源不是终端设备的常用人员,为了保证安全,则结束所述唤醒模式。

本发明实施例通过将第三语音数据和第二语音数据的声纹进行匹配,在匹配得到的第一相似度得分表明第三语音数据和第二语音数据的来源为同一人时,可以执行第三识别结果中的第二控制指令;在第三语音数据和第二语音数据的来源不是同一人时,结束唤醒模式,可以提高语音唤醒控制的安全性,避免非法人员的非法语音控制。

优选地,还可以将第二声纹与多条语音数据进行比对,以提高声纹比对的准确性。具体实施中,声纹提取模块605可以包括第二声纹提取单元(图未示)和第三声纹提取单元(图未示),第二声纹提取单元用于在接收第一语音数据并进行语音识别的同时,对所述第一语音数据进行声纹提取以得到第一语音数据的声纹;第三声纹提取单元用于如果在接收所述第三语音数据之前,以及接收所述第二语音数据之后,存在至少一条中间语音数据,则接收所述至少一条中间语音数据的同时,对所述至少一条中间语音数据提取声纹。

那么,第三声纹匹配单元6067用于在所述第三语音数据与第二语音数据之间存在至少一条中间语音数据时,将所述第二声纹与所述第一声纹、所述至少一条中间语音数据的声纹和所述第一语音数据的声纹进行匹配,以得到第三相似度得分;第四响应单元6068用于在所述第三相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

可选地,操作执行模块606还可以包括第四声纹匹配单元(图未示)和第五响应单元(图未示)。第四声纹匹配单元用于在所述第三语音数据和所述第二语音数据之间没有接收其他语音数据,则将所述第二声纹与所述第一声纹和所述第一语音数据的声纹进行匹配,以得到第四相似度得分第五响应单元,用于在所述第四相似度得分大于所述第一阈值,且所述第三识别结果中存在所述第二控制指令时,响应所述第二控制指令,否则结束所述唤醒模式。

也就是说,在本次的唤醒模式中,可以将所述第三语音数据与第三语音数据之前出现过的多条语音数据的至少一部分进行比对。具体地,可以是与所述第一声纹、第三语音数据与第二语音数据之间的所述至少一条中间语音数据以及所述第一语音数据的声纹进行比对;也可以是与所述第一声纹以及第三语音数据与第二语音数据之间的所述至少一条中间语音数据进行比对。

具体而言,第三声纹匹配单元6067可以包括匹配子单元(图未示)和计算子单元(图未示)。匹配子单元可以将所述第二声纹与所述第一声纹、所述至少一条中间语音数据的声纹和所述第一语音数据的声纹分别进行两两匹配,得到多个相似度得分;计算子单元可以将所述多个相似度得分与对应的设定权重的乘积相加,以作为所述第三相似度得分,其中,所述第二声纹与所述第一语音数据的声纹对应的设定权重最大。也即以第二声纹与第一语音数据的声纹的相似度得分为主,同时考虑第二声纹与第二声纹之前其他语音数据的声纹的相似度得分,计算得到第二声纹比对的最终得分。例如,第一语音数据的声纹、第一声纹、第二声纹以及所述至少一条中间语音数据的声纹分别表示为vid1,vid2,vid3……vidn;两两匹配后多个相似度得分分别为Score21,Score31,Score32……Scoren1等;故第三相似度得分其中,weight∈[0,1]。

本发明实施例的具体实施方式可参照前述相应实施例,此处不再赘述。

本发明实施例通过将第三语音数据与多个语音数据进行对比,可以进一步提高对第三语音数据的来源判断的准确性,从而进一步提高语音唤醒控制的安全性。

需要说明的是,图6所示实施例可以结合图5所示实施例进行实施,例如,语音识别单元5052在时间起始点之后的第一设定时间内如果接收到第三语音数据,操作执行模块606则通过声纹对比的方式判断第三语音数据的来源,进而确定执行指令或退出唤醒模式;也可以是在发送语音提示后的第二设定时间内如果接收到第三语音数据,操作执行模块606通过声纹对比的方式判断第三语音数据的来源,进而确定执行指令或退出唤醒模式。应当理解的是,本领域技术人员在此基础上可作出任意可实施的变化例,本发明实施例对此不做限制。

可以理解的是,第二响应单元6063、第三响应单元6065和第四响应单元6068也可以包括前述的指令文本确定子单元、关键词确定子单元和答案发送子单元;指令文本确定子单元确定的是第二控制指令对应的指令文本,以用以执行第二控制指令。

本发明实施例还公开了一种终端,所述终端可以包括图4所示的语音唤醒的控制装置40或图5所示的语音唤醒的控制装置50或图6所示的语音唤醒的控制装置60。所述终端可以进入或退出唤醒模式。所述终端可以是智能手机、平板电脑、计算机等设备。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1