一种实现语音识别功能的方法
【专利摘要】一种实现语音识别功能的方法,其特征在于:有一个声音采集模块,能够支持声音录入功能,将声音采集为数字数据,即配备麦克风或者可以提供相同功能的其他设备;有语音识别模块将声音数据转化为文本;有语义解析模块将文本理解为指令或者指令集;声控程序,可以按照各自的意愿制定出非常人性化的交互方式和产品体验;支持至少一种唤醒录音方式,可以通过唤醒词唤醒、硬件按钮唤醒或者软件按钮唤醒;最终实现真正的语音功能。本发明的优点:可以控制导航机播报内容及播报时机、录音开始停止状态,及交互次数和发声,产品体验完全依赖于开发者的想法和设计,与声音控制程序没有任何耦合;给开发者带来了全新的体验。
【专利说明】一种实现语音识别功能的方法
【技术领域】
[0001]本发明涉及导航领域,特别涉及了一种实现语音识别功能的方法。
【背景技术】
[0002]随着汽车电子行业的兴起,汽车导航系统开始走入人们的视线。汽车导航系统,是在嵌入式硬件、全球GPS定位、地理信息数据的基础上,为驾驶者提供电子地图、车辆定位、实时语音引导、实时画面引导等服务的综合体。
[0003]提到科技的进步,则不能不提及产品的人工智能化,语言和声音作为人与人之间最常用和最便利的方式,如果能应用到人机交互中,那将会大大提高用户体验,效率及安全性。语音识别经过几十年的坎坷发展,到如今已经初步达到可应用的水平,从降噪到识别到语义解析都达到一个空前的高水平。
[0004]但是在应用界还并没有非常的普及,出现的产品也还远远没有达到完全“解放双手”的目的,从开发上讲,效率和成本都是非常的高,而且目前很多企业应用的方案可维护和可扩展性很差,一旦有需求的变更,则会对开发者造成非常大的困扰;从产品上讲,出现的一些语音识别的平台,将会造成语音产品同质化严重的情况,不利于该行业的发展。现在的语音产品开发方案存在着很多问题,诸如效率低,灵活性差,产品体验不够好,产品同质化严重等问题,很多企业为了想做语音识别产品而没有好的方案,最后仅只投入了根据识别文字匹配字符串的功能。
【发明内容】
[0005]本发明的目的是为了在导航终端实现语音产品,特提供了一种实现语音识别功能的方法。
[0006]本发明提供了一种实现语音识别功能的方法,其特征在于:所述的实现语音识别功能的方法,具备以下特征:
[0007]有一个声音采集模块,能够支持声音录入功能,将声音采集为数字数据,即配备麦克风或者可以提供相同功能的其他设备;
[0008]有语音识别模块将声音数据转化为文本;
[0009]有语义解析模块将文本理解为指令或者指令集;
[0010]声控程序,通过定义通信接口的方式将应用程序和语音控制程序本来存在的复杂度降低而不相互耦合,双方只是相互约定好原则,就可以按照各自的意愿制定出非常人性化的交互方式和产品体验;
[0011]有至少一款的应用程序,与声控程序进行交互,实现语音识别功能;
[0012]支持至少一种唤醒录音方式,可以通过唤醒词唤醒、硬件按钮唤醒或者软件按钮唤醒;
[0013]用户功能通过语音唤醒词唤醒或者硬件/软件按钮触发开始录音,录音状态下,用户可以输入自己的指令,语音处理模块将会经过声音采集,声音识别,语义解析,命令下发,命令执行,命令执行反馈,反馈意见处理等几个过程,最终实现真正的语音功能,其中该专利更强调的是命令执行反馈和反馈意见处理的部分。
[0014]所述的实现语音识别功能的方法,通过语音输入,声控程序负责识别和解析,并将指令发送给应用程序,不用关心具体的处理方式,将声音控制程序真正作成一个与业务无关的平台;应用程序通过与声控程序的接口,可以控制导航机播报内容及播报时机、录音开始停止状态,及交互次数和发声,产品体验完全依赖于开发者的想法和设计,与声音控制程序没有任何耦合;除了语音播报,声控程序能够显示和记录下人机交互的对话过程,方便查看。
[0015]所述的实现语音识别功能的方法,实现的硬件整体框架分为三个部分:
[0016]终端设备:负责声音采集,音频数据与服务器的传输,解析结果获取和处理;云端服务器:负责语音识别和语义解析,并从网络获取相应的信息,为终端设备提供数据;车联网服务器:负责整合网络资源,为云端服务器提供信息;
[0017]终端设备实现原理和流程:
[0018]用户对着声音采集设备说出指令;
[0019]声控程序通过操作系统API获取音频数据,将音频数据发送到云端服务器上,云端服务器进行识别,解析,最终将解析结果发送给声控程序;
[0020]声控程序根据解析结果,识别是哪一类的指令,并发送给指定的应用程序;
[0021]应用程序根据自己的优先级,进行响应,如果能处理则进行自处理,如果不能处理,则返回给声控程序不能处理的通知,由声控程序通知下一个应用程序;
[0022]以此类推,直到所有应用都经过了处理为止;
[0023]云端服务器实现原理和流程:
[0024]云端服务器在此方案中处于可选的地位,如果不选,则此逻辑需要在声控程序里实现;
[0025]服务器主要解决识别和解析的作用,由服务器选择使用哪家的识别和解析引擎,并且也可以自身也做解析,实现个性化;
[0026]服务器需要做好良好的封装,以便在替换语音识别和解析引擎时,对终端没有影响;
[0027]如果是问答性的指令,可以从车联网服务器上获取相关信息,然后返回给终端设备;
[0028]车联网服务器:提供网络信息资源。
[0029]实现语音识别功能的方法,具体实现的步骤如下:
[0030]系统启动,默认启动声音控制程序,将初始化语音识别和语义解析模块初始化;
[0031]初始化成功后,用户可以通过唤醒词唤醒或者硬件/软件按钮触发开始录音;
[0032]导航仪的声音控制程序收到语音指令后,进行识别和解析,将解析结果发送给优先级最闻的应用程序;
[0033]应用程序接收到解析结果之后,进行分析和处理,将处理结果发送给声音控制程序;
[0034]如果应用程序反馈未处理,声音控制程序再将解析结果发送给优先级次之的应用程序,依次类推;
[0035]所有应用都没有能够处理的命令,声音控制程序给出相应的反馈信息;
[0036]以上七个接口既可以将声音控制程序和应用程序的独立开来,相互开发互不影响,且业务逻辑完全放到了应用程序中;
[0037]启动完成握手协议,应用程序启动后,需要通知到声音控制程序,方便其协调;声音控制程序向应用程序发送解析结果指令,让应用程序进行处理;应用程序触发声音控制程序进行播报,并给出播报内容,这是为了使语音产品的发声角色保持统一;声音控制程序播报结束给到应用程序的通知,让应用程序进行下一步的处理;应用程序触发声音控制程序进行录音,这是核心接口,触发自动的人机交互功能;应用程序通知声音控制程序结束对话,声音控制程序回到待机状态;应用程序通知声音控制程序发过来的某条指令是否被处理:如果被处理,则声音控制程序不会将其发送给其他应用;如果未被处理,则声音控制程序需要继续发送给其他应用;另外,还有一个辅助卖萌接口 ;声音控制程序自发处理,若是不能被识别的指令,则可以给出卖萌或者其他反馈。
[0038]本发明的优点:
[0039]本发明所述的实现语音识别功能的方法,效率和可扩展性都非常强可以解决开发效率低,产品单一化同质化严重的问题;通过语音输入,声控程序负责识别和解析,并将指令发送给应用程序,不用关心具体的处理方式,将声音控制程序真正作成一个与业务无关的平台;应用程序通过与声控程序的接口,可以控制导航机播报内容及播报时机、录音开始停止状态,及交互次数和发声,产品体验完全依赖于开发者的想法和设计,与声音控制程序没有任何耦合;除了语音播报,声控程序能够显示和记录下人机交互的对话过程,方便查看;给开发者带来了全新的体验。语音识别产品势在必行,目前作为车载导航,一个安全性需要非常高的领域,支持语音识别更是刚需。
【专利附图】
【附图说明】
[0040]下面结合附图及实施方式对本发明作进一步详细的说明:
[0041]图1为实现语音识别功能的方法框架结构示意图;
[0042]图2为终端设备内部的框架原理图;
[0043]图3为云端服务器内部的框架原理图;
[0044]图4为车联网服务器内部的框架原理图。
【具体实施方式】
[0045]实施例1
[0046]本发明提供了一种实现语音识别功能的方法,其特征在于:所述的实现语音识别功能的方法,具备以下特征:
[0047]有一个声音采集模块,能够支持声音录入功能,将声音采集为数字数据,即配备麦克风或者可以提供相同功能的其他设备;
[0048]有语音识别模块将声音数据转化为文本;
[0049]有语义解析模块将文本理解为指令或者指令集
[0050]有一款声控程序,负责a)、b)、c)的实现,并通过定义通信接口的方式将应用程序和语音控制程序本来存在的复杂度降低而不相互耦合,双方只是相互约定好原则,就可以按照各自的意愿制定出非常人性化的交互方式和产品体验;
[0051]有至少一款的应用程序,与d)程序进行交互,实现语音识别功能;
[0052]支持至少一种唤醒录音方式,可以通过唤醒词唤醒、硬件按钮唤醒或者软件按钮唤醒;
[0053]用户功能通过语音唤醒词唤醒或者硬件/软件按钮触发开始录音,录音状态下,用户可以输入自己的指令,语音处理模块将会经过声音采集,声音识别,语义解析,命令下发,命令执行,命令执行反馈,反馈意见处理等几个过程,最终实现真正的语音功能,其中该专利更强调的是命令执行反馈和反馈意见处理的部分。
[0054]所述的实现语音识别功能的方法,通过语音输入,声控程序负责识别和解析,并将指令发送给应用程序,不用关心具体的处理方式,将声音控制程序真正作成一个与业务无关的平台;应用程序通过与声控程序的接口,可以控制导航机播报内容及播报时机、录音开始停止状态,及交互次数和发声,产品体验完全依赖于开发者的想法和设计,与声音控制程序没有任何耦合;除了语音播报,声控程序能够显示和记录下人机交互的对话过程,方便查看。
[0055]所述的实现语音识别功能的方法,实现的硬件整体框架分为三个部分:
[0056]终端设备:负责声音采集,音频数据与服务器的传输,解析结果获取和处理;云端服务器:负责语音识别和语义解析,并从网络获取相应的信息,为终端设备提供数据;车联网服务器:负责整合网络资源,为云端服务器提供信息;
[0057]终端设备实现原理和流程:
[0058]用户对着声音采集设备说出指令;
[0059]声控程序通过操作系统API获取音频数据,将音频数据发送到云端服务器上,云端服务器进行识别,解析,最终将解析结果发送给声控程序;
[0060]声控程序根据解析结果,识别是哪一类的指令,并发送给指定的应用程序;
[0061]应用程序根据自己的优先级,进行响应,如果能处理则进行自处理,如果不能处理,则返回给声控程序不能处理的通知,由声控程序通知下一个应用程序;
[0062]以此类推,直到所有应用都经过了处理为止;
[0063]云端服务器实现原理和流程:
[0064]云端服务器在此方案中处于可选的地位,如果不选,则此逻辑需要在声控程序里实现;
[0065]服务器主要解决识别和解析的作用,由服务器选择使用哪家的识别和解析引擎,并且也可以自身也做解析,实现个性化;
[0066]服务器需要做好良好的封装,以便在替换语音识别和解析引擎时,对终端没有影响;
[0067]如果是问答性的指令,可以从车联网服务器上获取相关信息,然后返回给终端设备;
[0068]车联网服务器:提供网络信息资源。
[0069]实现语音识别功能的方法,具体实现的步骤如下:
[0070]系统启动,默认启动声音控制程序,将初始化语音识别和语义解析模块初始化;
[0071]初始化成功后,用户可以通过唤醒词唤醒或者硬件/软件按钮触发开始录音;
[0072]导航仪的声音控制程序收到语音指令后,进行识别和解析,将解析结果发送给优先级最闻的应用程序;
[0073]应用程序接收到解析结果之后,进行分析和处理,将处理结果发送给声音控制程序;
[0074]如果应用程序反馈未处理,声音控制程序再将解析结果发送给优先级次之的应用程序,依次类推;
[0075]所有应用都没有能够处理的命令,声音控制程序给出相应的反馈信息;
[0076]以上七个接口既可以将声音控制程序和应用程序的独立开来,相互开发互不影响,且业务逻辑完全放到了应用程序中;
[0077]启动完成握手协议,应用程序启动后,需要通知到声音控制程序,方便其协调;声音控制程序向应用程序发送解析结果指令,让应用程序进行处理;应用程序触发声音控制程序进行播报,并给出播报内容,这是为了使语音产品的发声角色保持统一;声音控制程序播报结束给到应用程序的通知,让应用程序进行下一步的处理;应用程序触发声音控制程序进行录音,这是核心接口,触发自动的人机交互功能;应用程序通知声音控制程序结束对话,声音控制程序回到待机状态;应用程序通知声音控制程序发过来的某条指令是否被处理:如果被处理,则声音控制程序不会将其发送给其他应用;如果未被处理,则声音控制程序需要继续发送给其他应用;另外,还有一个辅助卖萌接口 ;声音控制程序自发处理,若是不能被识别的指令,则可以给出卖萌或者其他反馈。
【权利要求】
1.一种实现语音识别功能的方法,其特征在于:所述的实现语音识别功能的方法,具备以下特征: 有一个声音采集模块,能够支持声音录入功能,将声音采集为数字数据,即配备麦克风或者可以提供相同功能的其他设备; 有语音识别模块将声音数据转化为文本; 有语义解析模块将文本理解为指令或者指令集 声控程序,通过定义通信接口的方式将应用程序和语音控制程序本来存在的复杂度降低而不相互耦合,双方只是相互约定好原则,就可以按照各自的意愿制定出非常人性化的交互方式和产品体验; 有至少一款的应用程序,与声控程序进行交互,实现语音识别功能; 支持至少一种唤醒录音方式,可以通过唤醒词唤醒、硬件按钮唤醒或者软件按钮唤醒; 用户功能通过语音唤醒词唤醒或者硬件/软件按钮触发开始录音,录音状态下,用户可以输入自己的指令,语音处理模块将会经过声音采集,声音识别,语义解析,命令下发,命令执行,命令执行反馈,反馈意见处理等几个过程,最终实现真正的语音功能,更强调的是命令执行反馈和反馈意见处理的部分。
2.按照权利要求1所述的实现语音识别功能的方法,其特征在于:所述的实现语音识别功能的方法,通过语音输入,声控程序负责识别和解析,并将指令发送给应用程序,不用关心具体的处理方式,将声音控制程序真正作成一个与业务无关的平台;应用程序通过与声控程序的接口,可以控制导航机播报内容及播报时机、录音开始停止状态,及交互次数和发声,产品体验完全依赖于开发者的想法和设计,与声音控制程序没有任何耦合;除了语音播报,声控程序能够显示和记录下人机交互的对话过程,方便查看。
3.按照权利要求1所述的实现语音识别功能的方法,其特征在于:所述的实现语音识别功能的方法,实现的硬件整体框架分为三个部分: 终端设备:负责声音采集,音频数据与服务器的传输,解析结果获取和处理;云端服务器:负责语音识别和语义解析,并从网络获取相应的信息,为终端设备提供数据;车联网服务器:负责整合网络资源,为云端服务器提供信息; 终端设备实现原理和流程: 用户对着声音采集设备说出指令; 声控程序通过操作系统API获取音频数据,将音频数据发送到云端服务器上,云端服务器进行识别,解析,最终将解析结果发送给声控程序; 声控程序根据解析结果,识别是哪一类的指令,并发送给指定的应用程序; 应用程序根据自己的优先级,进行响应,如果能处理则进行自处理,如果不能处理,则返回给声控程序不能处理的通知,由声控程序通知下一个应用程序; 以此类推,直到所有应用都经过了处理为止; 云端服务器实现原理和流程: 云端服务器在此方案中处于可选的地位,如果不选,则此逻辑需要在声控程序里实现; 服务器主要解决识别和解析的作用,由服务器选择使用哪家的识别和解析引擎,并且也可以自身也做解析,实现个性化; 服务器需要做好良好的封装,以便在替换语音识别和解析引擎时,对终端没有影响; 如果是问答性的指令,可以从车联网服务器上获取相关信息,然后返回给终端设备; 车联网服务器:提供网络信息资源。
4.按照权利要求1所述的实现语音识别功能的方法,其特征在于: 实现语音识别功能的方法,具体实现的步骤如下: 系统启动,默认启动声音控制程序,将初始化语音识别和语义解析模块初始化; 初始化成功后,用户可以通过唤醒词唤醒或者硬件/软件按钮触发开始录音; 导航仪的声音控制程序收到语音指令后,进行识别和解析,将解析结果发送给优先级最闻的应用程序; 应用程序接收到解析结果之后,进行分析和处理,将处理结果发送给声音控制程序;如果应用程序反馈未处理,声音控制程序再将解析结果发送给优先级次之的应用程序,依次类推; 所有应用都没有能够处理的命令,声音控制程序给出相应的反馈信息; 以上七个点既可以将声音控制程序和应用程序的独立开来,相互开发互不影响,且业务逻辑完全放到了应用程序中; 启动完成握手协议,应用程序启动后,需要通知到声音控制程序,方便其协调;声音控制程序向应用程序发送解析结果指令,让应用程序进行处理;应用程序触发声音控制程序进行播报,并给出播报内容,这是为了使语音产品的发声角色保持统一;声音控制程序播报结束给到应用程序的通知,让应用程序进行下一步的处理;应用程序触发声音控制程序进行录音,这是核心接口,触发自动的人机交互功能;应用程序通知声音控制程序结束对话,声音控制程序回到待机状态;应用程序通知声音控制程序发过来的某条指令是否被处理:如果被处理,则声音控制程序不会将其发送给其他应用;如果未被处理,则声音控制程序需要继续发送给其他应用;另外,还有一个辅助卖萌接口 ;声音控制程序自发处理,若是不能被识别的指令,则可以给出卖萌或者其他反馈。
【文档编号】H04L29/08GK104318924SQ201410636777
【公开日】2015年1月28日 申请日期:2014年11月12日 优先权日:2014年11月12日
【发明者】韩庆恺, 解威, 赵银祥, 战杨 申请人:沈阳美行科技有限公司