一种语音输入方法和系统的利记博彩app
【专利摘要】本发明提供了一种语音输入方法和系统,所述方法包括采集语音数据,并将所述语音数据发送至服务器;接收所述服务器识别出的所述语音数据对应的第一识别评分最高的前M个候选识别文本及其识别信息,其中,所述识别信息包括第一识别评分;采用当前用户的个性化文本数据计算所述前M个候选识别文本的第二识别评分;采用所述第一识别评分和第二识别评分计算所述前M个候选识别文本的第三识别评分;计算第三识别评分最高的前N个候选识别文本的置信度;按照所述置信度展示所述前N个候选识别文本。多候选结果的展示,可以方便用户选择,提高识别成功的准确率,采用用户的个性化数据进行重新排序,可以尽量保证符合用户习惯使得识别精度高提高。
【专利说明】一种语音输入方法和系统
【技术领域】
[0001]本发明涉及输入法【技术领域】,特别是涉及一种语音输入方法,以及,一种语音输入法系统。
【背景技术】
[0002]目前,移动互联网的快速发展带动了移动智能设备如手机、平板电脑、穿戴式设备等的广泛普及,而作为移动设备上人机交互最方便自然的方式之一,语音输入法正逐渐被广大用户所接受。
[0003]尽管随着语音识别技术的发展,语音输入法性能取得了较大进步,但是受模型精度、噪声以及口音等因素的影响,反馈至客户端的结果有可能并非用户真实的语音输入。例如,用户采用语音输入“国庆节后是什么节”,识别评分最高的结果可以为“国庆前后是什么节”。
[0004]其次,目前使用的语言模型为通用语言模型,使用前基于多来源以及多用户的大量文本进行学习得到,并不适合用户个性化需求。例如,用户经常使用“泉州”,而当用户采用语音输入“我想去泉州”,由于大多数用户对“全州”的使用率可能高于“泉州”,则基于通用语言模型其识别结果可能为“我想去全州”,多次输入后结果未改变,均不符合用户期望。
[0005]而用户使用键盘输入会存在一定的输入误差(如错别字等),因此构建的用户模型精度会受到一定影响。例如,用户在键盘输入时经常会输入“你赶进去吃饭吧”,其中“赶进”是错误输入,应该为“赶紧”,如果基于上述类型的文本构建用户模型,会影响模型的精度。
【发明内容】
[0006]本发明提供了一种语音输入方法,以解决语音识别准确率低的问题。
[0007]相应的,本发明还提供了一种语音输入系统,用以保证上述方法的实现及应用。
[0008]为了解决上述问题,本发明公开了一种语音输入方法,包括:
[0009]采集语音数据,并将所述语音数据发送至服务器;
[0010]接收所述服务器识别出的所述语音数据对应的第一识别评分最高的前M个候选识别文本及其识别信息,其中,所述识别信息包括第一识别评分;
[0011]采用当前用户的个性化文本数据计算所述前M个候选识别文本的第二识别评分;
[0012]采用所述第一识别评分和第二识别评分计算所述前M个候选识别文本的第三识别评分;
[0013]计算第三识别评分最高的前N个候选识别文本的置信度;
[0014]按照所述置信度展示所述前N个候选识别文本。
[0015]优选地,所述个性化文本数据包括以下的一种或多种:
[0016]输入行为文本数据、自定义词库、设备文本数据、置信度高于预置阈值的语音识别文本。
[0017]优选地,所述候选识别文本包括多个语音候选词,所述识别信息还包括所述多个语音候选词的出现概率;讲怎么算第二识别评分的
[0018]所述采用当前用户的个性化文本数据计算所述前M个候选识别文本的第二识别评分的步骤包括:
[0019]对所述前M个候选识别文本进行分词,获得第一分词;
[0020]分别将所述第一分词映射为预置的第二分词,其中,所述第二分词为当前用户的个性化文本数据的分词,且所述第二分词具有词频数;
[0021]分别采用所述第二分词查找所述第一分词的出现概率;所述出现概率为第一词频数与第二词频数的比值,其中,所述第一词频数为当前第一分词对应的第二分词,出现在当前第一分词前面一个或多个第一分词对应的第二分词后面的词频数,所述第二词频数为所述前面一个或多个第一分词对应的第二分词的总词频数;
[0022]采用所述第一分词的出现概率进行乘法运算以获得所述候选识别文本的连接概率;
[0023]分别采用所述多个语音候选词的出现概率和所述候选识别文本的连接概率计算所述候选识别文本的第二识别评分。
[0024]优选地,采用以下公式计算所述候选识别文本的第二识别评分:
[0025]
【权利要求】
1.一种语音输入方法,其特征在于,包括: 采集语音数据,并将所述语音数据发送至服务器; 接收所述服务器识别出的所述语音数据对应的第一识别评分最高的前M个候选识别文本及其识别信息,其中,所述识别信息包括第一识别评分; 采用当前用户的个性化文本数据计算所述前M个候选识别文本的第二识别评分; 采用所述第一识别评分和第二识别评分计算所述前M个候选识别文本的第三识别评分; 计算第三识别评分最高的前N个候选识别文本的置信度; 按照所述置信度展示所述前N个候选识别文本。
2.根据权利要求1所述的方法,其特征在于,所述个性化文本数据包括以下的一种或多种: 输入行为文本数据、自定义词库、设备文本数据、置信度高于预置阈值的语音识别文本。
3.根据权利要求1或2所述的方法,其特征在于,所述候选识别文本包括多个语音候选词,所述识别信息还包括所述多个语音候选词的出现概率; 所述采用当前用户的个性化文本数据计算所述前M个候选识别文本的第二识别评分的步骤包括: 对所述前M个候选识别文本进行分词,获得第一分词; 分别将所述第一分词映射为预置的第二分词,其中,所述第二分词为当前用户的个性化文本数据的分词,且所述第二分词具有词频数; 分别采用所述第二分词查找所述第一分词的出现概率;所述出现概率为第一词频数与第二词频数的比值,其中,所述第一词频数为当前第一分词对应的第二分词,出现在当前第一分词前面一个或多个第一分词对应的第二分词后面的词频数,所述第二词频数为所述前面一个或多个第一分词对应的第二分词的总词频数; 采用所述第一分词的出现概率进行乘法运算以获得所述候选识别文本的连接概率;分别采用所述多个语音候选词的出现概率和所述候选识别文本的连接概率计算所述候选识别文本的第二识别评分。
4.根据权利要求3所述的方法,其特征在于,采用以下公式计算所述候选识别文本的第二识别评分:
5.根据权利要求1所述的方法,其特征在于,采用以下公式计算第三识别评分:
MS (i) = a ^si+ β 其中,MS(i)为第i个候选识别文本的第三识别评分,Si为第i个候选识别文本的第一识别评分,Ui为第i个候选识别文本的第二识别评分,α和β为非负数。
6.根据权利要求1所述的方法,其特征在于,所述置信度为当前候选识别文本的第三识别评分与所述前N个候选识别文本的第三识别评分的和的比值。
7.—种语音输入方法,其特征在于,包括: 接收客户端发送的语音数据; 将所述语音数据识别出多个候选识别文本及其识别信息;所述识别信息包括第一识别评分; 采用当前用户的个性化文本数据计算第一识别评分最高的前M个候选识别文本的第二识别评分; 采用所述第一识别 评分和第二识别评分计算所述前M个候选识别文本的第三识别评分; 计算第三识别评分最高的前N个候选识别文本的置信度; 将所述前N个候选识别文本及其置信度发送至客户端;所述客户端用于按照所述置信度展示所述前N个候选识别文本。
8.—种语音输入方法,其特征在于,包括: 采集语音数据,并将所述语音数据发送至服务器; 接收所述服务器返回的每个语音子数据中第一识别评分最高的前M个候选识别文本及其识别评分,其中,所述语音子数据为所述语音数据被所述服务器切分成的多个语音子数据,所述识别评分包括第一识别评分;分别采用当前用户的个性化文本数据计算每个语音子数据对应的前M个候选识别文本的第二识别评分; 分别采用所述第一识别评分和第二识别评分计算每个语音子数据对应的前M个候选识别文本的第三识别评分; 分别计算每个语音子数据的第三识别评分最高的前N个候选识别文本的置信度; 分别展示每个语音子数据中置信度最高的候选识别文本。
9.根据权利要求8所述的方法,其特征在于,所述个性化文本数据包括以下的一种或多种: 输入行为文本数据、自定义词库、设备文本数据、置信度高于预置阈值的语音识别文本。
10.根据权利要求8或9所述的方法,其特征在于,所述候选识别文本包括多个语音候选词,所述识别信息还包括所述多个语音候选词的出现概率; 所述分别采用当前用户的个性化文本数据计算每个语音子数据对应的前M个候选识别文本的第二识别评分的步骤包括: 分别对每个语音子数据对应的前M个候选识别文本进行分词,获得第一分词; 分别将所述第一分词映射为预置的第二分词,其中,所述第二分词为当前用户的个性化文本数据的分词,且所述第二分词具有词频数; 分别采用所述第二分词查找所述第一分词的出现概率;所述出现概率为第一词频数与第二词频数的比值,其中,所述第一词频数为当前第一分词对应的第二分词出现在当前第一分词前面一个或多个第一分词对应的第二分词后面的词频数,所述第二词频数为所述前面一个或多个第一分词对应的第二分词的总词频数; 分别采用所述第一分词的出现概率进行乘法运算以获得所述候选识别文本的连接概率; 采用所述多个语音候选词的出现概率和所述候选识别文本的连接概率计算所述候选识别文本的第二识别评分。
11.根据权利要求10所述的方法,其特征在于,采用以下公式计算所述候选识别文本的第二识别评分: logρ{θ? |^) + λ*logP(^)+WP 其中,扒斤?^7)为所述多个语音候选词的出现概率,为所述候选识别文本的连接概率,λ为权重,WP为词插入惩罚参数。
12.根据权利要求8所述的方法,其特征在于,采用以下公式计算第三识别评分:
MS (i) = a ^si+ β 其中,MS(i)为第i个候选识别文本的第三识别评分,Si为第i个候选识别文本的第一识别评分,Ui为第i个候选识别文本的第二识别评分,α和β为非负数。
13.根据权利要求8所述的方法,其特征在于,所述置信度为当前候选识别文本的第三识别评分与所述前N个候选识别文本的第三识别评分的和的比值。
14.根据权利要求8所述的方法,其特征在于,还包括: 当所述置信度最高的候选识别文本被触发时,展示其他候选识别文本;所述其他文本为所述前N个候选识别文本中除置信度最高的候选识别文本外的候选识别文本。
15.—种语音输入方法,其特征在于,包括:` 接收客户端发送的语音数据; 将所述语音数据切分为多个语音子数据; 分别识别出每个语音子数据的多个候选识别文本及其识别信息;所述识别信息包括第一识别评分; 分别采用当前用户的个性化文本数据计算每个语音子数据对应的第一识别评分最高的前M个候选识别文本的第二识别评分; 分别采用所述第一识别评分和第二识别评分计算每个语音子数据对应的前M个候选识别文本的第三识别评分; 分别计算每个语音子数据的第三识别评分最高的前N个候选识别文本的置信度; 将每个语音子数据的第三识别评分最高的前N个候选识别文本及其置信度发送至客户端;所述客户端用于分别展示每个语音子数据中置信度最高的候选识别文本。
16.—种语音输入系统,其特征在于,包括: 第一语音数据采集模块,用于采集语音数据; 第一语音数据发送模块,用于将所述语音数据发送至服务器; 第一接收模块,用于接收所述服务器识别出的所述语音数据对应的第一识别评分最高的前M个候选识别文本及其识别信息,其中,所述识别信息包括第一识别评分; 第一评分计算模块,用于采用当前用户的个性化文本数据计算所述前M个候选识别文本的第二识别评分; 第二评分计算模块,用于采用所述第一识别评分和第二识别评分计算所述前M个候选识别文本的第三识别评分; 第一置信度计算模块,用于计算第三识别评分最高的前N个候选识别文本的置信度; 第一展示模块,用于按照所述置信度展示所述前N个候选识别文本。
17.根据权利要求16所述的系统,其特征在于,所述个性化文本数据包括以下的一种或多种: 输入行为文本数据、自定义词库、设备文本数据、置信度高于预置阈值的语音识别文本。
18.根据权利要求16或17所述的系统,其特征在于,所述候选识别文本包括多个语音候选词,所述识别评分还包括所述多个语音候选词的出现概率; 所述第一评分计算模块包括: 第一分词子模块,用于对所述前M个候选识别文本进行分词,获得第一分词; 第一映射子模块,用于分别将所述第一分词映射为预置的第二分词,其中,所述第二分词为当前用户的个性化文本数据的分词,且所述第二分词具有词频数; 第一查找子模块,用于分别采用所述第二分词查找所述第一分词的出现概率;所述出现概率为第一词频数与第二词频数的比值,其中,所述第一词频数为当前第一分词对应的第二分词,出现在当前第一分词前面一个或多个第一分词对应的第二分词后面的词频数,所述第二词频数为所述前面一个或多个第一分词对应的第二分词的总词频数; 第一连接概率获得子模块,用于采用所述第一分词的出现概率进行乘法运算以获得所述候选识别文本的连接概率; 第一候选识别文本评分计算子模块,用于分别采用所述多个语音候选词的出现概率和所述候选识别文本的连接概率计算所述候选识别文本的第二识别评分。
19.根据权利要求18所述的系统,其特征在于,采用以下公式计算所述候选识别文本的第二识别评分:
20.根据权利要求16所述的系统,其特征在于,采用以下公式计算第三识别评分:
MS (i) = a ^si+ β 其中,MS(i)为第i个候选识别文本的第三识别评分,Si为第i个候选识别文本的第一识别评分,Ui为第i个候选识别文本的第二识别评分,α和β为非负数。
21.根据权利要求16所述的系统,其特征在于,所述置信度为当前候选识别文本的第三识别评分与所述前N个候选识别文本的第三识别评分的和的比值。
22.—种语音输入系统,其特征在于,包括: 第二语音数据接收模块,用于接收客户端发送的语音数据; 第二识别模块,用于将所述语音数据识别出多个候选识别文本及其识别信息;所述识别信息包括第一识别评分; 第四评分计算模块,用于采用当前用户的个性化文本数据计算第一识别评分最高的前M个候选识别文本的第二识别评分; 第五评分计算模块,用于采用所述第一识别评分和第二识别评分计算所述前M个候选识别文本的第三识别评分; 第二置信度模块,用于计算第三识别评分最高的前N个候选识别文本的置信度;第二发送模块,用于将所述前N个候选识别文本及其置信度发送至客户端;所述客户端用于按照所述置信度展示所述前N个候选识别文本。
23.—种语音输入系统,其特征在于,包括: 第二语音数据采集模块,用于采集语音数据; 第二语音数据发送模块,用于将所述语音数据发送至服务器;第二接收模块,用于接收所述服务器返回的每个语音子数据中第一识别评分最高的前M个候选识别文本及其识别评分,其中,所述语音子数据为所述语音数据被所述服务器切分成的多个语音子数据,所述识别评分包括第一识别评分; 第六评分计算模块,用于分别采用当前用户的个性化文本数据计算每个语音子数据对应的前M个候选识别文本的第二识别评分; 第七评分计算模块,用于分别采用所述第一识别评分和第二识别评分计算每个语音子数据对应的前M个候选识别文本的第三识别评分; 第三置信度计算模块,用于分别计算每个语音子数据的第三识别评分最高的前N个候选识别文本的置信度; 第二展示模块,用于分别展示每个语音子数据中置信度最高的候选识别文本。
24.根据权利要求23所述的系统,其特征在于,所述个性化文本数据包括以下的一种或多种: 输入行为文本数据、自定义词库、设备文本数据、置信度高于预置阈值的语音识别文本。
25.根据权利要求23或24所述的系统,其特征在于,所述候选识别文本包括多个语音候选词,所述识别信息还包括所述多个语音候选词的出现概率; 所述第六评分计算模块包括: 第二分词子模块,用于分别对每个语音子数据对应的前M个候选识别文本进行分词,获得第一分词; 第二映射子模块,用于分别将所述第一分词映射为预置的第二分词,其中,所述第二分词为当前用户的个性化文本数据的分词,且所述第二分词具有词频数; 第二查找子模块,用于分别采用所述第二分词查找所述第一分词的出现概率;所述出现概率为第一词频数与第二词频数的比值,其中,所述第一词频数为当前第一分词对应的第二分词,出现在当前第一分词前面一个或多个第一分词对应的第二分词后面的词频数,所述第二词频数为所述前面一个或多个第一分词对应的第二分词的总词频数; 第二连接概率获得子模块,用于分别采用所述第一分词的出现概率进行乘法运算以获得所述候选识别文本的连接概率; 第二候选识别文本评分计算子模块,用于采用所述多个语音候选词的出现概率和所述候选识别文本的连接概率计算所述候选识别文本的第二识别评分。
26.根据权利要求25所述的系统,其特征在于,采用以下公式计算所述候选识别文本的第二识别评分: log ρ{θ?+ log )+WP 其中,lW)为所述多个语音候选词的出现概率,P(W)为所述候选识别文本的连接概率,λ为权重,WP为词插入惩罚参数。
27.根据权利要求23所述的方法,其特征在于,采用以下公式计算第三识别评分:
MS (i) = a ^si+ β 其中,MS(i)为第i个候选识别文本的第三识别评分,Si为第i个候选识别文本的第一识别评分,Ui为第i个候选识别文本的第二识别评分,α和β为非负数。
28.根据权利要求23所述的系统,其特征在于,所述置信度为当前候选识别文本的第三识别评分与所述前N个候选识别文本的第三识别评分的和的比值。
29.根据权利要求23所述的系统,其特征在于,还包括: 第三展示模块,用于在所述置信度最高的候选识别文本被触发时,展示其他候选识别文本;所述其他文本为所述前N个候选识别文本中除置信度最高的候选识别文本外的候选识别文本。
30.一种语音输入系统,其特征在于,包括: 第四语音数据接收模块,用于接收客户端发送的语音数据; 第二语音数据切分模块,用于将所述语音数据切分为多个语音子数据; 第三识别模块,用于分别识别出每个语音子数据的多个候选识别文本及其识别信息;所述识别信息包括第一识别评分; 第九评分计算模块,用 于分别采用当前用户的个性化文本数据计算每个语音子数据对应的前M个候选识别文本的第二识别评分; 第十评分计算模块,用于分别采用所述第一识别评分和第二识别评分计算每个语音子数据对应的第一识别评分最高的前M个候选识别文本的第三识别评分; 第四置信度计算模块,用于分别计算每个语音子数据的第三识别评分最高的前N个候选识别文本的置信度; 第四发送模块,用于将每个语音子数据的第三识别评分最高的前N个候选识别文本及其置信度发送至客户端;所述客户端用于分别展示每个语音子数据中置信度最高的候选识别文本。
【文档编号】G06F3/16GK103677729SQ201310701517
【公开日】2014年3月26日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】陈伟, 梁伟文 申请人:北京搜狗科技发展有限公司