检测自我生成的唤醒声调的利记博彩app

文档序号:9794122阅读:959来源:国知局
检测自我生成的唤醒声调的利记博彩app
【专利说明】检测自我生成的唤醒声调
[0001 ] 相关申请
[0002] 本申请要求2013年6月27日提交的名为"检测自我生成的唤醒声调(Detecting Self-Generated Wake Expressions)"的第13/929,540号美国专利申请的优先权,所述申 请的全部内容以引用方式并入本文中。
【背景技术】
[0003] 家庭、办公室、汽车和公共空间正越来越多地进行联网且与诸如笔记本计算机、平 板计算机、娱乐系统和便携式通信装置的计算装置的增长密切相关。随着计算装置的演变, 其中用户与这些装置交互的方式继续演变。例如,人们可通过机械装置(例如,键盘、鼠标等 等)、电气装置(例如,触屏、触控板等等)和光学装置(例如,运动检测器、照相机等等)与计 算装置交互。与计算装置交互的另一方式是通过采集并响应人类语音的音频装置进行。
【附图说明】
[0004] 参考附图描述详述。在图中,元件符号的最左侧数字识别其中元件符号首次出现 的图。相同元件符号在不同图中的使用指示类似或相似组件或特征。
[0005] 图1是包括声控音频装置的说明性语音交互计算架构的方框图。
[0006] 图2是诸如可能在图1的架构中使用的声控音频装置的视图。
[0007] 图3和4是说明可以被实施来区分用户发出唤醒声调与装置产生的唤醒声调的功 能的方框图。
[0008] 图5是说明用于获取可以用于检测装置产生的唤醒声调的参考参数的示例性程序 的流程图。
[0009] 图6是说明用于区分用户发出的唤醒声调与装置产生的唤醒声调的示例性程序的 流程图。
【具体实施方式】
[0010] 本公开内容通常涉及一种提供与用户的基于语音的交互的语音接口装置或其它 音频装置。音频装置具有在用户和采集用户语音的麦克风的环境内产生音频的扬声器。音 频装置可以被配置来通过执行功能和提供服务响应于用户语音。用户命令可以开始于唤醒 声调(又称作触发声调,诸如预定义单词、词语或其它声音)。响应于检测到唤醒声调,音频 装置将任何紧邻单词或词语解译为可操作输入或命令。
[0011] 在给用户提供服务时,音频装置本身可以在其扬声器处生成唤醒声调,这可以使 音频装置的反应如同用户说出唤醒声调一样。为了避免此反应,音频装置可以被配置来评 估从其中接收到唤醒声调的方向。通常,将全方位接收由音频装置生成的唤醒声调。另一方 面,将从一个方向或有限数量的方向接收由用户生成的唤醒声调。因此,音频装置可以被配 置来忽略全方位或从一个或两个以上方向接收的唤醒声调。注意,用户发出的唤醒声调有 时候由于特定环境内的声波反射而可以表现为源自于一个以上方向。
[0012] 更特定地说,音频装置可以被配置来对多个定向音频信号执行唤醒声调检测。音 频装置还可被配置来比较包括唤醒声调的定向音频信号的数量或图案与参考数量或图案。 参考可以指示定向输入信号的阈值数量或定向信号的图案或集合。当参考包括阈值时,如 果包括唤醒声调的定向输入音频信号的数量超过阈值,那么唤醒声调被视为由音频装置生 成。当参考包括图案或集合时,基于包括唤醒声调的特定定向输入音频信号是否匹配所述 图案或集合来评估唤醒声调。
[0013] 在一些实施方式中,音频装置可以被配置来获取或训练其自身关于音频特性的图 案是装置生成的唤醒声调的特性。例如,音频装置可以被配置来在初始化之后生成唤醒声 调或另一声音,且识别其中检测到声调或声音的定向音频信号的组合。随后,音频装置可以 被配置来当在定向音频信号的获取组合中检测到唤醒声调时忽略所述唤醒声调。
[0014]当确定受检测唤醒声调是否由音频装置而非用户生成时还可以分析或考虑其它 条件或参数。作为实例,这些条件或参数可以包括以下项:扬声器输出的存在和/或响度;扬 声器输出是否被视为包括语音;回声特性输入信号和/或回声降低的有效性;包括定向音频 信号的已接收音频信号的响度。
[0015] 机器获取技术可以用于分析各种参数以确定当已自我生成唤醒声调时通常展现 出的参数的图案。
[0016] 图1示出了包括用户104的环境102(例如家庭环境)中设置的说明性语音交互计算 架构100。架构100包括用户104可以与其交互的电子声控音频装置106。在已说明的实施方 式中,音频装置106位于环境102的房间内的桌子上。在其它实施方式中,音频装置106可以 被放置在任何数量的位置中(例如,天花板、墙壁、灯具中、桌子下面、椅子下面等等)。此外, 一个以上音频装置106可以位于单一房间中,或一个音频装置106可以用于适应来自一个以 上房间的用户交互。
[0017] 通常,音频装置106可以具有麦克风阵列108和一个或一个以上音频扬声器或换能 器110以促进与用户104和/或其它用户的音频交互。麦克风阵列108产生表示来自环境102 的音频(诸如由用户104发出的声音和环境102内的环境噪音)的输入音频信号。输入音频信 号还可以包括由扬声器110产生的输出音频分量。如下文将更详细地描述,由麦克风阵列 108产生的输入音频信号可以包括定向音频信号或可以用于产生定向音频信号,其中定向 音频信号中的每一个强调来自不同于麦克风阵列108的方向的音频。
[0018] 音频装置106包括操作逻辑,在许多情况中其可以包括处理器112和存储器114。处 理器112可以包括多个处理器和/或具有多个核心的处理器。存储器114可以包括呈指令形 式的应用程序和程序,所述指令由处理器112执行以执行实施音频装置106的所需功能(包 括下文具体描述的功能)的行动或动作。存储器114可以是一种类型的计算机存储介质,且 可以包括易失性和非易失性存储器。因此,存储器114可以包括但不限于RAM、R0M、EEPR0M、 快闪存储器或其它存储器技术。
[0019] 音频装置106可以具有操作系统116,其被配置来管理音频装置106内且耦合到音 频装置106的硬件和服务。此外,音频装置106可以包括音频处理组件118和语音处理组件 120〇
[0020]音频处理组件118可以包括用于处理由麦克风阵列108生成的输入音频信号和/或 提供到扬声器110的输出音频信号的功能。作为实例,音频处理组件118可以包括用于减少 由麦克风阵列108与扬声器110之间的声波耦合生成的声学回波的声学回声消除或抑制组 件122。音频处理组件118还可以包括用于减少已接收音频信号中的噪音的降噪组件124,诸 如音频信号而非用户语音的元件。
[0021]音频处理组件118可以包括一个或多个音频波束形成器或波束形成组件126,其被 配置来生成集中在已从其中检测到用户语音的方向上的音频信号。更具体地说,波束形成 组件126可以响应于麦克风阵列108的空间分离麦克风元件以产生强调源自于不同于音频 装置106的方向的声音的定向音频信号,且选择并输出最有可能包括用户语音的音频信号 之一。
[0022]语音处理组件120接收已由音频处理组件118处理的音频信号且执行各种类型的 处理以了解由人类语音表达的意图。语音处理组件120可以包括自动语音识别组件128,其 识别由已接收音频信号表示的音频中的人类语音。语音处理组件120还可以包括自然语言 理解组件130,其被配置来基于用户104的已识别语音确定用户意图。
[0023]语音处理组件120还可以包括文字转语音或语音生成组件132,其将文字转换为语 音以在扬声器110处生成。
[0024] 音频装置106可以包括多个应用程序134,其被配置来结合音频装置106的其它元 件工作以提供服务和功能。应用程序134可以包括媒体播放服务,诸如音乐播放器。作为实 例,由应用程序134执行或提供的其它服务或操作可以包括请求和消费娱乐(例如,游戏、寻 找并播放音乐、电影或其它内容等等)、个人管理(例如,日程安排、笔记等等)、在线购物、金 融交易、数据库查询等等。在一些实施方案中,应用程序可以被预安装在音频装置106上,且 可以实施音频装置106的核心功能。在其它实施方案中,应用程序134中的一个或多个可以 由用户104安装,或在用户104初始化音频装置106之后以其它方式安装,且可以实施用户 104所需要的额外或定制功能。
[0025] 在某些实施方案中,用户与音频装置106交互的主要模式是语音。例如,音频装置 106可以从用户104接收口头命令,且响应于命令提供服务。用户可以发出预定义唤醒或触 发声调(例如,"叫醒"),其后面可以跟着指令或指令符(例如,"我要去看电影。请告诉我当 地电影院正在播放什么电影")。所提供的服务可以包括执行动作或活动、呈现媒体、获得 和/或提供信息、经由通过音频装置106的已生成或合成语音提供信息、代表用户104起始基 于互联网的服务,等等。
[0026]音频装置106可以包括唤醒声调检测组件136,其监测已接收的输入音频并响应于 用户发出唤醒或触发声调而将事件通知提供到语音处理组件120和/或应用程序134。语音 处理组件120和/或应用程序134可以通过解
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1