适于在语音用户界面中使用的用于找出web页面中的元素的方法(消歧)的利记博彩app
【专利说明】
【背景技术】
[0001]web页面是由诸如膝上电脑、个人计算机、游戏控制台和智能电话之类的客户端计算设备渲染的文档的示例。web页面可以使用例如超文本标记语言(HTML)来编码,以及由web浏览器代码来渲染以便显示。文档中的诸如超链接之类的交互式元素可以被用户选择以便查看附加的内容,诸如通过使用鼠标或对触摸屏进行触摸来选择链接。然而,web页面不常被设计用于语音交互。此外,某些确实存在的解决方案要求web页面被专门针对语音交互进行编码。
【发明内容】
[0002]本文中描述的技术提供各种实施例,以用于为文档的交互式元素提供针对语音用户界面的消歧(disambiguat1n)过程。
[0003]在一种方法中,对文档进行分析以标识该文档中的例如超链接或其他链接、按钮或输入栏之类的交互式元素。每个交互式元素由关联的代码定义,所述关联代码包括一个或多个关联于所述交互式元素的短语。用户然后提供语音命令来选择所述交互式元素中的一个。所述语音命令被转换成文本,并被与候选短语的语法中的一个或多个短语进行比较。如果不存在任何单个、清楚的最佳匹配,则使用消歧过程来允许所述用户从具有相对于所述语音命令的最高匹配分数的交互式元素组中进行选择。
[0004]所述消歧过程可以涉及将所述文档的显示修改为提供靠近所述组中的交互式元素中的每个交互式元素的唯一标记(例如第一,第二,第三……)。这些交互式元素的链接文本也可以在视觉上进行区别,而其他交互式元素的文本可以被移除或视觉上不再强调(例如显示为灰色),以便将用户的注意力引导到所述最佳匹配交互式元素。
[0005]所述用户然后可以提供随后的语音命令,其标识所述唯一标记中的一个唯一标记。一旦所述唯一标记被标识,则为对应的交互式元素生成点击事件。即,所述交互式单元就像其被诸如鼠标之类的指向设备点击一样被选择。
[0006]提供本摘要用于以简化形式介绍下面在详细说明书中进一步描述的概念的选择。本摘要不旨在标识所要求权利的主题的关键特征或基本特征,其也不旨在被用作在确定所要求权利的主题的范围时的辅助。
【附图说明】
[0007]在附图中,相同编号的元件彼此对应。
[0008]图1描绘了包括客户端计算设备145、网络通信介质170和服务器180的计算系统。
[0009]图2A描绘了图1的客户端计算设备145的一个示例实施例。
[0010]图2B描绘了针对图2A的代码155的组件的一个示例过程流。
[0011]图3以诸如游戏控制台之类的多媒体控制台100的形式描绘了图1的客户端计算设备145的一个示例框图。
[0012]图4以计算系统200的形式描绘了图1的客户端计算设备145的另一示例框图。
[0013]图5A描绘了用于将语音用户界面提供给文档的过程概览。
[0014]图5B提供图5A的步骤502的用于分析文档以标识交互式元素和关联短语的示例细节。
[0015]图5C提供图5A的步骤504的用于将语音命令与交互式元素的关联短语进行比较的示例细节。
[0016]图f5D提供图5C的步骤524的用于将候选短语与口述单词的序列进行比较的示例细节。
[0017]图5E提供图5A的步骤506的用于执行消歧过程的示例细节。
[0018]图5F提供图5A的步骤508的用于检测和处理已更新交互式元素的示例细节。
[0019]图6A描绘了在显示设备的显示区域中的文档顶部的显示。
[0020]图6B描绘了在显示设备的显示区域中的图6A的文档底部的显示。
[0021]图6C描绘了图6A的文档的顶部,其中,消歧标签被添加到链接文本610和612。
[0022]图6D描绘了图6C的文档的顶部,其中,添加了链接文本610和612的改变的外观,以及移除了来自图6C的链接文本614。
[0023]图7A1描绘了图6A的交互式元素640的示例代码。
[0024]图7A2描绘了对应于图7A1的示例语法条目。
[0025]图7B1描绘了图6A的交互式元素641的示例代码。
[0026]图7B2描绘了对应于图7B1的示例语法条目。
[0027]图7C1描绘了图6A的交互式元素642的链接614的示例代码。
[0028]图7C2描绘了图6A的交互式元素642的图像616的示例代码。
[0029]图7C3描绘了对应于图7C1和7C2的示例语法条目。
[0030]图7D1描绘了图6A的交互式元素643的示例代码。
[0031]图7D2描绘了对应于图7D1的示例语法条目。
[0032]图7E1描绘了图6A的交互式元素644的示例代码。
[0033]图7E2描绘了对应于图7E1的示例语法条目。
[0034]图7F1描绘了交互式元素的一个示例,所述交互式元素是按钮。
[0035]图7F2描绘了图7F1的交互式元素的示例代码。
[0036]图7F3描绘了对应于图7F2的示例语法条目。
[0037]图7G1描绘了作为提交类型的输入的交互式元素的一个示例。
[0038]图7G2描绘了图7G1的交互式元素的示例代码。
[0039]图7G3描绘了对应于图7G2的示例语法条目。
[0040]图7H1描绘了作为复选框类型的输入的交互式元素的一个示例。
[0041]图7H2描绘了图7H1的交互式元素的示例代码。
[0042]图7H3描绘了对应于图7H2的示例语法条目。
[0043]图711描绘了作为单选(rad1)类型的输入的交互式元素的一个示例。
[0044]图712描绘了图711的交互式元素的示例代码。
[0045]图713描绘了对应于图712的示例语法条目。
[0046]图7J1描绘了作为选择选项的交互式元素的一个示例。
[0047]图7J2描绘了图7J1的交互式元素的示例代码。
[0048]图7J3描绘了对应于图7J2的示例语法条目。
【具体实施方式】
[0049]本文中描述的技术为诸如web页面的文档提供针对语音用户界面的消歧过程。自然用户界面(NUI)在允许用户与计算设备上的应用进行交互的方面已变得流行,所述计算设备诸如是web使能的游戏控制台、电视和其他多媒体设备。NUI允许用户使用语音命令和手势的组合。例如,诸如挥手或其他身体移动之类的手势可以用于与应用进行交互,以便输入命令或玩游戏。运动检测相机可以用于识别手势。类似地,可以将语音命令与用于调用函数的命令匹配。例如,某个命令可以用于做出菜单选择(例如使用诸如“播放电影”或“玩游戏”之类的短语)。在播放电影的情况下,用户可以说出诸如“暂停”、“快进”和“倒回”之类的命令。
[0050]使用语音命令来浏览web的能力在人工输入设备不可用或不方便的场景中特别有用。
[0051]一般说来,语音界面可以包括:用户可以说的一组短语、绑定到那些短语的一组动作、以及使用户知道他们可以说哪些短语的用户体验。语音界面呈现通过说短语所执行的动作的结果。用户体验可以例如使用另一人类语音、视频显示、可刷新盲文显示(brailledisplay)或任何可以用于向用户传达信息的设备来呈现所述结果。
[0052]将被识别的一组短语和对应的动作在这些情况下可以相对有限,并且一般是预定的。相反,在为诸如web页面之类的文档提供语音用户界面时,将被识别的一组短语和对应的动作一般不是预定的。通常,web页面包括采用HTML (标记)、JAVASCRIPT (程序代码)和层叠样式表或CSS (样式)形式的代码。尽管存在来自W3C的采用标准和非标准跟踪规范形式的针对向web页面添加语音界面的一些成果,但不存在被广泛部署的解决方案。因此,web页面现今未被设计用于语音交互。
[0053]本文中提供的技术使能实现针对web页面的语音界面的自动构造和执行。这允许用户在没有诸如控制器、遥控器、鼠标、电话或平板之类的人工输入设备的情况下容易地浏览web。给定web页面,则语音用户界面可以通过对定义该web页面的交互式元素的HTML、CSS和JAVASCRIPT代码进行处理来创建。所述代码包括可以用于构建用于进行语音识别的候选短语的语法或词典的短语。所述语法允许用户说出与在页面上可见(或者在某些情况下不可见)的短语一致的短语,以便对web站点或其他数据源进行导航。
[0054]此外,所述技术自动确定适于构建语音界面的web页面的组件。例如,通常包含文本和链接的超文本链接对构建语音界面有用。然而,未关联于交互式元素并且没有绑定到其的动作的文本一般不是语音界面的有用组件。除构建语法之外,所述技术可以包括对语法进行智能过滤,从而使与语音命令的匹配限于与页面的当前显示部分中的交互式元素相关联的短语。所述技术还包括使用关联于交互式元素的代码但未被渲染在显示上的短语,以及将语法与对单个交互式元素的更新同步。
[0055]所述技术还包括消歧过程,其允许用户从具有相对于语音命令的最高匹配分数的交互式元素的组中进行选择。
[0056]图1描绘了包括客户端计算设备145、网络通信介质170和服务器180的计算系统。所述客户端计算设备可以例如是膝上型电脑、个人计算机、游戏控制台、智能电话、可穿戴计算设备或web使能的电视。所述服务器表示作为诸如web页面之类的文档的宿主的计算设备。所述网络通信介质允许客户端计算设备与服务器进行通信。在一个场景中,客户端计算设备运行提供web浏览器应用的web浏览器代码。当该web浏览器被启动时,其加载主页文档的文档代码。随后,用户可以选择文档的交互式元素以执行动作。例如,该动作可以是经由网络从服务器加载另一 web页面。在另一示例中,所述动作诸如通过在客户端计算设备处执行文档代码的JAVASCRIPT代码在客户端计算设备本地被执行。所述动作可以导致对文档显示的更新,例如,通过显示文档的不同部分或变更文档的内容。
[0057]图2A描绘了图1的客户端计算设备145的一个示例实施例。该计算设备包括诸如硬盘、固态驱动器或便携式介质之类的存储设备151。这些是非易失性的存储器类型。诸如网络接口卡之类的网络接口 152允许计算设备经由网络通信介质170进行通信。处理器153执行工作存储器154中的代码。工作存储器可以是诸如RAM之类的易失性类型的,其存储从存储设备151加载的代码155以便被处理器使用。代码的进一步细节在图2B中提供。
[0058]用户界面163包括例如屏幕之类的显示设备164、接收口述用户命令并将其提供给话音识别代码的麦克风165、以及可选的人工输入设备166,诸如鼠标或键盘。
[0059]所述存储设备和工作存储器是有形、非瞬态计算机或处理器可读存储设备的示例。存储设备包括采用任何用于存储信息的方法或技术实现的易失性和非易失性、可移除和非可移除的设备,所述信息诸如是计算机可读指令、数据结构、程序模块或其他数据。计算机存储设备包括:RAM、R0M、EEPR0M、高速缓存、闪存器或其他存储器技术,CD-ROM、数字多功能盘(D