自动地生成训练数据的利记博彩app

文档序号:6427471阅读:240来源:国知局
专利名称:自动地生成训练数据的利记博彩app
技术领域
本发明涉及搜索技术,尤其涉及自动生成训练数据。
背景技术
Web搜索已经变得用于查找信息的普通技术。流行的搜索引擎允许用户根据由用户在由搜索引擎所提供的用户界面(例如,在客户端设备上显示的搜索引擎网页)中输入的搜索项来执行广泛的基于web的搜索。广泛的搜索可以返回可包括来自各种域(其中, 域是指特定类别的信息)的结果。在某些情况下,用户可能希望搜索特定域所特定的信息。例如,用户可以试图执行音乐搜索或执行产品搜索。这样的搜索(被称为“域特定搜索”)是其中当执行搜索时(例如,搜索特定歌曲或记录歌星,搜索特定产品等等)用户在心中具有对于来自特定域的信息的特定查询意图。可以通过垂直搜索服务来提供域特定搜索,垂直搜索服务可以是由通用搜索引擎所提供的,或者可替换地,由垂直搜索引擎所提供的服务。垂直搜索服务提供来自特定域的搜索结果,并通常不从不与特定域相关的域返回搜索结果。一种特殊类型的垂直搜索服务的一个示例此处被称为即时应答服务。即时应答是指作为对在主要搜索结果网页上向用户提供的搜索查询的应答或响应的搜索结果。即,响应于查询,在搜索结果页面向用户呈现域特定内容,而用户可能需要以另外的方式选择搜索结果网页内的链接以导航到另一个网页,此后,进一步搜索所希望的信息。例如,假设用户搜索查询是“西雅图的天气”。搜索结果网页内的算法结果可包括到weather, com的URL。在这样的情况下,用户可以选择URL,转移到该网页,此后,输入 kattle(西雅图)以获取西雅图的天气。通过比较,在搜索结果网页上呈现的即时应答包含西雅图的天气,以便用户不需要导航到另一个网页以查找天气。可以理解,即时应答可以涉及任何主题,包括,例如,天气、新闻、地区码、货币兑换、词典术语、百科全书条目、金融、 航班、健康、假日、日期、宾馆、本地列表、数学、电影、音乐、购物、体育、包裹跟踪等等。即时应答可以采取图标、按钮、链接、文本、视频、图像、照片、音频、其组合等等形式。查询意图分类器可以被用来确定由搜索引擎接收到的查询是否应该触发诸如,例如,即时应答服务的垂直搜索服务。例如,词典一定义意图分类器可以确定接收到的查询是否可能与词典一定义搜索相关联。如果接收到的查询被分类为与词典一定义搜索关联,那么,可以调用对应的垂直搜索服务以标识词典一定义搜索域中的搜索结果(可包括,例如, 涉及词典一定义搜索的网站)。在一个具体示例中,词典一定义意图分类器可以将包含搜索阶段“定义保真度(fidelity),,的查询分类为如词典一定义意图搜索那样正的,因此,该查询将触发对包括“保真度(fidelity)”的单词和词组的词典定义的垂直搜索。另一方面,词典一定义意图分类器可能将包含搜索短语“Fidelity”(这是一家著名的金融机构的名称) 的查询分类为对于词典一定义意图搜索是负的(或不是正的),因此,将不会触发垂直搜索服务。由于“Fidelity”是一家著名的公司的名称,“保真度(fidelity)”在搜索短语中的单独存在不一定应该触发词典一定义相关的域特定搜索或即时应答。
查询一意图分类器的开发人员所面临的挑战是,典型的训练技术(用于训练查询一意图分类器)必须配备有足够的训练数据量。在某些情况下,查询一意图分类器是使用被标记为对于查询意图是正的或者负的的训练数据来训练的,而在其他情况下,查询一意图分类器只是使用被标识为正的训练数据的训练数据来训练的。用不够的训练数据来构建分类器会导致不准确的分类器。传统上,标识给定查询是否是特定域的一部分(诸如,例如,音乐、电影、职业、词典定义等等)的机器一学习二元查询分类器,以及将一个查询分段为几个部分的集合的实体提取器,在大规模构建方面是昂贵的,因为每一个都要求数以万计正的训练一查询样本。 这些样本历史上是由鉴定人标记的,鉴定人通常每天只产生几百个样本,并导致大量的管理费。

发明内容
提供本发明内容是为了以简化的形式介绍将在以下具体实施方式
中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围。本发明的各实施方式促进分类器和实体提取器正的训练数据的自动生成。通过实现本发明的各实施方式的各方面,搜索服务可以大规模地生成正的域内训练数据,允许以足够高的速率创建高质量的分类器以跟上搜索引擎,例如,连续地扩展为以跨多个域构建丰富的体验的分类器。此处所描述的方法可以完全自动化,从而不需要手动标记初始查询 (或标记任何类型)。另外,此处所描述的算法可以有效地在任意数量的服务器、机器等等上运行。在本发明的各实施方式的某些方面,分类器是通过接收将查询与由查询所标识的统一资源定位符(URL)进行关联的数据结构来构建的。选择种子(例如,初始)URL的集合,并基于URL,标识包括一个或多个子域的域。然后,检查数据结构,以标识数据结构中的具有匹配的子域的每一个URL。将与每一个标识的URL相关联的全部查询添加到潜在的训练数据的集合中,从该集合中选择满足某一准则的查询。然后,使用所选查询作为训练分类器的训练数据。在本发明的各实施方式的某些方面,实体提取器是通过接收将查询与由查询所标识的统一资源定位符(URL)进行关联的数据结构来构建的。选择种子(例如,初始)URL的集合,基于URL,标识包括一个或多个实体(并可包括排列、朝向等等)的实体模式。然后, 检查数据结构,以标识数据结构中的具有实体模式的每一个URL。将与每一个标识的URL相关联的全部查询添加到潜在的训练数据的集合中,从该集合中选择满足某一准则的查询。 然后,使用所选查询作为训练实体提取器的训练数据。对于上下文,假设某一 URL 模式(例如,www. contoso. com/music/artist/)被标识为特定域的一部分(例如,音乐),那么,在某些实施方式中,可以假设,带有到该同一模式的URL的点击的大多数查询还具有对于同一个域的意图(例如,{coldplay albums}导致在www. contoso. com/music/artist/coldplay/albums. jhtml 上的点击,如此,{coldplay albums}可能是与音乐相关的)。此外,还以这样的方式来构建某些这样的URL,以便可以从 URL本身中提取相关的实体名称,这可以促进将相同实体名称标记为查询的组件(在上面的相同URL示例中,跟随"/artist/"后面的URL段是实际歌星名称,“Coldplay”,然后, 可以使用该名称来标记到示例查询中的第一项)。此处所描述的技术提供了用于从点击数据生成大量的训练查询的可缩放的解决方案。例如,大型搜索引擎可以具有点击图,该点击图包含,例如,与从比方说2009年6月到当前的每一个查询相关联的由每个用户所发出的每个查询,以及每个用户对每个URL的点击。一旦标识了几个URL模式,可以将它们自动地针对点击图运行,并应用某一阈值。此过程的输出是正的查询样本的足够大的集合,用于现有的机器学习算法中,以创建二进制分类器和实体提取器分类器模型。这些模型可以在运行时被托管,并可以被用来分类和分段用户查询。将被视为具有对于某一域(例如,音乐)的意图的那些查询分段为它们的构成部分,并馈送给域的即时应答服务,以便检索域内的内容(例如,一个歌星的最流行的歌曲,包括歌词、歌曲播放链接、等等)。从下面的描述、附图、以及从权利要求书,其他或替换的特征将变得显而易见。


下面将参考附图详细描述本发明的各实施方式,在附图中图1是适用于实现本发明的各实施方式的示例性计算设备的框图;图2是适用于实现本发明的各实施方式的示例性网络环境的框图;图3描绘了根据本发明的各实施方式的点击图的说明性显示;图4是示出了根据本发明的各实施方式的增强即时应答服务的示例性方法的流程图;图5是示出了根据本发明的各实施方式的使用分类器和实体提取器来触发即时应答服务的示例性方法的流程图;图6是示出了根据本发明的各实施方式的相对于内容域来标识点击数据中的查询和统一资源定位符(URL)之间的正关联的示例性方法的流程图;图7是示出了根据本发明的各实施方式的生成正的分类器训练数据的示例性方法的流程图;以及图8是示出了根据本发明的各实施方式的从数据结构生成实体一提取器训练数据的示例性方法的流程图。
具体实施例方式此处用具体细节描述此处所公开的本发明的各实施方式的主题以满足法定要求。 然而,描述本身并不旨在限制本专利的范围。相反,发明人设想,所要求保护的主题还可结合其他当前或未来技术按照其他方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,虽然此处可以使用术语“步骤”和/或“框”来指示所使用的方法的不同元素,但是除非而且仅当明确描述了各个步骤的顺序时,这些术语不应该被解释为意味着此处所公开的各步骤之间的任何特定顺序。此处所描述的本发明的各实施方式包括计算设备和计算机程序产品(例如,包括软件的产品),用于促进自动生成训练数据,用于训练查询一意图分类器和实体提取器。在第一说明性实施方式中,计算机可执行指令集合提供相对于内容域标识点击数据中的查询和统一资源定位符(URL)之间的正关联的示例性方法。在各实施方式中,说明性方法的各方面包括接收将查询与由查询所标识的URL相关联的数据结构,并标识与内容域相关联的第一 URL模式。在各实施方式中,说明性方法的各方面还包括确定点击图中的第一 URL的至少一部分与第一 URL模式相匹配,以及标识与第一 URL相关联的第一查询。该方法的各实施方式包括确定第一查询和第一 URL相对于内容域具有正关联。在第二说明性实施方式中,计算机可执行指令集合提供生成正的分类器训练数据的示例性方法。该方法的各实施方式包括,例如,接收将查询与由查询所标识的URL相关联的数据结构。标识包括URL域的URL模式,还标识数据结构中的匹配的URL以及它们的对应的查询。说明性方法的各实施方式还包括,将与匹配的URL相连接的每一个查询添加到潜在训练查询的集合中;以及从潜在训练查询的集合中选择训练查询的集合。在第三说明性实施方式中,计算机可执行指令集合提供用于从存储了点击数据的数据结构生成实体一提取器训练数据,其中,该数据结构包括捕捉到的搜索查询和对应于选定的查询结果的统一资源定位符(URL)之间的关联。说明性方法的各实施方式包括选定种子URL,并从该种子URL提取第一实体模式,该第一实体模式包括第一实体。基于所提取的实体模式,标识数据结构中的匹配的URL。在各实施方式中,说明性方法的各方面包括将与匹配的URL相连接的每一个查询添加到潜在训练查询的集合中;以及从潜在训练查询的集合中选择训练查询的集合。本发明的各实施方式的各个方面可以在包括计算机代码或机器可使用指令(包括由计算机或诸如个人数据助理或其他手持式设备之类的其他机器执行的诸如程序模块之类的计算机可执行指令)的计算机程序产品的一般上下文中来描述。一般而言,包括例程、程序、对象、组件、数据结构等等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。本发明的各实施方式可以在各种系统配置中实施,包括专用服务器、通用计算机、膝上型计算机、更专用计算设备等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。计算机可读介质包括易失性和非易失性介质,可移动的和不可移动的介质,并设想可由数据库、处理器以及各种其他联网的计算设备读取的介质。作为示例而非限制,计算机可读介质包括以任何方法或技术实现的用于存储信息的介质。存储的信息的示例包括计算机可执行指令、数据结构、程序模块,及其他数据表示形式。介质示例包括,但不仅限于, 信息传送介质、RAM、ROM、EEPR0M、闪存或其他存储技术,CD-ROM、数字多功能盘(DVD)、全息介质或其他光盘存储、磁带盒、磁带、磁盘存储器,及其他磁存储设备。这些技术可以临时或永久地存储数据。下面将描述其中可以实现本发明的各个方面的示例性操作环境,以便为本发明的各个方面提供一般上下文。首先具体参考图1,示出了用于实现本发明的各实施方式的示例性操作环境,并将其概括地指定为计算设备100。计算设备100只是合适的计算环境的一个示例,而非旨在对本发明的使用范围或功能提出任何限制。计算设备100也不应被解释成对于所示出的任一组件或其组合有任何依赖或要求。计算设备100包括直接地或间接地耦合下面的设备的总线110 存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口 118、I/O组件120以及说明性电源122。总线110表示一个或多个总线(诸如地址总线、数据总线或其组合)。虽然为了清楚起见利用线条示出了图1的各块,但是,实际上,描述各种组件不如此清楚,只是个比喻,更准确地,线条将是灰色而模糊的。例如,可以将诸如显示设备之类的呈现组件视为 I/O组件。同样,处理器具有存储器。我们认识到这是本领域的特性,并重申,图1的图示只是例示可以结合本发明的一个或多个实施例来使用的示例性计算设备。在诸如“工作站”、 “服务器”、“膝上型计算机”、“手持式设备”等等之类的类别之间不进行区别,因为所有这些都在图1的范围内并都被称作“计算设备”。存储器112包括存储在易失性和/或非易失性存储器中的计算机可执行指令115。 存储器可以是可移动的,不可移动的,或两者的组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括与从诸如存储器112或I/O组件120之类的各种实体读取数据的系统总线110耦合的一个或多个处理器114。在一个实施方式中,一个或多个处理器114执行计算机可执行指令115,以执行由计算机可执行指令115所定义的各种任务和方法。呈现组件116耦合到系统总线110并向用户或其他设备呈现数据指示。 示例性呈现组件116包括显示设备、扬声器、打印组件等等。I/O端口 118可允许计算设备100在逻辑上耦合到包括I/O组件120在内的其他设备,其中一些可以是内置的。说明性组件包括麦克风、游戏杆、游戏操纵杆、碟形卫星天线、扫描仪、打印机、无线设备、键盘、笔、语音输人设备、触摸输人设备、触摸屏设备、交互式显示设备,或鼠标。I/O组件120还可以包括通信连接121,这些通信连接121可以促进可通信地将计算设备100连接到诸如,例如,其他计算设备、服务器、路由器等等之类的远程设备。根据一些实施方式,自动地生成用于训练查询一意图分类器的训练数据的技术或机制包括接收将查询与由查询所标识的URL进行关联的数据结构,并基于该数据结构,产生用于训练查询一意图分类器的训练数据。查询一意图分类器是用于将查询指定到表示对应的查询是否与用户从特定域搜索信息的特定意图(例如,对单词的定义执行搜索的意图,对特定产品执行搜索的意图,搜索音乐的意图,搜索电影的意图等等)相关联的类的分类器。这样的类被称为“查询一意图类”。“域”(或者,可另选地,“查询一意图域”)是指用户希望在其中进行搜索的特定类别的信息。相比之下,如此处所使用的,“URL域”和“URL子域”分别是指因特网域和子域,一般是由URL的一部分所定义的。应该理解,在某些情况下,URL域和URL子域也可以被表征为查询一意图域(或者甚至多个域)的子域,如果查询一意图是特定URL域(诸如,例如, 流行的零售网站域)所特定的。术语“查询”是指任何类型的请求,其中,包含一个或多个搜索项,这些搜索项可以被提交到一个用于基于查询中所包含的搜索项来标识搜索结果的搜索引擎(或多个搜索引擎)。由数据结构中的查询所标识的“项”是响应于查询所产生的搜索结果的表示。例如,项可以是统一资源定位符(URL)或其他信息,它们标识包含搜索结果(例如,网页)的地址或位置(例如,网站)的其他标识符。在一个实施方式中,将查询与由查询所标识的项进行关联的数据结构可以是点击图,该点击图基于点进数据来将查询与URL进行关联。“点进数据”(或更简单地,“点击数据”)是指表示由一个或多个用户在由一个或多个查询所标识的搜索结果中作出的选择的数据。点击图包含从表示查询的节点到表示URL的节点的链接(边缘),其中,特定查询和特定URL之间的每一个链接表示用户作出选择(例如,在web浏览器中点击)以从由特定查询所标识的搜索结果导航到特定URL的至少一次发生。点击图也可以包括不链接的某些查询和URL,意味着,在这样的查询和URL之间关联没有被标识。在随后的讨论中,将参考点击图,点击图包含查询和URL的表示,至少一些查询和 URL是(通过链接连接)相关联的。然而,值得注意的是,可以对于除点击图以外的其他类型的数据结构应用相同或类似的技术。在各实施方式中,将查询与URL进行关联的点击图首先包括相对于查询意图类未被(诸如由一个或多个人)标记的大量的查询。在某些实施方式中,点击图包括某些被标记的查询。一般而言,查询意图类可以是二进制类,包括相对于特定查询意图的正的类和负的类。用“正的类”标记的查询表示查询相对于特定查询意图是正的,而用“负的类”标记的查询意味着,查询相对于查询意图是负的。除相对于查询意图类被标记的查询之外,点击图首先还可以包含相对于查询意图类未被标记的相对大量的查询。未作标记的查询是那些未被指定到查询意图类中的任何一个的查询。现在转向图2,示出了适用于实现本发明的各实施方式的示例性网络环境200的框图。网络环境200包括用户设备210、网络212、搜索服务214、索引216,以及即时应答服务218。用户设备210通过网络212与搜索服务214和即时应答服务218进行通信,网络 212可包括诸如,例如,局域网(LAN)、广域网(WAN)、因特网、蜂窝网络、对等(P2P)网络、移动网络之类的任意数量的网络,或网络的组合。图2所示出的示例性网络环境200是一种合适的网络环境200的示例,而非旨在对在本文档中所公开的本发明的各实施方式的使用范围或功能提出任何限制。该示例性网络环境200也不应被解释成对于此处所示出的任一组件或其组合有任何依赖或要求。用户设备210可以是能够允许用户向搜索服务214提交搜索查询的任何类型的计算设备,并响应于搜索查询,从搜索服务214接收搜索结果网页。例如,在一个实施方式中, 用户设备210可以是诸如计算设备100之类的计算设备。在各实施方式中,用户设备210 可以是个人计算机(PC)、膝上型计算机、工作站、移动计算设备、PDA、蜂窝电话等等。搜索服务214,以及图2中所示出的其他组件216、218中的任何或全部可以被实现为服务器系统、程序模块、虚拟机、一个服务器或多个服务器、网络的组件、等等。在一个实施方式中,例如,组件214、216,以及218中的都被实现为单独的服务器。在另一个实施方式中,组件214、216,以及218中的全部都在在单一服务器上或一排服务器上实现。在一个实施方式中,用户设备210是单独的,并不同于图2中所示出的搜索服务 214和/或其他组件。在另一个实施方式中,用户设备210与组件214、216,以及218中的一个或多个集成。为清楚起见,我们应该描述其中用户设备210,以及组件214、216,以及218 中的每一个都是单独的,尽管可以理解,这可能不是本发明构想的各种配置中的情况。如图2所示,用户设备210与搜索服务214进行通信。搜索服务214接收搜索查询,即,由用户经由用户设备210提交的搜索请求。从用户接收到的搜索查询可包括由用户手动地或口头地输入的搜索查询,向用户建议并由用户选定的查询,以及由搜索服务214 接收到的由于某种原因被用户批准的任何其他搜索查询。搜索服务214可以是,或包括,例如,搜索引擎、爬行器等等,并可以与索引216进行交互,以执行搜索。在某些实施方式中, 搜索服务214被配置成使用通过用户设备210提交的查询来执行搜索。
在各实施方式中,搜索服务214可以提供一个用户界面,用于促进与用户设备210 进行通信的用户的搜索体验。在一个实施方式中,搜索服务214监视搜索活动,并可以产生表示搜索活动、先前提交的查询、获取的搜索结果等等的一个或多个记录或日志。可以以许多不同的方式来利用这些服务来改进搜索体验。如在图2中进一步示出的,搜索服务214 与即时应答服务218进行通信。在各实施方式中,即时应答服务218可以是任何类型的垂直一搜索服务,包括,但不仅限于,响应于查询来提供即时应答的服务。如图2所示,搜索服务214包括搜索组件220、日志组件222、点击日志224、训练数据生成器226、图生成器228、点击图230,以及模型生成器232。图2所示出的示例性搜索服务214是一种配置的示例,而非旨在对在本文档中所公开的本发明的各实施方式的使用范围或功能提出任何限制。该示例性搜索服务214也不应被解释成对于此处所示出的任一组件或其组合有任何依赖或要求。搜索组件220被配置成接收已提交的查询,并使用该查询来执行搜索。在一个实施方式中,在发现满足提交的查询的查询结果时,搜索组件220通过由搜索服务214维护的图形界面,向用户设备210返回查询结果。查询结果可包括任何类型的内容,诸如,文档、文件的列表,满足提交的查询的内容的其他情况。在另一个实施方式中,查询结果包括满足提交的查询的实际内容。在更进一步的实施方式中,查询结果包括到内容的链接,对于未来查询的建议等等。在一个实施方式中,如果提交的查询不产生任何结果,则搜索组件220将消息传递到用户设备210。消息通知用户设备210,提交的查询没有产生任何结果。在一个实施方式中,在标识满足搜索查询的搜索结果时,搜索组件220通过诸如搜索结果页面之类的图形界面,向用户设备210返回搜索结果集合。搜索结果集合包括被视为与用户定义的搜索查询有关的内容或内容站点(例如,包含内容的网页、数据库等等) 的表示。例如,可以以内容链接、片断、缩略图、概要、即时应答等等,来呈现搜索结果。内容链接是指对应于相关联的内容的地址的内容或内容站点的可选择的表示。例如,内容链接可以是对应于统一资源定位符(URL)、IP地址或其他类型的地址的可选择的表示。如此,对内容链接的选择可以导致将用户的浏览器重定向到对应的地址,从而用户可以访问相关联的内容。一个通常使用的内容链接的示例是超链接。日志组件222捕捉在用户的与搜索服务214的交互过程中生成的点击数据。在各实施方式中,日志组件222将捕捉到的点击数据存储在日志224中。日志2 可以是,或包括存储模块(例如,数据库、索引、表或其他存储器),历史管理器等等。日志2M维护与用户搜索行为相关联的点击数据。如此处所使用的,“点击数据”是指反映用户相对于搜索服务214的活动的信息,并可包括从由用户所发出的搜索查询捕捉到的数据,响应于搜索查询向用户提供的搜索结果,用户选定(例如,“点击”)了搜索结果或其他内容链接的指示, 与内容链接相关联的URL、停留时间(表示在返回到搜索引擎或查看搜索结果网页之前用户在特定内容站点花费的时间量),以及可以通过跟踪用户的输入来监视和记录的任何其他类型的活动。训练数据生成器226自动地生成用于训练分类器234和/或实体提取器236的正的训练数据。通过使用训练数据生成器,标识URL模式和实体。训练数据生成器2 标识点击图230的每一个节点,点击图230是由图生成器2 从点击日志2 生成的,其对应于匹配模式和/或包括实体的URL。将与每一个匹配节点相关联的查询添加到潜在的训练数据的集合中。可以从潜在的训练数据中选择训练数据,并将其用于训练分类器234和/或实体提取器236。暂时转到图3,描绘了点击图300的一个示例。图3的点击图300仅仅是与全部都对应于共同的查询一意图域的URL相关联的点击图的一部分的代表。图3所示出的示例性点击图300是一种合适的数据结构的示例,而非旨在对在本文档中所公开的本发明的各实施方式的使用范围或功能提出任何限制。该示例性点击图300也不应被解释成对于此处所示出的任一组件或其组合有任何依赖或要求。如图3所示,示例性点击图300在左边具有许多查询节点302,在右边具有许多 URL节点304。在图3中没有描绘对节点302和304的标记,因为标记节点不一定与当前讨论有密切关系。链接(或边缘)306连接某一对查询节点302和URL节点304。注意,并非所有的查询节点302或URL节点304都是链接的。例如,对应于搜索短语“what is prudence" 的查询节点 302 仅仅链接到 URL 节点“dictionary, referencebook. com/browse/ “ 和〃 ourfreedictionary.com",而不链接到点击图300中的其他URL节点。这意味着,响应于包含搜索短语“what is prudence”的搜索查询的搜索结果,用户在搜索结果中作出导航至丨J URL “ dictionary, referencebook. com/browse/ “禾口 “ ourfreedictionary. com/ “ 的选择,并不进行导航到图3中所描绘的其他URL的选择(或者,其他URL不表现为响应于包含搜索短语"what is prudence”的查询的搜索结果)。类似地,对应于搜索项“fidelity”的查询节点302不连接到图3中所描绘的URL 节点304中的任何一个,例如,因为与对应于查询节点302的查询相关联的占优势的意图是与名为Fidelity的著名的公司相关联的网站。如此处所使用的,“占优势的意图”是指比与特定查询相关联的任何其他可能的查询意图具有更高的对应于用户的实际意图的概率的可能的查询意图。此外,在各实施方式中,图3中的每一个链接306与边缘权重308(此处可互换地简称为“权重”,在图3中在概念上通过所描绘的各种线条样式来表示)相关联, 在一个示例中,边缘权重308可以是特定的查询节点和URL节点对之间作出的点击的统计 (或基于该统计的某种其他值)。在其他实施方式中,也可以使用其他权重定义,如由特定用户作出的点击的统计等等。通过使用根据某些实施方式的技术,可以检查点击图300中的查询的相对大的部分(或者甚至全部)以标识潜在的训练数据。在图3的示例中,点击图300是二分图,其包含表示查询的第一组节点和表示URL的第二组节点,边缘(链接)连接相关联的查询节点和URL节点。在其他实施方式中,也可以使用用于基于点击数据将查询与URL相关联的其他类型的数据结构。另外,点击图300示出了表示对应的单个URL的URL节点。注意,在替换实施方式中,并非每一个URL节点都表示单个URL,节点304可以表示基于某些相似度度量聚集在一起的URL的集群。构建点击图的一种方式是基于收集的点击数据来简单地构成相对大的点击图。在某些情况下,特别是使用已知的方法,这会是效率低下的。如此,为更好地使用已知的方法, 常常使用更加有效的构建点击图的方式,该方式包括,构建紧凑的点击图,然后反复展开点击图,直到点击图到达目标大小。然而,本发明的各实施方式允许使用较大的点击图,免除了生成紧凑的点击图的必要性。例如,在一个实施方式中,可以使用可用的全部点击数据, 来生成与本发明的各方面一起使用的点击图。在某些情况下,搜索服务可以一次地为许多月构建点击日志,这些日志包含每一个查询以及由每一个用户作出的对应的点击的记录。返回到图2,如上文所指出的,训练数据生成器226自动地通过走查(walk)点击图并标识匹配选定的或已标识的种子模式的模式来生成训练数据。根据各实施方式,训练数据生成器2 从用户那里接受域(或子域)作为输入。这样的域可以是,例如,“contoso. go. com”或“contosa. com/football/"的形式。训练数据生成器2 通过查看点击图中的每个URL节点,并选择其URL (至少部分地)匹配域输入中的至少一个的那些节点,来标识点击图中的匹配节点。对于每一个匹配的URL节点,训练数据生成器2 可以将连接到点击图中的该节点的每一个查询,以及该查询的边缘权重,添加到潜在的结果集中,该边缘权重通过检查当发出该查询时为此URL所产生的点击的数量来求得。在某些实施方式中,可能有这样的情况为两个不同的URL节点,添加同一个查询一一在此情况下,例如,训练数据生成器2 可以添加它们的权重。然后,训练数据生成器2 从潜在的结果集中选择其中相对权重(例如,累加的权重除以该查询的印象的总数)超出阈值(例如,0. 1)的那些查询作为训练查询。如此,对于阈值0. 1,查询“chris brown”可能已经导致对所选定的体育URL节点的25 个点击,但是,如果向搜索服务214发出的“chris brown”的总次数大于250,它将不会被用作自动化训练数据。训练数据生成器226向模型生成器232提供所选训练数据。模型生成器232可以是任何类型的程序、模块、API或代码,它们促进诸如,分类器234和实体提取器236之类的模型的生成。在各实施方式中,模型生成器232可以生成模型234和236,并使用由训练数据生成器2 生成的训练数据来训练模型234和236。在某些实施方式中,用户可以与模型生成器232进行交互,以向模型生成过程提供输入。根据本发明的各实施方式,分类器234是用于确定与用户查询相关联的域的二元查询一意图分类器。在其他实施方式中,分类器可以是用于分类传入的用户搜索查询的任何类型的分类器。分类器234可以采取任何数量和类型的数据作为用于分类传入的查询的输入。在各实施方式中,可以使用分类器234来将查询分类为属于或不属于一个特定域。在其他实施方式中,可以使用分类器234来标识查询所对应的域。根据本发明的各实施方式, 可以由于任意数量的原因来使用分类器234,根据本发明的各实施方式,其可以根据任意数量的配置来实现。在各实施方式中,实体提取器236从查询中提取实体,并促进将查询分段为多个部分。实体可包括字母、字符、单词、短语等等。在各实施方式中,实体是可以与另一实体相比较的一些东西。即,例如,实体可以是产品、服务、人、位置、活动等等。根据本发明的各实施方式,实体提取器236可以标识(例如,“提取”)实体、实体的模式、实体之间的关系、关于实体的上下文信息,等等。在各实施方式中,实体提取器236从给定查询中提取实体和实体模式的许多不同的组合。如此处所使用的,“实体模式”是指至少一个实体的任何排列。在各实施方式中,实体模式可包括单一实体、两个实体,或多于两个实体。在一个实施方式中,实体模式包括两个或更多实体之间的关联或关系的表示。例如,实体模式可以反映实体原始搜索查询中的位置。在各实施方式中实体模式可以是指存在于种子URL中的数据的类型。例如,假设选定的种子URL的集合具有与音乐相关联的各种实体,诸如,例如,歌星名称、歌曲标题,以及专辑名称。这三种类型的实体的集合可被称为实体模式,因此,具有这三种类型中的一种类型的实体的任何URL都可以被标识为匹配的URL。通过使用本发明的一些实施方式,可以以自动化方式展开可用于训练查询一意图分类器的训练数据量,以更有效地训练查询一意图分类器和/或实体提取器,并改进这样的分类器和提取器的性能。在某些情况下,利用可以根据一些实施方式获取的大量的训练数据,仅仅使用查询单词或短语作为特征的查询一意图分类器或实体提取器可以相对准确,并可以,例如,增强即时应答服务的利用相关内容动态地对用户作出响应的能力。一旦查询一意图分类器已经被训练,输出查询一意图分类器,用于分类查询。例如,查询一意图分类器可与搜索引擎一起使用。查询一意图分类器能够将在搜索引擎中接收到的查询分类为相对于查询意图是正的或负的。如果是正的,那么,搜索引擎可以调用垂直搜索服务。另一方面,如果查询一意图分类器将接收到的查询分类为对于查询意图是负的,那么,搜索引擎可以执行通用搜索。另外,通过实现本发明的各实施方式,可以生成点击图,并使用该点击图来表示此点击数据的全部。因为在本发明的各实施方式中,不需要手动地标记任何查询或将复杂标记算法应用到点击图,而是选择具有匹配的子域的URL的过程,可以以最少成本的搜索服务生成大量的训练数据。概括起来,本发明描述了用于自动地生成用于训练分类器和/或实体提取器中的正的训练数据的系统、机器、介质、方法、技术、过程和选项。转向图4,示出了流程图,示出了通过利用此处所描述的训练数据生成概念的各方面来增强即时应答服务的示例性方法 500。第一说明性步骤,步骤410,包括捕捉用户查询和对应的点击。在各实施方式中,搜索服务可以捕捉在用户的与搜索服务的交互过程中生成的任意数量的不同类型的点击数据。 根据本发明的各实施方式,捕捉由用户提交的查询,如对应于用户选择的(例如,“点击的”) 搜索结果的URL。在各实施方式中,点击数据可以存储在点击日志中。如步骤412所示,使用捕捉到的点击数据,生成点击图。如上所述,点击图一般包括表示查询的第一组节点和表示URL的第二组节点,边缘(链接)连接相关联的查询节点和URL节点。根据本发明的各实施方式,所生成的点击图可以是任何大小,包括非常大。例如,在一个实施方式中,点击图可包括在某个时间段内(诸如,例如,一周、一个月、年、等等)与每个用户的每个交互相关联的点击数据。在步骤414中,说明性方法400的实施方式包括为分类器或实体提取器自动地生成训练数据。在各实施方式中,可以通过标识具有匹配指定的URL模式的URL节点并为训练数据选择对应的查询来生成训练数据。在步骤416中,使用训练数据来训练分类器和/ 或提取器,如最后一个说明性步骤(步骤418)所示,搜索服务向即时应答服务提供分类器和/或实体提取器,用于促进触发即时应答服务和标识相关即时应答内容。转向图5,流程图描绘了使用分类器和实体提取器来触发即时应答服务的说明性方法500。如说明性第一步骤(步骤510)所示,搜索服务接收用户搜索查询。在步骤512 中,使用分类器来确定查询是否反映用户对于特定域的意图。即,使用分类器来确定用户的搜索是否涉及信息的特定分类,诸如,例如,电影、音乐、图像、职业等等。如步骤514所示,使用实体提取器,将被标识为反映对于特定域的意图的查询分段为诸部分的集合。在各实施方式中,将查询分段为(诸)部分是基于意图的域的特征来进行的。如在图2中进一步示出的,在步骤516中,搜索服务提供意图的域的指示,在步骤 518中,将分段的查询提供给即时应答服务。在步骤520中,搜索服务从即时应答服务接收即时应答(例如,内容、链接等等),在最后一个说明性步骤522中,向用户显示即时应答。
现在转向图6,另一个流程图描绘了用于标识点击数据中的相对于内容域的查询和统一资源定位符(URL)之间的正关联的说明性方法600。在各实施方式中,说明性方法 600包括,如步骤610所示,接收数据结构。在各实施方式中,数据结构包括点击数据,并以这样的方式排列,以将查询与由查询所标识的URL进行关联。根据某些实施方式,数据结构是具有表示查询的第一组节点和表示URL的第二组节点的点击图,边缘连接相关联的查询节点和URL节点。 在步骤612中,标识与内容域相关联的URL模式。在各实施方式中,可以通过检查从数据结构中选择的种子URL的集合来标识URL模式。在其他实施方式中,可以基于正在进行搜索的用户,对即时应答服务的等等,来指定URL模式。在一个实施方式中,也可以标识许多URL模式。显而易见,URL模式包括URL域。在各实施方式中,URL模式还包括至少一个子域,该子域可以是域本身。在各实施方式中,URL模式可以是实体模式,如此处具体参考图2和3所描述的。如步骤614所示,标识匹配的URL。在各实施方式中,匹配的URL是数据结构中的至少部分地匹配URL模式的URL。即,在各实施方式中,匹配的URL的至少一部分与已标识的URL模式相匹配。在本发明的某些实施方式中,标识许多URL模式,匹配的URL是至少部分地与已标识的URL模式中的任何一个或多个相匹配的URL。在更进一步的实施方式中,可以使用任意数量的其他准则来确定匹配的URL。例如,在一个实施方式中,在一个实施方式中有用的,例如,用于训练分类器,URL包括匹配URL模式的URL子域的URL子域。在其他实施方式中,匹配的URL可包括实体模式,该实体模式匹配与种子URL相关联的实体模式。继续参考图6,在步骤616中,标识与每一个匹配的URL相关联的每一个查询,在步骤618中,标识和/或确定每一个相关联的查询的每一个边缘权重。在一个实施方式中,基于当响应于第一查询而提供第一 URL时与第一 URL相关联的许多的点击通过计算函数,来确定与查询相关联的边缘权重。在步骤620中,如图6所示,将已标识的查询以及它们的对应的权重添加到潜在训练数据的集合中。在步骤622中,说明性方法600的各实施方式包括计算潜在的训练查询集合中的每一个查询的意图参数值,在步骤拟4中,将其与阈值进行比较。在各实施方式中,例如,计算意图参数的值包括计算查询的相对权重。根据本发明的各实施方式,查询的相对权重可包括查询的总的累加权重与查询的印象的总数的比率。在某些实施方式中,可以标识附加的与URL相关联的查询。例如,在此情况下,可以将对应于两个关联的边缘相加,以生成查询的总的累加的权重。如最后一个说明性步骤(步骤626)所示,说明性方法600的各实施方式包括确定哪些查询相对于内容域以它们的相关联的URL具有正关联。在各实施方式中,具有这样的正关联的查询(此处可互换地简称为“正的查询”或“正的数据”)可以在点击图或其他数据结构中那样被标记。在某些实施方式中,可以选择正的查询作为用于训练分类器、实体提取器等等的训练数据。确定正的数据可包括将意图参数与阈值进行比较,对查询数据应用概率算法及其他机器学习功能,等等。
现在转向图7,另一个流程图描绘了用于生成正的分类器训练数据的说明性方法 700。根据本发明的各实施方式,说明性方法700包括,在步骤710中,接收将查询与由查询所标识的URL相关联的数据结构。例如,在一个实施方式中,数据结构是具有表示查询的第一组节点和表示URL的第二组节点的点击图,边缘连接相关联的查询节点和URL节点。在步骤712中,说明性方法700的实施方式包括标识URL模式,该模式包括第一 URL域和至少一个URL子域。在步骤714中,通过将数据结构中的URL的子域与已标识的 URL模式进行比较来标识匹配的URL。例如,在一个实施方式中,数据结构中的匹配的URL 是其中匹配的URL的至少一部分与第一 URL域的至少一部分相匹配的那个。在一个实施方式中,第一 URL域包括第一 URL子域,匹配的URL包括第二 URL子域,该第二 URL子域与第一 URL子域相匹配。在步骤716中,标识连接到每一个匹配的URL的每一个查询。如步骤718所示,将每一个已标识的查询添加到潜在训练数据的集合中,如最后一个说明性步骤(步骤718)所示,选择训练查询的集合。在各实施方式中,例如,从潜在训练查询的集合中选择训练查询的集合是基于与匹配的URL相连接的每一个查询的边缘权重来进行的。现在转向图8,另一个流程图描绘了用于从存储了点击数据的数据结构生成实体一提取器培训数据的说明性方法800,其中,该数据结构包括捕捉到的搜索查询和对应于选定的查询结果的统一资源定位符(URL)之间的关联。在第一说明性步骤,步骤810,选择种子URL。在各实施方式中,种子URL可以自动地选择、由用户输入、由网络管理员指定、由应用程序选择,或用来开始过程的选择URL的任何其他合适的方法。另外,在各实施方式中,可以选择许多种子URL,以便URL所共有的模式可以被标识,并用于生成训练数据。在步骤812中,提取实体模式。在各实施方式中,实体模式可以包括单一实体,而在其他实施方式中,实体模式可包括许多实体。实体可以具有任意数量的排列,而在一些实现中,实体的排列与标识正的训练数据有关。在其他实施方式中,训练数据生成器可能只关心实体本身。在某些实施方式中,可以提取任意数量的实体模式。例如,在一个实施方式中, 可以从第一种子URL中选择第一组实体模式,并可以从第二 URL中选择第二组实体模式。在各实施方式中,可以选择两个或更多URL所共有的实体模式。本领域技术人员应了解,可以根据本发明的各实施方式实现前面的任何一个,其组合,其修改等等。如步骤814所示,说明性方法800包括标识数据结构中的匹配的URL。在某些实施方式中,标识数据结构中的匹配的URL包括确定匹配的URL包括实体模式。在一个实施方式中,匹配的URL可包括实体模式和/或实体中的全部。在一个实施方式中,匹配的URL包括实体模式、实体等等的至少一部分。可以使用任意数量的其他合适的准则来确定与一个 URL包括的实体模式的数量相关联的诸如阈值之类的匹配的URL等等。在步骤816中,将每一个相关联的查询以及其权重添加到潜在的训练查询的集合中,在最后一个说明性步骤,步骤818,从潜在的训练查询中选择训练查询的集合。如上文参考为分类器自动生成训练数据所讨论的,可以通过为每一个查询计算意图参数来选择诸如此处所描述的实体提取器之类的实体提取器的训练查询。意图参数可以是,例如,基于每一个查询的边缘权重。此外,可以在数字上,或以其他方式,分析和表征匹配的URL中的所提取的实体模式和模式之间的差别,用于与准则、阈值等等进行比较。本发明的各实施方式是说明性的而非限制性的。在不偏离本发明的各实施方式的范围的情况下,替换实施方式将变得显而易见。可以理解,某些特征和子组合是有用的,并且可以在不参考其他特征和子组合的情况下使用。这由权利要求所构想的,并在权利要求的范围内。
权利要求
1.在其上包含计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令在由与搜索服务相关联的计算设备中的处理器执行时,使所述计算设备执行相对于内容域标识点击数据中的查询和统一资源定位符URL之间的正关联的方法;所述方法包括接收将查询与由所述查询所标识的URL相关联的数据结构;标识与所述内容域相关联的第一 URL模式;确定所述点击图中的第一 URL的至少一部分与所述第一 URL模式相匹配;标识与所述第一 URL相关联的第一查询;以及确定所述第一查询和所述第一 URL相对于所述内容域具有正关联。
2.如权利要求1所述的介质,其特征在于,所述搜索查询包括第一实体,并且,其中确定所述点击图中的所述第一 URL的所述至少一部分与所述第一 URL模式相匹配包括确定所述第一 URL的所述至少一部分包括所述第一实体。
3.如权利要求1所述的介质,其特征在于,所述第一URL模式包括第一 URL域,所述第一 URL域包含第一 URL子域。
4.如权利要求3所述的介质,其特征在于,所述第一URL的所述至少一部分包括第二 URL子域,并且,其中确定所述第一 URL的所述至少一部分与所述第一 URL模式相匹配包括确定所述第二 URL子域与所述第一 URL子域相匹配。
5.如权利要求1所述的介质,其特征在于,确定所述第一查询和所述第一URL相对于所述内容域具有正关联包括计算意图参数的值,其中所述意图参数基于与所述第一 URL相关联的权重;以及确定所述值超出指定的阈值。
6.如权利要求5所述的介质,其特征在于,还包括确定与所述第一查询相关联的第一边缘权重,其中当响应于所述第一查询提供所述第一 URL时,所述第一查询的所述第一边缘权重基于与所述第一 URL相关联的点击的数量,并且,其中计算意图参数的值包括计算所述第一查询的相对权重,所述相对权重包括所述第一查询的总的累加权重与所述第一查询的印象的总数的比率。
7.如权利要求6所述的介质,还包括确定所述第一查询也与所述点击图中的第二 URL相关联;确定所述第一查询的第二边缘权重,其中当响应于所述第一查询提供所述第二 URL 时,所述第一查询的所述第二边缘权重基于与所述第二 URL相关联的点击的数量;以及通过将所述第一边缘权重和所述第二边缘权重相加,来计算所述第一查询的所述总的累加权重。
8.如权利要求1或9所述的方法,其特征在于,所述数据结构是具有表示查询的第一组节点和表示URL的第二组节点的点击图,带有边缘连接相关联的查询节点和URL节点。
9.在其上包含计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令在由与搜索服务相关联的计算设备中的处理器执行时,使所述计算设备执行生成正的分类器训练数据的方法,所述方法包括接收将查询与由所述查询所标识的URL进行关联的数据结构;标识包括第一 URL域的第一 URL模式;标识所述数据结构中的匹配的URL,其中所述匹配的URL的至少一部分与所述第一 URL域的至少一部分相匹配;将与所述匹配的URL相连接的每一个查询添加到潜在训练查询的集合中;以及从所述潜在训练查询的集合中选择训练查询的集合。
10.如权利要求9所述的介质,其特征在于,所述第一 URL域包括第一 URL子域,并且, 其中所述匹配的URL包括第二 URL子域,并且,其中标识匹配的URL包括确定所述第二子域匹配所述第一子域。
全文摘要
本发明揭示了自动生成训练数据的技术。计算机可读介质、计算机系统,以及计算设备促进生成二进制分类器和实体提取器训练数据。选择种子URL,并标识种子URL内的URL模式。标识数据结构中的匹配URL,并将对应的查询以及它们的相关联的权重添加到从其中选择训练数据的潜在的训练数据集中。
文档编号G06F17/30GK102289459SQ20111017895
公开日2011年12月21日 申请日期2011年6月20日 优先权日2010年6月18日
发明者A·麦克戈文, G·比勒, M·纳拉辛汉, P·沃拉, S·阿哈里 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1