搜索系统和相应方法

文档序号:8909170阅读:806来源:国知局
搜索系统和相应方法
【技术领域】
[0001] 本发明设及电子捜索系统,例如电子捜索引擎,化及用于电子捜索的相应的方法。 技术背景
[0002] 传统上,捜索引擎已被设计成返回相关文件(例如网页)来响应用户查询。要做 到该一点,捜索引擎将用户查询(包括关键字)与分配给特定网页的索引项或标签进行比 较。如果用户输入的关键字和网页索引项匹配,则该捜索引擎会返回与用户查询相关的网 页。
[0003] 然而,该方法存在一些缺点。为了使用传统捜索引擎,用户必须将他的捜索查询提 炼成若干相关的关键字,或短问题,并且,在一般情况下,该捜索的结果高度取决于用户对 于关键字的选择。传统捜索引擎并不能处理大量输入文本或自然语言文本。此外,传统捜 索引擎局限于返回一个或多个特定文件作为结果。
[0004] 此外,如果与特定网页相关联的索引项集不包括其中的一个关键字,那么传统捜 索引擎可化会错误地把网页作为不相关的网页丢弃。

【发明内容】

[0005] 本发明提供可W解决传统捜索引擎的弊端的一些捜索系统和捜索方法。
[0006] 本发明设及概率驱动捜索系统,该系统可W考虑到一系列证据源,来将相关的内 容提供给用户。基于明确的捜索查询或某些其它文本输入,本发明的系统和方法使用统计 模型来将相关的内容建议提供给用户,所述统计模型由与可识别的多段内容相关联的数据 集推导出。
[0007] 本发明的第一个方面在于提供了一种捜索系统。所述捜索系统用于:接收文本输 入,针对多段内容中的每一段生成该段内容与给定的文本输入之间存在相关性的似然性的 估计,并选择性地输出作为内容建议的一段或多段最相关的内容。
[0008] 所述捜索系统的优选实施例包括统计模型。所述统计模型在与一段内容相关联的 文本上进行训练,其中所述与一段内容相关联的文本是从多个不同的数据源中提取出的。 该系统用于;接收文本输入,并通过统计模型生成该段内容与给定的文本输入之间存在相 关性的似然性的估计。
[0009] 在一个优选实施例中,统计模型在一些特征上训练,该些特征是从与该段内容相 关联的文本中提取出的。其中所述系统还包括;特征提取机构,其用于从文本输入中提取多 个(一些)特征;W及关联机构,其用于W所述文本输入的各特征查询统计模型,从而生成 该段内容与给定的文本输入之间存在相关性的似然性的估计。
[0010] 优选地,所述系统包括在与多段内容相关联的文本上训练的多个统计模型。所述 系统用于;通过与多段内容中的每一段相关联的统计模型,生成所述多段内容中的各段内 容与给定的文本输入之间存在相关性的似然性的估计。
[0011] 所述系统可用于根据相关性将所述多段内容排序,并确定一段或多段最相关的内 容。
[0012] 所述系统可用于输出所述一段或多段最相关的内容中的各段内容的至少一个代 表。
[0013] 所述系统可用于输出一段或多段最相关的内容。
[0014] 该段内容可W是特定的实体或与特定实体相关联的内容。
[0015] 所述系统可用于输出与所述一段或多段最相关的内容相关联的一个或多个实体 的至少一个代表。
[0016] 所述系统可W包括在与一段或多段内容有关的非文本数据上训练的统计模型。优 选地,所述系统用于接收非文本证据,并通过在非文本数据上训练的统计模型,生成该段内 容与给定的非文本证据之间存在相关性的似然性估计。
[0017] 所述系统可W包括用于对文本输入进行分类的分类器。
[0018] 所述分类器可W用于对多个在文本上训练的统计模型中的每一个模型按内容类 型分类,对文本输入按内容类型分类,并确定与所述文本输入属于相同内容类型的多个统 计模型的子集。优选地,所述关联引擎用于W文本输入的各特征来查询统计模型的子集的 各统计模型,W生成与所述模型的子集的各模型相关联的各段内容与给定的文本输入之间 存在相关性的似然性估计。
[0019] 所述系统可W包括在自然语言文本上训练的第一语言模型和在对话文本上训练 的第二语言模型。所述分类器可W用于将一部分文本输入与第一、第二模型进行比较,W将 该部分文本输入分类为自然语言或对话语言。优选地,如果该部分文本输入分类为对话语 言,则所述系统用于丢弃该部分文本输入。
[0020] 文本输入可W通过用户输入到系统中。可替代地,文本输入不通过用户输入到系 统中。例如,无需用户干预,将文本输入提供给系统,例如该系统可接收来自,但不限于,电 视或无线电广播、因特网网页、电子邮件会话、新闻推送等的文本输入。
[0021] 所述系统可W用于根据多个证据源生成多段内容的相关性的似然性估计,其中所 述多个证据源之一是文本输入。所述系统因此可W用于接收多个证据。
[0022] 优选地,所述系统包括内容数据库,在该内容数据库中各段内容与多个数据集类 型(例如文本、用户点击历史等)相关联。优选地,各段内容与内容类型(例如,电影、文献 等)相关联。优选地,所述内容数据库包括至少一种基于语言的与各段内容相关联的统计 模型,其中所述至少一个基于语言的统计模型在与所述一段内容相关联的文本数据集上训 练。优选地,所述系统用于将所述输入文本提供给多个基于语言的统计模型,W生成各段内 容与给定的输入文本之间存在相关性的似然性估计。优选地,所述系统除使用输入文本之 夕F,还使用非文本证据来生成该似然性估计。
[0023] 基于语言的统计模型是在文本上训练过的统计模型。
[0024] 本发明的第二个方面在于,提供一种用于提供一个或多个内容建议的捜索内容的 方法。所述方法包括;接收文本输入,对多段内容中的各各段内容,生成该段内容与给定的 文本输入之间存在相关性的似然性估计,并选择性地输出作为内容建议的一段或多段最相 关的内容。
[0025] 在一优选实施例中,所述方法为用于确定一段内容是否与文本输入相关的方法。 所述方法包括:在捜索系统接收文本输入,并通过在与一段内容相关联的文本上训练的统 计模型,生成该段内容与给定的文本输入之间存在相关性的似然性估计。所述与该段内容 相关联的文本是从多个不同的数据源中提取出的。
[0026] 在一优选实施例中,所述统计模型在从与该段内容相关联的所述文本中提取的特 征上训练。所述方法进一步包括;通过特征提取机构从所述文本输入中提取特征,并通过关 联机构W文本输入的各特征查询统计模型,W生成该段内容与给定的文本输入之间存在相 关性的似然性估计。
[0027] 优选地,所述方法包括使用了与多段内容相关联的文本上训练的多个统计模型的 似然性估计生成步骤,所述似然性估计生成步骤具体为:通过与所述多段内容中的各段内 容相关联的统计模型,生成多段内容中的各段内容与给定的文本输入之间存在相关性的似 然性估计
[0028] 所述方法可W进一步包括;根据相关性将所述多段内容排序,并确定一段或多段 最相关的内容。
[0029] 所述方法可W进一步包括;输出所述一段或多段最相关的内容中的各段内容的至 少一个代表。
[0030] 所述方法可W进一步包括;输出一段或多段最相关的内容。
[0031] 所述一段内容可W是特定的实体。所述一段内容可W与特定实体相关联,所述方 法进一步包括:输出与所述一段或多段最相关的内容相关联的一个或多个实体的至少一个 代表。
[0032] 所述方法可W包括;通过在与一段或多段内容相关的非文本数据上训练的统计模 型,生成多段内容中的各段内容与给定的非文本数据之间存在相关性的似然性估计。
[0033] 本发明的一个实施例中,所述方法包括;通过分类器对文本输入进行分类。
[0034] 所述方法可W包括;通过分类器对在文本上训练的所述多个统计模型中的每一个 按内容类型分类,对文本输入按内容类型分类,W及确定与所述文本输入属于相同内容类 型的多个统计模型的子集。
[00巧]所述方法包括;通过所述关联引擎,W文本输入的各特征来查询统计模型的子集 的各统计模型,W及生成各段内容与给定的文本输入之间存在相关性的似然性估计,其中 所述各段内容与所述模型的子集的各模型相关联。
[0036] 所述系统可W包括;在自然语言文本上训练的第一语言模型和在对话文本上训练 的第二语言模型,而所述方法可W包括;通过分类器,将一部分文本输入与第一、第二模型 进行比较;并将该部分文本输入分类为自然语言或对话语言。所述方法可W进一步包括: 当该部分文本输入分类为对话语言时丢弃该部分文本输入。
[0037] 所述文本输入可W通过用户输入到系统中。可替代地,所述文本输入不通过用户 输入到系统中。
[0038] 优选地,根据多个证据源生成所述多段内容的相关性的似然性估计,其中所述多 个证据源之一是文本输入。所述方法可W包括;接收一个或多个额外的证据。
[0039] 优选地,生成上述估计的步骤包括:除了基于输入文本外还基于非文本证据进行 估计。
[0040] 本发明的第=个方面在于,提供了一种包括计算机可读介质的计算机程序产品, 在所述计算机可读介质上存储有计算机程序手段,该计算机程序手段用于使处理器执行W 上所描述的任何一种方法。
【附图说明】
[0041] 通过参考下面的附图,进一步的解释本发明。
[0042] 图1是根据本发明的高层系统架构的方框图。
[0043] 其中,图1中各标记分别为;用户5,关联引擎10,内容数据库20,内容建议30,多 个证据源50,其它证据51,内容类型证据52,用户证据53,语境证据54,焦点证据55,分类 器60。
【具体实施方式】
[0044]"内容"为本领域技术人员所公知的术语,并且可包括,但不限于W下之一;文件、 新闻报道、视频、图像、应用程序、声音片段、文本片段等。在本申请的上下文中,"一段内容" 指特定内容(例如,特定的电影、书籍、新闻报道、应用程序等),所述特定内容与从多个不 同的数据源(例如,转入应用程序的链接、应用程序的文本、对于该应用程序的评论、应用 程序的下载数量等)中提取的数据相关联,该种数据可W包括文本和非文本(如点击历史 记录)数
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1