检测和执行数据的重新摄入以提高自然语言处理系统的准确性的利记博彩app
【技术领域】
[0001] 本发明设及管理语料库中的数据源,并且更具体地,设及识别用于摄入到语料库 中的新数据源或确定语料库中存储的当前数据源是否过时。
【背景技术】
[0002] 自然语言处理(NL巧是关注计算机和人类语言之间的交互的计算机科学、人工智 能和语言学的一个领域。为了与人类进行交互,自然语言计算系统可W使用被解析并注释 的数据存储(即;语料库)。例如,计算系统可W利用语料库,通过将问题与数据存储中的 注释相关联W识别由人类用户提出的问题的答案。
[0003] 在自然语言处理计算系统能够和用户进行交互之前,语料库由不同的文本文档填 充。此外,注释器可W解析语料库中的文本W生成有关文本的元数据。利用元数据和存储 的文本,自然语言处理计算处理计算系统可W与用户交互W例如,答案一个提出的问题、基 于提供的症状诊断疾病、评估金融投资等。从某种意义上来说,语料库就像自然语言计算系 统的"大脑"。
[0004] US8140335公开了一种会话式自然语言语音用户界面,可W提供集成语音导航服 务环境。该语音用户界面可W使用户能够提出与各种导航服务有关的自然语言请求,并且 进一步可-种合作、对话的方式与用户交互来解决请求。除此之外,通过动态意识到上 下文,信息、领域知识、用户行为和偏好的可用资源,W及外部系统和设备,语音用户界面可 W提供集成环境,其中用户可W对话式地、利用自然语言发出查询、命令或其他与环境中提 供的导航服务有关的请求。
[0005] US7562009公开了一种用于自然语言处理的系统和方法,包括一种用于提供共享 知识库的黑板数据结构,其上,自然语言代理集合可W在可处理数据表格上执行处理,每个 代理能够提供可用于服务请求的处理资源,W在可处理数据表格上执行自然语言处理,并 且基于他们各自的能力W及对黑板的检查确定他们能够对用于处理的哪些请求提供最好 地服务;W及用于协调注册代理的工作的分配器,维护要完成任务的高级描述W向给定的 自然语言工程问题提供解决方案,并确定能够向给定的自然语言工程问题提供最好地解决 方案的注册代理。
[0006] US6601026公开了一种自然语言信息查询系统,包括被配置为基于一个或多个预 定义的语法自动生成更新文本源的索引的索引机构,W及与该索引机构禪合W存储用于后 续检索的索引的数据库。
【发明内容】
[0007] 该里描述的实施例包括一种系统、计算机程序产品和方法,用于接收用于由自然 语言处理系统处理的查询并通过将查询的一个或多个元素与数据源关联来识别与查询相 关的数据源。当确定相关的数据源不在自然语言处理系统的语料库中,系统和计算机程序 产品将相关的数据源摄入到语料库中。当确定相关的数据源在自然语言处理系统的语料库 中,系统和计算机程序产品确定与查询关联的时间敏感度的值,指示查询的准确答案依赖 于相关的数据源的过时性的程度。当确定时间敏感度的值满足过时性的阔值,系统和计算 机程序产品将相关的数据源重新摄入到语料库中。
[000引根据第一方面,提供了一种用于维护自然语言处理(NL巧系统中语料库的系统, 包括;存储器,包括程序,当程序在计算机处理器上执行时执行W下操作:响应于接收用于 由所述自然语言处理系统处理的查询,通过将所述查询的一个或多个元素与所述数据源关 联识别与所述查询相关的数据源;当确定所述相关的数据源不在所述自然语言处理系统的 语料库中,将相关的数据源摄入到所述语料库中;W及当确定所述相关的数据源在所述自 然语言处理系统的所述语料库中;确定与所述查询关联的时间敏感度的值,指示所述查询 的准确答案依赖于所述相关的数据源的过时性的程度,并且当确定所述时间敏感度的值满 足过时性的阔值,将所述相关的数据源重新摄入到所述语料库中。
[0009] 优选地,所述操作进一步包括在W下之一之后执行自然语言处理(NL巧技术将所 述查询与所述语料库进行比较W识别所述查询的至少一个答案;(i)将所述相关的数据源 摄入到所述语料库中W及(ii)将所述相关的数据源重新摄入到语料库中;W及将所述至 少一个答案传输至提交所述查询的实体。更优选地,识别所述相关的数据源进一步包括解 析所述查询W识别提供数据源的查询的元素;通过为所述至少一个元素分配主题将所述查 询的至少一个元素特征化;W及通过将所述主题与与不同数据源关联的多个主题进行比较 识别相关的数据源。更优选地,确定与所述查询关联的所述时间敏感度的值进一步包括:执 行概念映射W为所述查询中的至少一个元素分配概念;当确定所述概念与持续时间或时间 相关,则基于所述概念中指定的持续时间或时间分配所述时间敏感度的值;W及当通过将 所述概念与预定义的依赖于时间的概念的列表进行匹配确定所述概念依赖于时间,则基于 所述概念的所述时间依赖性分配所述时间敏感度的值。
[0010] 优选地,确定所述时间敏感度的值满足所述过时性的阔值进一步包括通过将与所 述相关的数据源关联的时间戳与所述时间敏感度的值进行比较确定所述相关的数据源是 否过时。更优选地,所述操作进一步包括,在摄入或重新摄入所述数据源之前,从提交所述 查询的用户接收将所述数据源摄入或重新摄入到所述语料库的许可。更优选地,所述语料 库包括来自不同数据源的多个数据,其中所述不同数据源的所述数据基于所述语料库中的 通用格式进行组织。
[0011] 根据第二方面,提供了一种用于维护自然语言处理(NL巧系统中语料库的计算机 程序产品,该计算机程序产品包括;计算机可读存储介质,其上具有计算机可读程序代码, 该计算机可读程序代码包括计算机可读程序代码,配置用于;响应于接收用于由自然语言 处理系统处理的查询,通过将所述查询的一个或多个元素与数据源关联识别与所述查询相 关的数据源;当确定所述相关的数据源不在所述自然语言处理系统的所述语料库中,将所 述相关的数据源摄入到所述语料库中;W及当确定所述相关的数据源在所述自然语言处理 系统的所述语料库中:确定与所述查询关联的时间敏感度的值,指示所述查询的准确答案 依赖于所述相关的数据源的过时性的程度,并且当确定所述时间敏感度的值满足过时性的 阔值,将所述相关的数据源重新摄入到所述语料库中。
[0012] 根据第S方面,提供了一种用于维护自然语言处理(NL巧系统中语料库的方法, 包括;响应于接收用于由所述自然语言处理系统处理的查询,通过将所述查询的一个或多 个元素与数据源关联识别与所述查询相关的数据源;当确定所述相关的数据源不在所述自 然语言处理系统的语料库中,将所述相关的数据源摄入到所述语料库中;W及当确定所述 相关的数据源在所述自然语言处理系统的所述语料库中:确定与所述查询关联的时间敏感 度的值,指示所述查询的准确答案依赖于所述相关的数据源的过时性的程度,并且当确定 所述时间敏感度的值满足过时性的阔值,将所述相关的数据源重新摄入到所述语料库中。
【附图说明】
[0013] 为使W上列举的方面能够更加详细地被理解,可W通过参考所附附图对W上简要 总结的本发明的实施例进行更具体的描述,其中:
[0014] 图1是根据描述的一个实施例的用于将文档从数据源摄入到自然语言处理系统 的语料库中的流程图;
[0015] 图2是根据描述的一个实施例的用于识别用于摄入或重新摄入到语料库中的数 据源的流程图;
[0016] 图3是根据描述的一个实施例的用于通过将接收的查询中的元素特征化识别数 据源的流程图;
[0017] 图4是根据描述的一个实施例的用于向查询分配时间敏感度的值W确定是否重 新摄入数据源的流程图;
[0018] 图5是根据描述的一个实施例的用于确定何时重新摄入数据源W向接收的查询 提供补充答案的流程图;
[0019] 图6是根据描述的一个实施例的自然语言处理系统的系统框图。
[0020] 为了便于理解,在可能的情况下,附图中相同的元件尽可能使用相同的附图标记 来表示。可W预期,在一个实施例中公开的元件可W在不进行特别说明的情况下由其他的 实施例有效地利用。
【具体实施方式】
[0021] 用于自然语言处理系统的数据存储可W包括来自多个不同数据源-例如期刊、网 站、杂志、参考书、教科书等的信息。在一个实施例中,来自数据源的信息或文本被转换成单 一、共享的格式并且在数据存储(即;语料库)中作为对象存储。例如,期刊中的文章与百 科全书中的条目可能W不同的方式格式化。此外,为了印刷各自的文章,不同期刊可能具有 不同的格式。因此,为了摄入具有各自格式的不同文档,自然语言处理系统可W将文档进行 预处理,W将不同的格式变成标准化格式(该里也称为"通用格式")。如本文使用的,数据 源的格式包括其中文本安排的方式。格式可W包括不同的格式元素,例如节头、段头、标记 语言中的元素(例如HTML和XML的标签)等。此外,数据源使用的格式可W指定格式元素 的特定层次或次序-例如;介绍部分,然后是一般性讨论部分,然后是结论部分。该里,将数 据源添加至语料库的过程通常被称为摄入。
[0022] 一旦数据源被摄入,接收的查询可W被注释并与语料库中存储的数据进行比较。 基于比较,自然语言处理系统可W在语料库中识别查询的一个或多个答案。然而,一些例子 中,包含查询答案的数据源可能不在语料库中,或者语料库可能包含提供不准确答案的过 时数据。当接收到查询,自然语言处理系统可w对查询进行评估w识别可能包含查询的答 案的数据源。如果数据源当前不在语料库中,自然语言处理系统可W摄入该数据源。如果 数据源已经被摄入到语料库中,自然语言处理系统可W确定与查询的至少一部分关联的时 间敏感度的值。然后,可W利用该值确定是否应该重新摄入数据源-例如,语料库中包含的 信息可能过时的。
[0023] 在另一个实施例中,在自然语言处理系统将查询与语料库进行比较W识别查询的 答案之后,自然语言处理系统可W尝试识别可能包含更准确答案的一个或多个补充数据 源。为了达到此目的,自然语言处理系统可W识别与查询中的不同元素关联的一个或多个