用于众包领域特定情报的设备、系统和方法

文档序号:9794081阅读:300来源:国知局
用于众包领域特定情报的设备、系统和方法
【专利说明】用于众包领域特定情报的设备、系统和方法
[0001]与相关申请的交叉引用
[0002]根据35U.S.C.§119(e),本申请要求享有以下申请的在先申请日:
[0003].美国临时专利申请,序列号61/799,986,申请日为2013年3月15日,发明名称为“用于分析和使用基于位置的行为的系统”;
[0004].美国临时专利申请,序列号61/800,036,申请日为2013年3月15日,发明名称为“地理位置描述符和链接符”;
[0005].美国临时专利申请,序列号61/799,131,申请日为2013年3月15日,发明名称为“用于众包领域特定情报的系统和方法”;
[0006].美国临时专利申请,序列号61/799,846,申请日为2013年3月15日,发明名称为“具有分批处理和实时数据处理的系统”;以及
[0007].美国临时专利申请,序列号61/799,817,申请日为2013年3月15日,发明名称为“用于向位置实体分配分数的系统”。
[0008]本申请还与以下申请有关:
[0009].美国专利申请,序列号14/214,208,申请日与本申请的申请日相同,发明名称为“用于分析对象实体的移动的设备、系统和方法”;
[0010].美国专利申请,序列号14/214,296,申请日与本申请的申请日相同,发明名称为“用于提供位置信息的设备、系统和方法”;
[0011].美国专利申请,序列号14/214,213,申请日与本申请的申请日相同,发明名称为“用于众包领域特定情报的设备、系统和方法”;
[0012].美国专利申请,序列号14/214,219,申请日与本申请的申请日相同,发明名称为“用于分批处理和实时数据处理的设备、系统和方法”;
[0013].美国专利申请,序列号14/214,309,申请日与本申请的申请日相同,发明名称为“用于分析感兴趣的实体特性的设备、系统和方法”;以及
[0014].美国专利申请,序列号14/214,231,申请日与本申请的申请日相同,发明名称为“用于分组数据记录的设备、系统和方法”。
[0015]上述所引用的每个申请的全部内容(包括临时申请和正式申请)通过引用包含在本文中。
技术领域
[0016]本公开总的涉及用于众包(“crowdsourcing”)领域特定情报的系统和方法。
【背景技术】
[0017]每天都会创建大量信息。社交网络站点和博客站点每天都会接收上百万的新发布,并且正在不断创建新的网页以提供关于个人、地标、商业或任何其它人们关注的实体的信息。此外,信息通常不是可以从单个资源库获得,而是通常分布在经常遍布全世界的上百万个资源库中。
[0018]由于信息的巨大体量和分布的本质,人们很难有效消费信息。针对解决此问题,数据分析系统可以(I)使用网络爬虫收集信息,以及(2)创建有意义的信息概要从而使得信息可以容易被消费。
[0019]要创建这样的有意义的概要,数据分析系统通常预处理(或清理)信息从而从所收集的信息中检测(例如查找或锚定)和取回(例如抽取)相关数据。为此目的,数据分析系统可以使用数据处理模块来搜索具有已知格式或结构的数据。遗憾的是,某些特定领域中数据的格式或结构能够是按照非常规方式的。因此,必须使用领域特定情报来调整数据处理模块以适应特定领域,从而使得数据处理模块能够从大量信息中检测相关数据。
[0020]遗憾地是,单个软件程序员可能不具有领域特定情报,也不具有针对所有感兴趣的领域来恰当修改数据处理模块的能力。因此,需要用于向数据处理模块提供领域特定情报的有效机制。

【发明内容】

[0021]—般来说,一方面,所公开的主题的实施例可以包括设备。设备被配置为众包来自多人的领域特定情报。设备可以包括一个或多个接口,所述接口被配置为提供与第一多个计算装置和第二多个计算装置的通信,其中,所述第一多个计算装置中的一个由具有特定领域知识的所述多人中的一人操作。设备还可以包括处理器,所述处理器与所述一个或多个接口通信并且被配置为运行一个或多个模块。所述一个或多个模块可操作使得所述设备从所述第一多个计算装置接收多个数据处理规则(DPR)模块,其中,所述多个DPR模块中的一个被调整得适于在特定领域中使用,并且所述多个DPR模块中的一个由所述多人中的一人基于所述特定领域知识来提供;以及将所述多个DPR模块组合到第一DPR模块包中从而将所述特定领域知识提供为包。
[0022]—般来说,一方面,所公开的主题的实施例可以包括用于众包来自多人的领域特定情报的方法。所述方法可以包括由设备中的一个或多个接口提供与第一多个计算装置和第二多个计算装置的通信,其中,所述第一多个计算装置中的一个被配置为由具有特定领域知识的所述多人中的一人操作;在所述设备中的数据处理规则众包(DPRC)模块处接收来自所述第一多个计算装置的多个数据处理规则(DPR)模块,其中,所述多个DPR模块中的一个被调整得适于在特定领域中使用,并且所述多个DPR模块中的一个由所述多人中的一人基于所述特定领域知识来提供;以及将所述多个DPR模块组合到第一DPR模块包中从而将所述特定领域知识提供为包。
[0023]—般来说,一方面,所公开的主题的实施例可以包括非瞬时性计算机可读介质。非瞬时性计算机可读介质可以包括可执行指令,所述可执行指令可操作使得数据处理设备由所述设备中的一个或多个接口提供与第一多个计算装置和第二多个计算装置的通信,其中,所述第一多个计算装置中的一个被配置为由具有特定领域知识的多人中的一人操作;在所述设备中的数据处理规则众包(DPRC)模块处接收来自所述第一多个计算装置的多个数据处理规则(DPR)模块,其中,所述多个DPR模块中的一个被调整得适于在特定领域中使用,并且所述多个DPR模块中的一个由所述多人中的一人基于所述特定领域知识来提供;以及将所述多个DPR模块组合到第一 DPR模块包中从而将所述特定领域知识提供为包。
[0024]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于向所述第二多个计算装置发送DPR模块请求,请求所述第二多个计算装置提供用于预定领域的DPR模块,其中,所述DPR模块请求包含指示所请求的DPR模块的功能需求的信息。
[0025]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于从所述第二多个计算装置中的一个接收所请求的DPR模块并且确定所请求的DPR模块满足所述功能需求。
[0026]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于从所述第二多个计算装置中的一个接收所请求的DPR模块,其中,所述第二多个计算装置中的一个配置为确定由所述设备接收的DPR模块满足所述功能需求。
[0027]在本文所公开的实施例的任意一个中,所述多个DPR模块配置为在虚拟机上操作。
[0028]在本文所公开的实施例的任意一个中,所述多个DPR模块配置为在能够运行从两个或更多个语言编译的机器代码的系统上操作。
[0029]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于向与所述设备通信的服务器发送所述第一 DPR模块包以用于在所述服务器处使用。
[0030]在本文所公开的实施例的任意一个中,所述多个DPR模块中的一个被配置为调用在第二 DPR模块包中的DPR模块,并且所述设备、方法或非瞬时性计算机可读介质可以进一步包括用于维持所述第一 DPR模块包和所述第二 DPR模块包之间的依赖关系的模块、步骤或可执行指令。
[0031]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于向所述服务器发送除了所述第一 DPR模块包之外还发送所述第二 DPR模块包。
[0032]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于维持资源,并且所述多个DPR模块中的一个配置为使用所述资源来提供上下文感知功能。
[0033]在本文所公开的实施例的任意一个中,所述设备、方法或非瞬时性计算机可读介质可以包括模块、步骤或可执行指令以用于提供应用编程接口(API)从而使得外部系统能够使用由所述设备维持的所述多个DPR模块中的一个。
【附图说明】
[0034]参考以下结合附图来考虑的详细说明可以更好了解本公开的多种对象、特征和优势,在附图中,相似的参考编号识别相似元素。以下附图仅用于说明目的,并且不用于限制所公开的主题。本文所公开的主题的范围在随后的权利要求中载明。
[0035]图1示出根据一些实施例的数据分析系统;
[0036]图2示出根据一些实施例的用于收集数据处理规则(DPR)模块的过程;
[0037]图3示出根据一些实施例的示例性DPR模块;
[0038]图4示出根据一些实施例的树状结构的包的依赖关系;
[0039]图5示出根据一些实施例的DP引擎组件之间的关系;
[0040]图6示出根据一些实施例的用于实例化universe以调用包中的DPR模块的的过程。
【具体实施方式】
[0041]要处理来自具体领域的信息,数据分析系统可以使用对于该具体领域特定的情报。例如,数据分析系统可以接收包含根据意大利标准格式的手机号码的网页。根据意大利标准,所有座机电话号码起始位为“4”,所有移动电话号码起始位为“3”。除非数据分析系统知道该领域特定情报,数据分析系统可能不能恰当处理意大利电话号码来确定电话号码究竟是座机号码还是移动电话号码。
[0042]在一些情况下,可以将该领域特定情报作为数据处理规则模块提供给数据分析系统。数据处理规则模块可以包括作为具有预定格式的可操作检测信息的指令。
[0043]在一些情况下,可以由单个个人提供数据处理规则模块。但是,当存在很多从其中可以接收信息的领域时,单个个人可能不能建立用于所有感兴趣领域的数据处理规则模块。即使如果这个人可以学习所有领域特定规则并且建立用于所有感兴趣领域的数据处理规则模块,这也可能不是这个人的时间的最有效的利用方式。
[0044]本公开提供用于众包领域特定情报的设备、系统和方法。由于数据分析系统可以接收领域特定情报作为数据处理规则模块,数据分析系统可以请求一群软件开发者或其他能够学习领域特定语言的个人,所述领域特定语言能够用简化的规则来表达领域特定知识,从而提供被调整得适于处理来自具体领域的具体类型信息的数据处理规则模块。当数据分析系统从软件开发者的其中之一接收用于具体领域的数据处理规则模块时,数据分析系统可以使用所接收的数据处理规则模块来处理已知与该具体领域相关联的信息。所公开的众包机制可以通过向软件开发者提供大问题的多种部分从而促进来自各种各样领域的软件开发者的协作。所公开的众包机制可以通过请求单个组织的软件开发者提供领域特定数据处理规则模块从而在该同一组织内使用。
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1