专利名称:动态数据采集装置的利记博彩app
技术领域:
本实用新型涉及的是一种面向互联网“暗网”(De印Web)动态数据资源的分布式 采集装置,属于分布式动态采集技术领域。
背景技术:
对于企业竞争情报领域,用户需要从广泛的互联网领域里寻找对自己有用的或者 不利的信息,而通过普通的搜索引擎很难达到用户的目的,原因之一是搜索引擎分散导致 很难获取完整的数据,二是搜索引擎只能获取静态的网页数据,而不能获得动态数据,也不 能获取通过检索引擎等查询接口的数据,更不能获取企业内部数据或者购买的商业数据, 这些数据都是De印Web数据。而且,静态的网页数据只是占了整个Web数据的很小一部分, 远远不能满足用户的需求。对于学术研究领域,用户希望获取资源的范围越广泛越好,越专业越好。而专业领 域的数据大多是属于Deep Web数据,往往不能通过普通的搜索引擎获取,而是通过自建数 据库、专业的搜索引擎或者购买的商业数据库获取。
实用新型内容为解决现有技术存在的问题,本实用新型的目的在于提供一种动态数据采集装 置,能够对采集任务进行动态策略制定,均衡调度、逻辑控制对分布式负载进行采集,从而 获得互联网深层动态数据。本实用新型所述动态数据采集装置的技术方案如下所述动态数据采集装置,包括调度管理单元、调度控制单元、采集单元以及发布单 元,其中所述调度管理单元分别与调度控制单元、采集单元以及发布单元相连接,用于接收 需要采集的词库或采集的检索条件,创建采集任务和动态采集策略,并存储采集结果;所述 调度控制单元分别与调度管理单元和采集单元相连接,用于对调度管理单元创建的采集任 务进行分析,并控制所述采集单元进行采集;所述采集单元分别与调度控制单元和调度管 理单元相连接,用于采集动态数据;并且所述发布单元与调度管理单元相连接,用于发布经 调度管理单元过滤和存储后的采集结果。其中,所述调度管理单元还包括对采集所需词库进行管理的词库管理子单元、对 采集任务进行配置和管理的调度管理子单元以及用于存储采集结果的存储子单元。进一步,所述词库管理子单元包括词库建立模块、词库补充模块以及检索条件模 块。所述调度管理子单元包括创建任务模块、选择数据来源模块、策略制定与更改模 块以及过滤存储设置模块。并且,所述存储子单元包括索引模块以及主题模块。所述调度控制单元包括分析子单元以及分布式调度控制子单元。优选的,所述调度控制单元是分布式负载均衡调度逻辑控制器;
3[0013]所述采集单元包括面向TOB资源的自动化采集器以及面向协议资源的自动化采 集器;所述发布单元是采集库发布管理平台。进一步,所述调度管理子单元是采集任务调度管理系统;所述词库管理子单元是采集模拟词库管理系统;所述存储子单元是采集存储调度系统。并且,所述索引子模块是索引数据库模块;所述主题子模块是主题数据库模块。具体来讲,所述动态数据包括动态网页数据、商业数据、开放存储数据以及企业内 部数据。本实用新型所述动态数据采集装置,能够对采集任务进行动态策略制定,均衡调 度、逻辑控制对分布式负载进行采集,从而获得互联网深层动态数据。
图1是本实用新型动态数据采集装置的结构示意图;图2是本实用新型动态数据采集装置的另一种结构示意图;图3是本实用新型调度管理单元的结构示意图;图4是本实用新型动态数据采集装置的最佳实施例结构示意图;图5是本实用新型最佳实施例中创建采集任务的界面图;图6是本实用新型最佳实施例中选择数据资源的界面图;图7是本实用新型最佳实施例中制定采集策略的界面图;图8是本实用新型最佳实施例中采集资源库的程序运行图;图9是本实用新型最佳实施例中发布采集数据的界面图。
具体实施方式
本实用新型提供了一种动态数据采集装置,所述装置与通用搜索引擎的面向静态 网页链接分析机制不同,具有均衡调度、逻辑控制采集互联网深层动态数据的功能,能够根 据用户的检索条件,创建不同的采集任务,制定不同的动态采集策略,实现对动态数据的快 速采集。下面通过具体实施例对所述动态数据采集装置进行说明。如图1所示,本实用新型所述动态数据采集装置包括调度管理单元、调度控制单 元、采集单元以及发布单元,所述调度管理单元用于输入主题词库或检索条件、创建采集任 务、采集策略,由所述调度控制单元进行分析,并控制所述采集单元进行采集,采集结果通 过调度管理单元进行过滤存储后,通过所述发布单元进行发布。本实用新型所述装置中,调度管理单元和调度控制单元是核心单元。其中调度管 理单元用于输入主题词库或检索条件、制定动态数据采集任务,对采集到的动态数据进行 过滤和存储。在采集过程中,根据用户需要可以对采集策略进行中止、暂停以及修改。调度 控制单元用于对采集任务及策略进行智能算法分析,并逻辑控制采集单元对分布式负载进 行采集。[0035]其次,采集单元用于对分布式服务器系统的动态数据进行采集;发布单元用于对 采集结果进行发布。如图2所示,在所述动态数据采集装置中,调度管理单元进一步包括词库管理子 单元、调度管理子单元以及存储子单元。其中,如图3所示,词库管理子单元包括词库建立 模块、词库补充模块以及检索条件模块,其中词库建立模块用于输入主题词库;所述词库补 充模块用于对主题词库进行补充;所述检索条件模块用于输入检索条件。调度管理子单元 还包括创建任务模块、选择数据来源模块、策略制定与更改模块以及过滤存储设置模块。所 述调度管理子单元具有定制功能,可以根据用户需要创建采集任务、选择数据来源、设置过 滤条件、存储方式以及制定采集策略等,并可以根据调度控制单元的反馈信息进行策略的 更改;存储子单元包括索引模块以及主题模块,用于对采集单元采集的数据信息进行存储。如图2所示,在所述动态数据采集装置中,调度控制单元进一步包括分析子单元 以及分布式调度控制子单元。其中,所述分析子单元用于对调度管理单元制定的各种任务 及策略等进行智能算法分析;分布式调度控制子单元用于根据分析子单元的分析结果,均 衡调度逻辑控制采集单元对分布式负载进行数据采集。概括说来,本实用新型所述动态数据采集装置的原理如下根据用户输入的主题词库或检索条件生成对应的检索条件,并根据采集任务、数 据来源以及采集策略,对分布式负载进行模拟访问并解析返回的数据信息;根据用户设定 的过滤规则对返回的数据信息进行过滤;过滤后的信息按照用户设定的格式和设置进行存 储,并根据索引设置进行字段索引处理;采集过程中,用户可以对采集策略进行调整,例如 可以调整采集的时间、周期、存储策略,还可以暂停或重启采集的子任务等;最后采集的结 果(包括调度信息)通过发布单元进行发布。综上所述,所述动态数据采集装置通过对分布式负载进行均衡调度以及逻辑控 制,实现了对互联网深层动态数据的采集。下面结合实际,详细说明一下本实用新型的最佳实施例。本实用新型最佳实施例中,分布式负载采用分布式服务器数据库系统,并且在动 态数据采集装置安装中已经根据用户需求预先配置好了所有可以进行采集的数据来源列表。如图4所示,本实用新型最佳实施例采用如下的设置方式调度控制单元是分布式负载均衡调度逻辑控制器,分布式负载均衡调度逻辑控制 器用于基于智能分析算法对采集任务以及调度策略进行分析,并对采集进行均衡调度、逻 辑控制;所述分布式负载均衡调度逻辑控制器可以为多个,分别布置在不同的主机,也可以 进行级别设置,扩展采集的功能。采集单元包括面向Web资源的自动化采集器以及面向协议资源的自动化采集器, 所述面向Web资源的自动化采集器和面向协议资源的自动化采集器分别为多个,用于对分 布式负载进行数据采集。发布单元是采集库发布管理平台,主要采用的是自建主题采集库发布管理平台, 用于对采集的数据信息进行分类管理以及应用发布。其次,调度管理子单元是采集任务调度管理系统,采用人机交互界面,可以设置采 集任务、存储设置、采集策略等;词库管理子单元是采集模拟词库管理系统,用于输入主题
5词库或检索条件,按照过滤条件,对采集的数据信息的特征词库进行过滤,并对原有词库进 行补充;存储子单元是采集存储调度系统,包括索引数据库和主题数据库。本实用新型最佳实施例的使用步骤如下步骤1、在采集模拟主题词库管理系统中,输入需要采集的词库。具体来说,输入需要采集的词库是按照主题的数据采集功能。用户可以通过界面 录入或者文件导入的方式规定数据采集的主题词库,采集系统自动按照词库进行采集。步骤2、在采集任务调度系统的人机交互界面中,设置采集任务。用户按照自己的需求,根据系统的导航功能,创建采集任务,如图5所示;选择数 据来源、格式,如图6所示;选择执行采集任务的时间、周期和采集策略,如图7所示;选择 数据存储目标地址、存储格式、索引设置以及过滤条件等。步骤3、执行采集任务,启动采集服务器进行采集。如图8所示.分布式负载均衡调度逻辑控制器,对上述采集任务根据设定的策略进行智能分 析,自动启动自动化采集器进行动态数据的采集。采集的数据根据采集任务调度系统设定 的过滤规则以及存储的地址以及存储的格式,发送到采集存储调度系统进行存储。采集模 拟词库管理系统采集出动态数据的特征词库,对其中没有的特征词进行补充。采集过程中,用户可以通过采集任务调度系统随时查看采集任务的进度,暂停或 者重启采集的子任务,调整采集的时间以及采集策略等,分布式均衡调度逻辑控制器基于 智能分析算法进行调度。步骤4、在数据库发布管理平台,用户可以根据自己的需求,对获取的数据进行分 类管理或者应用发布等。图9示出了根据本实用新型最佳实施例发布采集数据的界面图。其中,在步骤1中,在采集模拟主题词库管理系统中,也可以输入特定检索条件, 输入采集的特定检索条件是按照检索条件的数据采集功能。所述的检索条件可以是一个 逻辑表达式,也可以是个简单的自然描述语句,系统可以自动解析输入规则,比如需要从数 据源的全文字段中获取包含“某产品名称”的信息,而不需要包括“某公司名称”的信息,采 集系统自动解析并生成对应的检索条件如全文=“某产品名称”and not全文=“某公司名 称”。综上所述,本实用新型所述动态数据采集装置,定制功能丰富,实现对动态数据的 快速灵活的采集。例如,用户通过采集任务调度管理系统,可以对选定的主题、检索条件等 对数据进行采集,可以选择数据来源,也可以选择字段映射关系将多个来源字段同时采集 到一个字段中等等,可以制定采集的策略、时间以及周期等,并且在采集过程中,可以随时 更改、暂停或中止采集任务,可以根据设定的存储格式、地址以及索引字段进行分类存储。而且,本实用新型所述动态数据采集装置,可扩展性健壮性好。既有单个任务的分 布式采集功能,又有系统级别的扩展,可以把分布式负载均衡调度逻辑控制器部署到多个 主机,扩展了分布式采集功能。除此之外,本实用新型的特点还包括操作简便实用。人机交互性能好,用户只需要 依照系统的提示,按部就班的进行设置即可,比如在管理系统中根据系统导航提示输入采 集任务,选择采集任务数据源,可选简单的过滤条件选项,完成设置后启动采集器即可。本实用新型的硬件部分包括1)至少一台主流配置商用服务器[0063]硬件基本配置为4CPU、8G内存、IT磁盘空间,包括预装Windows2003/2000Server 操作系统和ASP. NET应用服务器,虚拟操作系统3个并可以扩展,用于操作系统级别的分布 式采集系统的部署;采用服务器级别的分布式采集功能,则可以按照需要扩展到多台商用 服务器。2)至少3台数据存储服务器以数据存储和集成为中心的数据库存储系统,预装支持海量存储和全文索引功能 的关系型数据库系统,比如CNKI公司的Kbase系统。3)至少一台数据索引服务器主要存储采集数据的索引信息,目的是加快数据集成和检索速度和效率。4)至少1台文件服务器文件服务器主要存储采集的文件格式的信息,文件格式包括图片、网页等信息。本实用新型包括了多种技术,包括面向TOB资源的采集技术、针对TOB资源的页面 分析技术和结果抽取技术,面向多种协议方式(包括XML、HTTP等等)访问资源的采集技 术,基于智能分析的分布式调度技术以及数据索引存储技术等。虽然上面针对动态数据采集装置的原理以及具体实施方式
,但是,在本实用新型 的上述引导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形,而这些 改进或者变形落在本实用新型的保护范围内。本领域技术人员应该明白,上面的具体描述 只是为了解释本实用新型的目的,并非用于限制本实用新型。因此,本实用新型的思想并不 限定于以上说明的实施例,本实用新型的思想范畴不仅包括权利要求书记载的范围,还包 括与权利要求等同或者等价的变形。
权利要求一种动态数据采集装置,其特征在于包括调度管理单元、调度控制单元、采集单元以及发布单元,其中所述调度管理单元分别与调度控制单元、采集单元以及发布单元相连接,用于接收需要采集的词库或采集的检索条件,创建采集任务和动态采集策略,并存储采集结果;所述调度控制单元分别与调度管理单元和采集单元相连接,用于对调度管理单元创建的采集任务进行分析,并控制所述采集单元进行采集;所述采集单元分别与调度控制单元和调度管理单元相连接,用于采集动态数据,并且将采集获取的数据发送给调度管理单元进行处理和存储;并且所述发布单元与调度管理单元相连接,用于发布经调度管理单元过滤和存储后的采集结果。
2.根据权利要求1所述的动态数据采集装置,其特征在于所述调度管理单元还包括 对采集所需词库进行管理的词库管理子单元、对采集任务进行配置和管理的调度管理子单 元以及用于存储采集结果的存储子单元。
3.根据权利要求2所述的动态数据采集装置,其特征在于所述词库管理子单元还包括词库建立模块、词库补充模块以及检索条件模块。
4.根据权利要求2所述的动态数据采集装置,其特征在于所述调度管理子单元包括创建任务模块、选择数据来源模块、策略制定与更改模块以 及过滤存储设置模块。
5.根据权利要求2所述的动态数据采集装置,其特征在于 所述存储子单元包括索引模块以及主题模块。
6.根据权利要求1所述的动态数据采集装置,其特征在于所述调度控制单元包括分析子单元以及分布式调度控制子单元。
7.根据权利要求6所述的动态数据采集装置,其特征在于 所述调度控制单元是分布式负载均衡调度逻辑控制器;所述采集单元包括面向Web资源的自动化采集器以及面向协议资源的自动化采集器; 所述发布单元是采集库发布管理平台。
8.根据权利要求7所述的动态数据采集装置,其特征在于 所述调度管理子单元是采集任务调度管理系统;所述词库管理子单元是采集模拟词库管理系统; 所述存储子单元是采集存储调度系统。
9.根据权利要求8所述的动态数据采集装置,其特征在于 所述索引子模块是索引数据库模块;所述主题子模块是主题数据库模块。
10.根据权利要求9所述的动态数据采集装置,其特征在于所述动态数据包括动态网页数据、商业数据、开放存储数据以及企业内部数据。
专利摘要本实用新型公开了一种动态数据采集装置,属于分布式动态数据采集技术领域。所述装置包括调度管理单元、调度控制单元、采集单元以及发布单元。其中所述调度管理单元分别与调度控制单元、采集单元以及发布单元相连接,用于接收需要采集的词库或采集的检索条件,创建采集任务和动态采集策略,并存储采集结果;所述调度控制单元分别与调度管理单元和采集单元相连接,用于对调度管理单元创建的采集任务进行分析,并控制所述采集单元进行采集;所述采集单元分别与调度控制单元和调度管理单元相连接,用于采集动态数据,并且将采集获取的数据发送给调度管理单元进行处理和存储;并且所述发布单元与调度管理单元相连接,用于发布经调度管理单元过滤和存储后的采集结果。
文档编号G06F17/30GK201654777SQ20092015167
公开日2010年11月24日 申请日期2009年4月22日 优先权日2009年4月22日
发明者张振海, 雷华平 申请人:同方知网(北京)技术有限公司