一种数据实时收集系统及方法

文档序号:10535078阅读:235来源:国知局
一种数据实时收集系统及方法
【专利摘要】本发明公开一种数据实时收集系统,所述系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库;所述数据采集客户端,用于实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群;所述数据分发集群,用于将所述数据实时发送至所述数据分析集群;所述数据分析集群,用于对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中;所述结果保存库,用于存储所述分析结果,以供大数据应用使用。利用本发明提供的数据实时收集系统能够对海量数据进行实时采集,并及时得到数据分析结果,以供大数据应用使用。另外,用户可以根据应用需求,制定离线分析或者实时分析的业务功能。
【专利说明】
一种数据实时收集系统及方法
技术领域
[0001]本发明涉及大数据应用领域,具体涉及一种数据实时收集系统及方法。
【背景技术】
[0002]随着互联网科技的迅猛发展,在对数据的大量处理中会产生海量的数据,对于如何利用海量的数据,已经成为大数据的应用领域不断探讨的话题。
[0003]目前,对系统产生的大数据的收集还停留在比较传统的阶段,例如直接将服务器产生的数据写入磁盘,并在磁盘中的历史数据的量达到足够大的情况下才对大数据进行分析。
[0004]显然,现有的对大数据的利用远远不能满足当前大数据应用的使用需求,也就是说,目前需要一个更专业的大数据收集系统能够满足各种应用对大数据的使用需求。

【发明内容】

[0005]有鉴于此,本发明提供了一种数据实时收集系统及方法,能够对海量数据进行实时采集,并及时得到数据分析结果,以供大数据应用使用。
[0006]本发明提供了一种数据实时收集系统,所述系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库;
[0007]所述数据采集客户端,用于实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群;
[0008]所述数据分发集群,用于将所述数据实时发送至所述数据分析集群;
[0009]所述数据分析集群,用于对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中;
[0010]所述结果保存库,用于存储所述分析结果,以供大数据应用使用。
[0011 ]优选地,所述数据分析集群包括离线数据分析集群和\或实时数据分析集群;
[0012]所述离线数据分析集群,用于对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中;和\或,
[0013]所述实时数据分析集群,用于对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中。
[0014]优选地,所述数据分析集群包括离线数据分析集群和实时数据分析集群;
[0015]所述数据分发集群,具体用于将所述数据分别实时发送至所述离线数据分析集群和所述实时数据分析集群。
[0016]优选地,所述数据分发集群为Flume集群。
[0017]所述数据采集客户端,具体用于将采集到的数据封装成消息流以远程过程调用PRC的方式下发至所述Flume集群。
[0018]优选地,所述离线数据分析集群包括:
[0019]HDFS数据存储集群,用于利用Hadoop分布式文件系统,将来自所述数据分发集群的数据进行存储;
[0020]Spark离线分析集群,用于利用Spark集群,对所述HDFS数据存储集群中的数据进行离线分析。
[0021 ]优选地,所述实时数据分析集群包括:
[0022]Kafka数据存储集群,用于利用Kafka集群,将来自所述数据分发集群的数据进行存储;
[0023]Spark实时分析集群,用于利用Spark Streaming实时计算框架,对所述Kafka数据存储集群中的数据进行实时分析。
[0024]本发明还提供了一种数据实时收集方法,所述方法应用于数据实时收集系统,所述数据实时收集系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库;
[0025]所述数据采集客户端实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群;
[0026]所述数据分发集群将所述数据实时发送至所述数据分析集群;
[0027]所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中;
[0028]所述结果保存库存储所述分析结果,以供大数据应用使用。
[0029]优选地,所述数据分析集群包括离线数据分析集群和\或实时数据分析集群;
[0030]所述数据分发集群将所述数据实时发送至所述数据分析集群,包括:
[0031]所述数据分发集群将所述数据分别实时发送至所述离线数据分析集群和\或所述实时数据分析集群;
[0032]相应的,所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中,包括:
[0033]所述离线数据分析集群对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中;和\或,
[0034]所述实时数据分析集群对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中。
[0035]优选地,所述数据分析集群包括离线数据分析集群和实时数据分析集群;
[0036]所述数据分发集群将所述数据实时发送至所述数据分析集群,包括:
[0037]所述数据分发集群将所述数据分别实时发送至所述离线数据分析集群和所述实时数据分析集群。
[0038]优选地,所述数据分发集群为Flume集群;
[0039]所述数据采集客户端将所述数据下发至所述数据分发集群,具体为:
[0040]所述数据采集客户端将采集到的数据封装成消息流以远程过程调用RPC的方式下发至所述Flume集群。
[0041]优选地,所述离线数据分析集群包括HDFS数据存储集群和Spark离线分析集群;
[0042]所述离线数据分析集群对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中,包括:
[0043]所述HDFS数据存储集群利用Hadoop分布式文件系统,将来自所述数据分发集群的数据进行存储;
[0044]所述Spark离线分析集群利用Spark集群,对所述HDFS数据存储集群中的数据进行尚线分析。
[0045]优选地,所述实时数据分析集群包括Kafka数据存储集群和Spark实时分析集群;
[0046]所述实时数据分析集群对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中,包括:
[0047]所述Kafka数据存储集群利用Kafka集群,将来自所述数据分发集群的数据进行存储;
[0048]所述Spark实时分析集群利用Spark Streaming实时计算框架,对所述Kafka数据存储集群中的数据进行实时分析。
[0049]本发明提供的数据实时收集系统,为大数据的应用提供了数据采集客户端、数据分发集群、数据分析集群、结果保存库。具体的,所述数据采集客户端,用于实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群。所述数据分发集群,用于将所述数据实时发送至所述数据分析集群。所述数据分析集群,用于对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中。所述结果保存库,用于存储所述分析结果,以供大数据应用使用。利用本发明提供的数据实时收集系统能够对海量数据进行实时采集,并及时得到数据分析结果,以供大数据应用使用。另外,用户可以根据应用需求,制定离线分析或者实时分析的业务功能。
【附图说明】
[0050]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0051]图1为本发明实施例提供的一种数据实时收集系统的结构示意图;
[0052]图2为本发明实施例提供的一种数据实时收集装置的应用架构示意图;
[0053]图3为本发明实施例提供的一种数据实时收集方法的流程图。
【具体实施方式】
[0054]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0055]大数据的核心就是利用数据找机会,因此如何利用海量的数据信息挖掘出用户潜在需求、分析业务量变化趋势、主动预警监控、优化系统流程等应用方向已经成为各系统的发展要务。
[0056]本发明利用专业的数据实时收集系统,对应用系统运行信息和用户行为信息进行收集和存储,以大数据分析的方法和思维对这些非结构化的数据进行统计分析,从而让开发人员和管理人员掌握更为真实的系统使用状况,为系统的不断进化提供真实有效和量化有度的技术指标,指导我们进行用户体验改善、用户界面优化、系统功能重组、系统性能提升等工作。
[0057]以下进行实施例具体内容的介绍。
[0058]本发明实施例提供了一种数据实时收集系统,参考图1,为本发明实施例提供的一种数据实时收集系统的结构示意图,所述系统包括数据采集客户端100、数据分发集群110、数据分析集群120、结果保存库130。
[0059]所述数据采集客户端100,用于实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群110。
[0060]所述数据分发集群110,用于将所述数据实时发送至所述数据分析集群120。
[0061]所述数据分析集群120,用于对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库130中。
[0062]所述结果保存库130,用于存储所述分析结果,以供大数据应用使用。
[0063]本发明实施例提供的数据实时收集系统在数据源服务器安装数据采集客户端100,用于实时采集所述数据源服务器中产生的数据。通常,数据源服务器包括应用服务器和Web服务器,所述应用服务器中产生系统运行日志,而所述Web服务器中产生用户行为日志。具体的,安装在所述应用服务器的数据采集客户端100用于实时采集所述应用服务器产生的系统运行日志,而安装在所述Web服务器中的数据采集客户端100用于实时采集所述Web服务器产生的用户行为日志,如用户通过浏览器发送的HTTP请求中的用户行为信息,用户通过APP发送的请求中的用户行为信息。
[0064]本发明实施例中,所述数据采集客户端100在采集到数据后,通过预设的消息发送接口,将所述数据及时的下发至数据分发集群110。实际操作中,来自不同数据采集客户端的数据在所述数据分发集群110聚合,所述数据分发集群110,用于及时将来自不同数据源服务器的数据聚合后,分发至数据分析集群120。根据所述数据实时收集系统包括的数据分析集群120的数量,所述数据分发集群110可以将聚合后的数据,分别发送至不同的数据分析集群120,以供不同的数据分析集群120分析。
[0065]实际应用中,根据数据实时收集系统的应用场景的不同,所述数据实时收集系统中可以具有与应用场景适应的数据分析集群120。例如,对于基础统计、建模分析等离线应用需求,所述数据分析集群可以为离线数据分析集群121。所述离线数据分析集群121,用于对来自所述数据分发集群110的数据做离线分析,得到离线分析结果,并发送至所述结果保存库130中。对于在线推送、监测预警等实时应用需求,所述数据分析集群可以为实时数据分析集群122。所述实时数据分析集群121,用于对来自所述数据分发集群110的数据做实时分析,得到实时分析结果,并发送至所述结果保存库130中。
[0066]另外,本发明实施例提供的数据分析集群也可以同时包括离线数据分析集群121和实时数据分析集群122。用户可以根据应用需求的不同,分别定制不同的数据分析业务。
[0067]本发明实施例中,所述数据实时收集系统还包括结果保存库130,用于存储来自所述数据分析集群120的分析结果,以供各种大数据应用的使用。
[0068]实际应用中,大数据的分析结果应用较广泛,例如可以作为系统优化或者业务决策的依据,也可以作为数据建模、模型优化、模型验证等应用。
[0069]本发明实施例提供的数据实时收集系统,为大数据的应用提供了数据采集客户端、数据分发集群、数据分析集群、结果保存库。具体的,所述数据采集客户端,用于实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群。所述数据分发集群,用于将所述数据实时发送至所述数据分析集群。所述数据分析集群,用于对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中。所述结果保存库,用于存储所述分析结果,以供大数据应用使用。利用本发明实施例提供的数据实时收集系统能够对海量数据进行实时采集,并及时得到数据分析结果,以供大数据应用使用。另外,用户可以根据应用需求,制定离线分析或者实时分析的业务功能。
[0070]本发明实施例还提供了一种数据实时收集装置的具体实现方式,参考图2,图2为本发明实施例提供的一种数据实时收集装置的应用架构示意图。其中,所述数据实时收集装置的各部分功能分别利用Flume、Kafka、Spark等技术实现。如图2所示,所述数据实时收集装置的应用架构包括四层,第一层为用户层,第二层为应用系统服务器集群,其中包括业务数据库、CICS日志库、前置web服务器集群。所述业务数据库用于存储结构化业务数据。所述CICS日志库用于存储系统运行日志,所述前置web服务器集群用于存储用户行为日志,其中系统运行日志和用户行为日志为非结构化数据。具体的,用户通过第一层的浏览器、APP等,向前置web服务器集群发送请求,所述前置web服务器集群通过对请求进行分析后,得到用户行为日志。
[0071]本发明实施例在第二层的CICS日志库中安装TonglinkQ客户端,用于在实时采集数据封装成消息后通过Thrift RPC接口发送至Flume集群。在前置web服务器集群中安装Struts Filter客户端,用于在实时采集数据封装成消息后通过Avro RPC结构发送至Flume集群。所述Flume集群,可以为本地Flume服务代理或者远程Flume服务代理集群,用于对接收到的数据聚合后,分别发送至离线数据分析集群和实时数据分析集群。
[0072]如图2所示,离线数据分析集群包括HDFS数据存储集群和Spark离线分析集群。所述HDFS数据存储集群,利用Hadoop分布式文件系统实现,用于利用Hadoop分布式文件系统HDFS,将来自所述数据分发集群的数据进行存储;所述Spark离线分析集群,利用Spark集群实现,用于利用Spark集群,对所述HDFS数据存储集群中的数据进行离线分析。实时数据分析集群包括Kafka数据存储集群和Spark实时分析集群。所述Kafka数据存储集群,利用Kaf ka集群实现,用于利用Kafka集群,将来自所述数据分发集群的数据进行存储;所述Spark实时分析集群,利用Spark Streaming实时计算框架实现,用于利用Spark Streaming实时计算框架,对所述Kafka数据存储集群中的数据进行实时分析。
[0073]本发明实施例中,离线数据分析集群和实时数据分析集群将分析结果均发送至分析结果库,所述分析结果库利用Hadoop分布式文件系统HDFS实现。所述分析结果库中的大数据分析结果能够满足第四层的大数据应用提供各种应用需求,如分析与建模、决策辅助、智能运维等。
[0074]本发明实施例利用的Flume集群能够支持多种类型的数据接收端(如Avro、Thrift、Exec等)和多种类型的数据发送端(如HDFS、Kafka),所以其能够满足大数据应用源数据采集和聚合的复杂环境。
[0075]本发明实施例充分利用了Hadoop适用于海量数据存储的特点,以及Spark善于快速并发计算、Flume+Kafka跨平台高吞吐量的优势,实现了一套快速实时收集用户相关大数据信息的系统。
[0076]另外,本发明实施例还提供了一种数据实时收集方法,参考图3,图3为本发明实施例提供的一种数据实时收集方法的流程图,所述方法应用于数据实时收集系统,所述数据实时收集系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库;
[0077]S301:所述数据采集客户端实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群;
[0078]S302:所述数据分发集群将所述数据实时发送至所述数据分析集群;
[0079]S303:所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中;
[0080]S304:所述结果保存库存储所述分析结果,以供大数据应用使用。
[0081]为了满足不同用户的大数据应用需求,所述数据分析集群包括离线数据分析集群和\或实时数据分析集群;
[0082]所述数据分发集群将所述数据实时发送至所述数据分析集群,包括:
[0083]所述数据分发集群将所述数据分别实时发送至所述离线数据分析集群和\或所述实时数据分析集群;
[0084]相应的,所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中,包括:
[0085]所述离线数据分析集群对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中;和\或,
[0086]所述实时数据分析集群对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中。
[0087]—种实现方式中,所述数据分析集群包括离线数据分析集群和实时数据分析集群;
[0088]所述数据分发集群将所述数据实时发送至所述数据分析集群,包括:
[0089]所述数据分发集群将所述数据分别实时发送至所述离线数据分析集群和所述实时数据分析集群。
[0090]实际操作中,所述数据分发集群为Flume集群;
[0091]所述数据采集客户端将所述数据下发至所述数据分发集群,具体为:
[0092]所述数据采集客户端将采集到的数据封装成消息流以远程过程调用RPC的方式下发至所述Flume集群。
[0093]所述离线数据分析集群的一种具体实现方式中,所述离线数据分析集群包括HDFS数据存储集群和Spark离线分析集群;
[0094]所述离线数据分析集群对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中,包括:
[0095]所述HDFS数据存储集群利用Hadoop分布式文件系统,将来自所述数据分发集群的数据进行存储;
[0096]所述Spark离线分析集群利用Spark集群,对所述HDFS数据存储集群中的数据进行尚线分析。
[0097]所述实时数据分析集群的一种具体实现方式中,所述实时数据分析集群包括Kaf ka数据存储集群和Spark实时分析集群;
[0098]所述实时数据分析集群对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中,包括:
[0099]所述Kafka数据存储集群利用Kafka集群,将来自所述数据分发集群的数据进行存储;
[0?00] 所述Spark实时分析集群利用Spark Streaming实时计算框架,对所述Kafka数据存储集群中的数据进行实时分析。
[0101]本发明实施例提供的数据实时收集方法中,所述方法应用于数据实时收集系统,所述数据实时收集系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库。首先,所述数据采集客户端实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群。其次,所述数据分发集群将所述数据实时发送至所述数据分析集群。再次,所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中。最后,所述结果保存库存储所述分析结果,以供大数据应用使用。利用本发明实施例提供的数据实时收集系统能够对海量数据进行实时采集,并及时得到数据分析结果,以供大数据应用使用。另外,用户可以根据应用需求,制定离线分析或者实时分析的业务功能。
[0102]对于方法实施例而言,由于其基本对应于系统实施例,所以相关之处参见系统实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0103]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0104]以上对本发明实施例所提供的一种据实时收集系统及方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种数据实时收集系统,其特征在于,所述系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库; 所述数据采集客户端,用于实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群; 所述数据分发集群,用于将所述数据实时发送至所述数据分析集群; 所述数据分析集群,用于对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中; 所述结果保存库,用于存储所述分析结果,以供大数据应用使用。2.根据权利要求1所述的系统,其特征在于,所述数据分析集群包括离线数据分析集群和\或实时数据分析集群; 所述离线数据分析集群,用于对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中;和\或, 所述实时数据分析集群,用于对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中。3.根据权利要求2所述的系统,其特征在于,所述数据分析集群包括离线数据分析集群和实时数据分析集群; 所述数据分发集群,具体用于将所述数据分别实时发送至所述离线数据分析集群和所述实时数据分析集群。4.根据权利要求3所述的系统,其特征在于,所述数据分发集群为Flume集群。 所述数据采集客户端,具体用于将采集到的数据封装成消息流以远程过程调用PRC的方式下发至所述Flume集群。5.根据权利要求2-4中任一项所述的系统,其特征在于,所述离线数据分析集群包括: HDFS数据存储集群,用于利用Hadoop分布式文件系统,将来自所述数据分发集群的数据进行存储; Spark离线分析集群,用于利用Spark集群,对所述HDFS数据存储集群中的数据进行离线分析。6.根据权利要求2-4中任一项所述的系统,其特征在于,所述实时数据分析集群包括: Kaf ka数据存储集群,用于利用Kafka集群,将来自所述数据分发集群的数据进行存储; Spark实时分析集群,用于利用Spark Streaming实时计算框架,对所述Kafka数据存储集群中的数据进行实时分析。7.一种数据实时收集方法,其特征在于,所述方法应用于数据实时收集系统,所述数据实时收集系统包括数据采集客户端、数据分发集群、数据分析集群、结果保存库; 所述数据采集客户端实时采集数据源服务器的数据,并将所述数据下发至所述数据分发集群; 所述数据分发集群将所述数据实时发送至所述数据分析集群; 所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中; 所述结果保存库存储所述分析结果,以供大数据应用使用。8.根据权利要求7所述的方法,其特征在于,所述数据分析集群包括离线数据分析集群和\或实时数据分析集群; 所述数据分发集群将所述数据实时发送至所述数据分析集群,包括: 所述数据分发集群将所述数据分别实时发送至所述离线数据分析集群和\或所述实时数据分析集群; 相应的,所述数据分析集群对来自所述数据分发集群的数据进行分析,得到分析结果,并发送至所述结果保存库中,包括: 所述离线数据分析集群对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中;和\或, 所述实时数据分析集群对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中。9.根据权利要求8所述的方法,其特征在于,所述数据分析集群包括离线数据分析集群和实时数据分析集群; 所述数据分发集群将所述数据实时发送至所述数据分析集群,包括: 所述数据分发集群将所述数据分别实时发送至所述离线数据分析集群和所述实时数据分析集群。10.根据权利要求9所述的方法,其特征在于,所述数据分发集群为Flume集群; 所述数据采集客户端将所述数据下发至所述数据分发集群,具体为: 所述数据采集客户端将采集到的数据封装成消息流以远程过程调用RPC的方式下发至所述Flume集群。11.根据权利要求8-10中任一项所述的方法,其特征在于,所述离线数据分析集群包括HDFS数据存储集群和Spark离线分析集群; 所述离线数据分析集群对来自所述数据分发集群的数据做离线分析,得到离线分析结果,并发送至所述结果保存库中,包括: 所述HDFS数据存储集群利用Hadoop分布式文件系统,将来自所述数据分发集群的数据进行存储; 所述Spark离线分析集群利用Spark集群,对所述HDFS数据存储集群中的数据进行离线分析。12.根据权利要求8-10任一项所述的方法,其特征在于,所述实时数据分析集群包括Kaf ka数据存储集群和Spark实时分析集群; 所述实时数据分析集群对来自所述数据分发集群的数据做实时分析,得到实时分析结果,并发送至所述结果保存库中,包括: 所述Kafka数据存储集群利用Kafka集群,将来自所述数据分发集群的数据进行存储;所述Spark实时分析集群利用Spark Streaming实时计算框架,对所述Kafka数据存储集群中的数据进行实时分析。
【文档编号】G06F17/30GK105893628SQ201610326265
【公开日】2016年8月24日
【申请日】2016年5月17日
【发明人】和宏涛, 李晓轩, 杨声钢, 杨森
【申请人】中国农业银行股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1