一种数据处理方法及系统与流程

文档序号:11155426阅读:612来源:国知局
一种数据处理方法及系统与制造工艺

本发明涉及信息处理技术,具体涉及一种数据处理方法及装置。



背景技术:

随着移动智能终端的普及,大数据时代的到来,针对用户操作体验的分析需求日益突出。而由于终端应用开发端开发的业务随着设计方案的不同,其数据存储格式也不同,每个应用均拥有各自的数据存储和访问方式,彼此之间相对独立,进而形成一个个“信息孤岛”。而数据共享可以使更多的人充分地使用已有的数据资源,减少资料收集、数据采集等重复劳动和相应费用。现有技术中,为了实现数据共享通常采用以下两种方式对数据进行处理:

1)采用烟囱式存储方式对多种数据存储格式的数据进行存储。即对每个数据存储格式的数据进行独立存储分析。具体如图2所示。

图2为现有技术中数据处理方法的流程示意图;如图2所示,应用200a包括数据采集单元201a、数据存储单元202a、数据提取单元203a和数据分发单元204a;应用200b包括数据采集单元201b、数据存储单元202b、数据提取单元203b和数据分发单元204b;应用200c包括数据采集单元201c、数据存储单元202c、数据提取单元203c和数据分发单元204c;由此可知,现有技术中各应用均是独立进行数据存储、数据提取和数据分发的,彼此之间互不关联。而采用这种数据处理方式无法对多种数据存储格式的数据实现归一化存储及提取,也无法满足当前用户的按需提取分析大数据的需求。

2)将不同数据存储格式的数据进行统一格式转换后,进行数据存储分析。具体如图3所示。

图3为现有技术中另一种数据处理方法的流程示意图;如图3所示,采集单元301a、采集单元301b、采集单元301c分别对应用300a、应用300b和应用300c中的数据进行采集,然后经格式转换单元302对所述集单元301a、采集单元301b、采集单元301c采集到的数据进行数据存储格式转换,具体地,将不同数据存储格式的数据转换成相同数据存储格式的数据。然后,分别经数据存储单元303对格式转换后的数据进行存储,并经数据提取单元304根据用户请求进行数据提取,并由数据分发单元405将数据提取单元304提取出的数据向用户发送。

由于现有技术中采集到的数据内容、数据存储格式和数据质量千差万别,有时甚至会遇到数据存储格式不能转换或数据转换格式后丢失信息等棘手问题。因此,这种方法虽然表面上解决了数据存储格式的不一致问题,满足了后续对大数据分析工作的需求,但是无法实现数据的按需提取,对数据的处理带来了局限性,同时基于此方法存储的数据,会导致后续的分析结果失真。



技术实现要素:

为解决现有存在的技术问题,本发明实施例期望提供一种数据处理方法及装置,能够在不改变原数据存储格式的情况下,实现对多元异构数据的处理,满足当前用户的按需提取分析大数据的需求。

本发明实施例的技术方案是这样实现的:

根据本发明实施例的一方面,提供一种数据处理方法,所述方法包括:

接收数据查询请求,所述数据查询请求中携带有待查询数据的数据特征信息;

在状态机存储引擎中提取与所述数据特征信息匹配的状态机信息,所述状态机信息包括一个以上的数据源信息;

根据所述状态机信息在特征数据库中提取与所述数据源信息匹配的第一特征数据;

从所述第一特征数据中提取与所述数据特征信息匹配的第二特征数据,将所述第二特征数据进行发送。

上述方案中,在所述接收数据查询请求之前,所述方法还包括:

确定数据存储格式,根据所述数据存储格式进行数据采集;

对采集到的数据进行特征分类,将不同特征的数据存储在所述特征数据库中不同特征的子数据库;

将所述数据存储格式的信息存储在所述状态机存储引擎中的与所述数据存储格式对应的状态机中。

上述方案中,在所述将所述数据存储格式的信息存储在所述状态机存储引擎中的与所述数据存储格式对应的状态机中之前,所述方法还包括:

确定所述状态机存储引擎中的状态机信息与所述数据存储格式不匹配时,创建与所述数据存储格式相匹配的新状态机;

将所述数据存储格式的信息存储在所述新状态机。

上述方案中,在所述将所述第二特征数据进行发送之前,所述方法还包括:

将所述一个以上的数据源信息与所述第一特征数据进行合并而生成元数据表;

从所述元数据表中提取与所述数据特征信息匹配的第二特征数据,并将所述第二特征数据进行发送。

上述方案中,将所述第二特征数据进行发送,包括:

根据所述数据查询请求确定数据分发的目的地址;

将所述第二特征数据向所述目的地址发送。

根据本发明实施例的另一方面,提供一种数据处理装置,所述装置包括:

数据分发引擎,用于接收数据查询请求,所述数据查询请求中携带有待查询数据的数据特征信息;并从数据提取引擎提取出的第一特征数据中提取与所述数据特征信息相匹配的第二特征数据,将所述第二特征数据进行发送;

数据提取引擎,用于在状态机存储引擎中提取与所述数据特征信息匹配的状态机信息,所述状态机信息包括一个以上的数据源信息;根据所述状态机信息在特征数据库中提取与所述数据源信息匹配的第一特征数据。

上述方案中,所述装置还包括:数据采集引擎和数据分拣引擎;

所述数据采集引擎,用于确定数据存储格式,根据所述数据存储格式进行数据采集;

所述数据分拣引擎,用于对采集到的数据进行特征分类,将不同特征的数据存储在所述特征数据库中不同特征的子数据库;将所述数据存储格式的信息存储在所述状态机存储引擎中的与所述数据存储格式对应的状态机中。

上述方案中,所述数据分拣引擎,还用于确定所述状态机存储引擎中的状态机信息与所述数据存储格式不匹配时,创建与所述数据存储格式相匹配的新状态机;将所述数据存储格式的信息存储在所述新状态机。

上述方案中,所述数据提取单元,还用于将所述一个以上的数据源信息和所述第一特征数据进行合并而生成元数据表;

所述数据分发引擎,具体用于从所述元数据表中提取与所述数据特征信息相匹配的第二特征数据,并将所述第二特征数据进行发送。

上述方案中,所述数据分发引擎,具体还用于根据所述数据查询请求确定数据分发的目的地址;将所述第二特征数据向所述目的地址发送。

本发明实施例提供一种数据处理方法及装置,接收数据查询请求,所述数据查询请求中携带有待查询数据的数据特征信息;在状态机存储引擎中提取与所述数据特征信息匹配的状态机信息,所述状态机信息包括一个以上的数据源信息;根据所述状态机信息在特征数据库中提取与所述数据源信息匹配的第一特征数据;从所述第一特征数据中提取与所述数据特征信息匹配的第二特征数据,将所述第二特征数据进行发送。如此,通过应用开发端与云平台约定的数据存储格式,对多元异构数据进行统一采集,能降低应用开发端对接入数据的改造成本,并且能有效的扩大数据采集范围;通过按数据特征对多元异构数据进行分类存储,实现了数据的归一化存储;通过按数据特征提取待查询数据,并将提取到的特征数据和数据存储格式信息合并而生成元数据表,然后根据用户的需求,将最终提取的特征数据向数据分发的目的地址发送,满足了用户的按需提取分析大数据的需求。由于本发明实施例中无需对原数据的数据存储格式进行格式转换,从而不会导致数据的分析结果失真。

附图说明

图1为本发明实施例一种数据处理方法的流程示意图;

图2为现有技术中数据处理方法的流程示意图;

图3为现有技术中另一种数据处理方法的流程示意图;

图4为本发明实施例一种数据处理装置的结构组成示例图;

图5为本发明实施例一种数据处理装置的结构组成示意图;

图6为本发明实施例中数据存储格式的示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

图1为本发明实施例一种数据处理方法的流程示意图;如图1所示,该方法包括:

步骤101,接收数据查询请求,所述数据查询请求中携带有待查询数据的数据特征信息;

本发明实施例中,所述方法主要应用在数据处理系统。具体地,当所述数据处理系统接收到数据需求端发送的数据查询请求后,根据所述数据查询请求中的数据提取需求,确定待查询数据的数据特征信息。

步骤102,在状态机存储引擎中提取与所述数据特征信息匹配的状态机信息,所述状态机信息包括一个以上的数据源信息;根据所述状态机信息在特征数据库中提取与所述数据源信息匹配的第一特征数据;

这里,所述数据处理系统确定数据需求端需要查询的数据特征信息后,首先在状态机存储引擎中提取与所述数据特征信息相匹配的一个或多个状态机信息,这里,每个状态机对应一个数据存储格式,并且在数据存储格式的信息中包括有数据源信息,例如,应用标识、数据特征等。然后,再根据所述状态机信息在特征数据库中提取与所述数据源信息匹配的第一特征数据。并将所述一个以上的数据源信息与所述第一特征数据进行合并而生成元数据表。如此,能够实现数据的统一提取。

步骤103,从所述第一特征数据中提取与所述数据特征信息匹配的第二特征数据,将所述第二特征数据进行发送。

这里,所述数据处理系统还用于根据所述数据查询请求,确定数据分发的目的地址;即根据所述数据查询请求,确定用户要求分发的数据具备哪些数据特征,以及该数据要求被分发到那个服务器地址。然后,再从所述元数据表中提取与所述数据特征信息匹配的第二特征数据,并将所述第二特征数据向所述目的地址发送。如此,满足了用户的按需提取分析大数据的需求。

在本发明实施例中,在所述接收用户发送的数据查询请求之前,所述方法还包括:

确定数据存储格式,根据所述数据存储格式进行数据采集;

对采集到的数据进行特征分类,将不同特征的数据存储在所述特征数据库中不同特征的子数据库;

将所述数据存储格式的信息存储在所述状态机存储引擎中的与所述数据存储格式对应的状态机中。

这里,所述数据处理系统在采集数据之前,需要与各个应用提供端确定数据存储格式,然后将确定的所述数据存储格式配置到数据采集规则中,并根据确定的所述数据存储格式对一个以上的应用数据进行数据采集,即对多元异构数据进行采集。本发明实施例中,各个应用提供端与所述数据处理系统约定的数据存储格式不限,可以是任意一种或多种数据存储格式,只需应用提供端与所述数据处理系统之间对数据存储格式进行约定即可。

在本发明实施例中,所述数据存储格式具体可以是如图6所示的数据存储格式,如图6所示,包括应用1数据存储格式、应用2数据存储格式和应用3数据存储格式;其中,应用1数据存储格式包括用户标识、特征1、特征2、特征3和特征4;应用2数据存储格式包括用户标识、特征3、和特征5;应用3数据存储格式包括用户标识和特征6。例如,总体分析部门所属的应用1、应用2、应用3这三个应用的应用提供端分别于总部平台约定所采集数据的存储格式,约定后的数据存储格式将统一配置在数据采集规则中,然后由所述数据处理系统中的数据采集引擎根据数据采集规则将应用1数据库、应用2数据库、应用3数据库中的数据采集上来。

所述数据处理系统根据确定的数据存储格式采集到数据后,根据数据存储规则对采集到的数据进行特征分类。并将不同特征的数据分拣到所述特征数据库中不同特征的子数据库中。另外,根据所述数据存储格式确定所述状态机存储引擎中是否存在与所述数据存储格式对应的状态机,当确定所述状态机存储引擎中存在有与所述数据存储格式对应的状态机时,直接将所述数据存储格式的信息保存到所述状态机中;当确定所述状态机存储引擎中的状态机信息与所述数据存储格式不匹配时,创建与所述数据存储格式相匹配的新状态机;并将所述数据存储格式的信息存储在所述新状态机。如此,能够实现多元异构数据的归一化存储。

图4为本发明实施例一种数据处理装置的结构示例图;如图4所示,所述装置包括:数据采集引擎402、数据分拣引擎403、数据提取引擎406、数据分发引擎408和数据采集处理规则调度引擎409;其中,所述数据采集处理规则调度引擎409中包括数据采集规则、状态机存储规则、特征数据存储规则、特征数据提取规则和数据分发规则。

具体地,所述数据采集规则中包括各个应用提供端与所述数据处理系统约定好的数据存储格式。所述数据采集引擎402根据所述数据采集规则,在第一应用数据库401a、第二应用数据库401b和第三应用数据库401c中对第一应用400a、第二应用400b和第三应用400c进行统一的数据采集。待所述数据采集引擎402采集到所述第一应用400a、所述第二应用400b和所述第三应用400c的数据,即多元异构数据后,触发数据分拣引擎403,由所述数据分拣引擎403根据数据采集规则,判断状态机存储引擎405中是否存在与所述第一应用400a、所述第二应用400b和所述第三应用400c的数据存储格式相对应的状态机,当所述数据分拣引擎403确定所述状态机存储引擎405中存在与所述第一应用400a、所述第二应用400b和所述第三应用400c的数据存储格式相对应的状态机时,直接将所述第一应用400a、所述第二应用400b和所述第三应用400c的数据存储格式的信息存储在与其数据存储格式相对应的状态机中;当所述数据分拣引擎403确定所述状态机存储引擎405中没有与所述第一应用400a、所述第二应用400b和所述第三应用400c的数据存储格式相对应的状态机时,则在状态机存储引擎405中创建与所述第一应用400a、所述第二应用400b和所述第三应用400c的数据存储格式相对应的新状态机。例如,所述第一应用400a、所述第二应用400b和所述第三应用400c包括三种数据存储格式,则在所述状态机存储引擎405中创建与这三种数据存储格式相对应的三个状态机,即状态机1、状态机2和状态机3。之后,再对采集到的所述多元异构数据的特征数据进行分类。具体地,所述数据分拣引擎403根据所述特征数据存储规则,将所述数据采集引擎402采集到的不同数据特征信息的数据分拣到特征数据库404中不同的子特征数据库中;例如,所述数据采集引擎402采集到的数据一共包括四种数据特征,则所述数据分拣引擎403则将所述四种数据特征的数据分别存储在所述特征数据库404中不同特征的子数据库;或者所述第一应用400a包括四种数据特征,则将所述第一应用400a的数据分拣到所述特征数据库404中不同特征的子数据库。这里,在每个子数据库中存储有多个应用的相同特征的特征数据。

当数据分发引擎408接收到数据需求端发送的数据查询请求时,首先根据所述数据查询请求确定待查询数据的数据特征信息,然后触发数据提取引擎406根据所述特征数据提取规则在所述状态机存储引擎405中提取与所述数据特征信息相匹配的状态机信息。这里,每个状态机对应一个数据存储格式,每个数据存储格式中包括数据源信息,例如应用来源标示及该应用中的数据特征标识。然后,再根据提取到的状态机信息在所述特征数据库404中提取一个应用或多个应用相匹配的第一特征数据,并将提取出的所述第一特征数据和所述状态机信息中的数据源信息进行合并,生成元数据表407。例如,数据需求端需要提取具备特征1的元数据,则所述数据提取引擎406从状态机存储引擎405中获得与特征1的数据相匹配的数据来源信息为应用1、应用2、应用3,然后再从特征数据库404中的特征1数据库提取出相应的数据,最后,将与特征1的数据匹配的应用及特征数据进行合并后生成格式化特征1元数据表。之后由所述数据提取引擎406触发数据分发引擎408,由所述数据分发引擎408按照所述数据分发规则在所述元数据表407中提取与数据需求端需求的特征数据相匹配的第二特征数据,将所述第二特征数据向数据分发目地地址分发。例如,当数据分发的目的地址是数据分析总部和应用开发端,则将所述第二特征数据向数据分析总部和应用开发端发送。在本发明实施例中,所述数据特征可以是终端型号、终端的地理位置信息、终端使用指示信息等。

图5为本发明实施例一种数据处理装置的结构示意图;如图5所示,所述装置包括:数据采集引擎501、数据分拣引擎502、特征数据库503、状态机存储引擎504、数据提取引擎505、元数据表506、数据分发引擎507和数据采集处理规则调度引擎508;

其中,所述特征数据库503用于存储各个应用的数据特征信息,所述状态机存储引擎504用于存储应用提供端与数据处理系统约定好的数据存储格式信息;

具体地,数据分发引擎507,用于接收数据查询请求,所述数据查询请求中携带有待查询数据的数据特征信息;并从数据提取引擎505提取出的第一特征数据中提取与所述数据特征信息相匹配的第二特征数据,将所述第二特征数据进行发送;

数据提取引擎505,用于在状态机存储引擎504中提取与所述数据特征信息匹配的状态机信息,所述状态机信息包括一个以上的数据源信息;根据所述状态机信息在特征数据库503中提取与所述数据源信息匹配的第一特征数据。

这里,当所述数据分发引擎507接收到数据需求端发送的数据查询请求后,根据所述数据查询请求中的数据提取需求,确定待查询数据的数据特征信息。之后,所述数据分发引擎507触发所述数据提取引擎505,由所述数据提取引擎505根据特征数据提取规则,首先在状态机存储引擎504中提取与所述数据特征信息相匹配的一个或多个状态机信息,这里,每个状态机对应一个数据存储格式,并且在数据存储格式的信息中包括有数据源信息,例如,应用标识、数据特征等。然后再根据所述状态机信息在特征数据库503中提取与所述数据特征信息相匹配的一个或多个应用的第一特征数据;将一个以上的数据源信息与所述第一特征数据进行合并而生成元数据表506。然后触发所述数据分发引擎507,所述数据分发引擎507根据所述数据查询请求,确定数据分发的目的地址;即根据所述数据查询请求,确定用户要求分发的数据具备哪些数据特征,以及该数据要求被分发到那个服务器地址。然后,根据数据分发规则在所述元数据表506中提取与所述特征灵敏据信息相匹配的第二特征数据,将所述第二特征数据向数据分发的目地地址发送。在本发明实施例中,元数据表506中包括多个元数据,例如,元数据1、元数据2…元数据m,其中,m是指元数据对应编号。

在本发明实施例中,所述数据采集处理规则调度引擎508包括:数据采集规则、状态机存储规则、特征数据存储规则、数据提取规则和数据分发规则。

所述数据分发规则是指,所述数据分发引擎507根据接收到的数据查询请求,确定待查询数据的数据特征信息,然后根据所述数据特征信息在元数据表506中提取与其匹配的特征数据,并按照所述数据查询请求中数据分发的目的地址,将提取到的特征数据向所述目地地址发送。如此,不仅实现了不同数据存储格式及不同数据特征数据的统一提取,而且还满足了用户的按需提取分析大数据的需求。

在本发明实施例中,所述数据采集引擎501,还用于确定数据存储格式,根据所述数据存储格式进行数据采集;

所述数据分拣引擎502,用于对采集到的数据进行特征分类,将不同特征的数据存储在所述特征数据库503中不同特征的子数据库;将所述数据存储格式的信息存储在所述状态机存储引擎504中的与所述数据存储格式对应的状态机中。

这里,例如应用1、应用2、应用n,其中,n代表具体应用对应编号。在所述数据采集引擎501在进行数据采集之前,各应用提供端需与所述数据处理系统进行数据存储格式的约定,待数据存储格式的约定好后,将所述数据存储格式配置到数据采集规则中,所述数据采集引擎501即可根据数据采集规则通过各应用的数据库,例如应用1数据库、应用2数据库、应用3数据库对一个或多个应用数据进行采集。本发明实施例中,各应用提供端与数据处理系统约定的数据存储格式不限,可以是任意一种或多种数据存储格式,只需应用开发端与云平台之间对数据存储格式进行约定即可。具体的数据存储格式如方法实施例中图6的描述。

所述数据采集引擎501根据确定的数据存储格式采集到各应用的数据后,确触发所述数据分拣引擎502根据数据存储规则对采集到的所述数据进行特征分类,然后将不同特征的数据分拣到所述特征数据库503中的不同特征的子数据库中。同时,根据状态机存储规则确定状态机存储引擎504中是否存在与所述数据存储格式相匹配的状态机,如若有,直接将所述数据存储格式的信息存储在与其相对应的状态机中,如若没有,则创建与所述数据存储格式相对应的新状态机,并将所述数据存储格式存储到所述新状态机中。如此,能够实现多元异构数据的归一化存储。

本发明实施例与现有技术相比,数据分发时能够按用户需求定制,与数据的各规则、状态机、特征数据等并无关联,能够真正的实现多无异构数据的采集、对不同数据存储格式、不同数据特征的数据进行归一化存储,并且能够在不改变原数据存储格式的基础上,能够满足用户跨数据结果的数据提取需求。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1