一种数据挖掘方法及装置的制造方法

文档序号:9453052阅读:464来源:国知局
一种数据挖掘方法及装置的制造方法
【技术领域】
[0001 ] 本发明实施例涉及数据处理技术,尤其涉及一种数据挖掘方法及装置。
【背景技术】
[0002] 数据挖掘(DataMining,简称DM)是指从数据库的大量数据中揭示出隐含的、先 前未知的并有潜在价值的信息的非平凡过程。它主要基于人工智能、机器学习、模式识别、 统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖 掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
[0003] 然而,随着大数据时代的到来,数据挖掘的对象的来源越来越广泛,使得数据集中 的样本数,和/或是特征列的数目,都达到了一个非常大的规模,现有技术在步骤(2)进行 特征列选择之后,如果选择的特征列数量过大,在步骤(3)中,会出现内存不足等资源不够 的问题,使得数据挖掘流程执行失败。

【发明内容】

[0004] 本发明实施例提供一种数据挖掘方法及装置,以克服数据挖掘过程中,物理资源 不足导致的数据挖掘流程执行失败。
[0005] -方面,本发明实施例提供了一种数据挖掘方法,所述方法应用于分布式系统,所 述分布式系统包括至少一个节点,所述方法包括:
[0006] 确定数据挖掘流程的多个执行步骤;获取所述各执行步骤在运行过程中所需的物 理资源与所述数据挖掘流程的输入数据所占的物理资源之间的对应关系;确定执行所述各 执行步骤的节点,所述节点为所述各执行步骤提供物理资源的节点;根据所述对应关系和 用于执行相应执行步骤的节点所拥有的物理资源,确定执行各个步骤的节点所能处理的所 述输入数据的最大数据量;根据所述执行各个步骤的节点所能处理的输入数据的最大数据 量,确定所述分布式系统所能处理的输入数据的最大数据量;根据所述分布式系统所能处 理的输入数据的最大数据量,对准备挖掘的数据按照所述数据挖掘流程进行处理。
[0007] 另一方面,本发明实施例提供了一种数据挖掘装置,所述装置包括:收发器、处理 器和存储器;
[0008] 所述收发器,用于接收原始数据集,并将抽取得到的准备处理的输入数据发送给 各节点处理;所述存储器,用于存储原始数据集;所述处理器,用于确定数据挖掘流程的多 个执行步骤;获取所述各执行步骤在运行过程中所需的物理资源与所述数据挖掘流程的输 入数据所占的物理资源之间的对应关系;确定执行所述各执行步骤的节点,所述节点为所 述各执行步骤提供物理资源的节点;根据所述对应关系和用于执行相应执行步骤的节点所 拥有的物理资源,确定执行各个步骤的节点所能处理的所述输入数据的最大数据量;根据 所述执行各个步骤的节点所能处理的输入数据的最大数据量,确定所述分布式系统所能处 理的输入数据的最大数据量;根据所述分布式系统所能处理的输入数据的最大数据量,对 准备挖掘的数据按照所述数据挖掘流程进行处理。
[0009] 本发明实施例通过综合评估数据挖掘流程的特性以及数据挖掘流程和分布式网 络系统中网络节点自身拥有物理资源间的关系,从而得出了在该分部是网络系统中运行该 数据挖掘流程所能支持的最大数据量,对于输入的数据做了准确而有效的限定,从而保证 系统正常运行。
【附图说明】
[0010] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍。
[0011] 图1为本发明数据挖掘方法实施例一的流程图;
[0012] 图2为本发明所举例的一个数据挖掘流程示意图;
[0013] 图3为本发明数据挖掘方法实施例二的流程图;
[0014] 图4为本发明数据挖掘方法实施例三的流程图;
[0015] 图5为本发明数据挖掘装置实施例一的装置结构图。
【具体实施方式】
[0016] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0017] 图1为本发明数据挖掘方法实施例一的流程图。本实施例的执行主体可以为通用 的数据挖掘装置,该数据挖掘装置可由通用的软件和/或硬件实现。本实施例的数据挖掘 方法应用于分布式架构,该分布式架构包括至少一个节点,所述节点可以是普通的PC机、 云架构中服务器中的虚拟机或者其他能够运用到所述分布式架构中的计算资源。如图1所 示,本实施例的方法可以包括 :
[0018] 步骤101、确定数据挖掘流程的多个执行步骤。
[0019] 其中,确定数据挖掘流程的多个执行步骤的方式可以由数据挖掘装置通过解析数 据挖掘流程获得,或者由数据挖掘装置到存储有所述数据挖掘流程各执行步骤的存储装置 上获取。
[0020] 其中,解析数据挖掘流程获得的方式可以是依据数据挖掘流程中不同阶段采用的 不同算法原理来划分;也可以是依据数据挖掘流程中取得的各阶段性的处理结果作为划分 依据;还可以是依据该数据挖掘流程的逻辑步骤来划分,所述逻辑步骤通常在研究设计该 数据挖掘流程时设定,通常跟处理阶段强相关。上述解析方法是对本发明所能覆盖方式的 简单列举,并不对其所能包含的范围做特俗限定。
[0021] 步骤102、获取所述各执行步骤在运行过程中所需的物理资源与所述数据挖掘流 程的输入数据所占的物理资源之间的对应关系。
[0022] 其中,所述对应关系优选的是采用各执行步骤在运行过程中所需的物理资源与所 述数据挖掘流程的输入数据所占的物理资源之间的比值参数。
[0023] 步骤103、确定执行所述各执行步骤的节点,所述节点为所述各执行步骤提供物理 资源。
[0024]为各执行步骤提供物理资源的节点的关系包括:同一个节点为多个执行步骤提供 物理资源;多个节点共同为一个执行步骤提供物理资源;多个节点为多个执行步骤提供物 理资源等等。
[0025] 本步骤中,优选的,数据挖掘装置事先获取分布式系统中拥有的所有节点或可用 节点情况,例如:哪些节点是空闲的、那些节点是可以组合使用的、甚至于执行步骤在节点 上运行的历史记录等等。通常情况下各节点的运行情况都会由分布式系统中的管理装置进 行管理,而所述数据挖掘装置可以直接从所述管理装置中获取各节点的分布情况和能力属 性。
[0026] 步骤104、根据所述对应关系和用于执行相应执行步骤的节点所拥有的物理资源, 确定执行各个步骤的节点所能处理的所述输入数据的最大数据量。
[0027] 其中,在步骤102中已经得到各执行步骤在运行过程中所需的物理资源与所述 数据挖掘流程的输入数据所占的物理资源之间的对应关系,因此,进一步在步骤103中确 定为所述各执行步骤提供物理资源的节点后,每一个执行步骤根据相应节点拥有的物理资 源,计算得到相应的单个执行步骤允许所述数据挖掘流程输入的最大数据量。
[0028] 步骤105、根据所述执行各个步骤的节点所能处理的输入数据的最大数据量,确定 所述分布式系统所能处理的输入数据的最大数据量。
[0029] 在步骤104中,得到的是各个执行步骤分别允许数据挖掘流程输入的多个最大数 据量,那么所述分布式系统所能允许输入的最大数据量,便是所述多个最大输入数据量中 的最小值。其原理类似于短板原理,只有满足输入的数据量小于各执行步骤所能处理的最 大数据量中的最小值,分布式系统才能正常的运行。
[0030] 步骤106、根据所述分布式系统所能处理的输入数据的所述最大数据量,对准备挖 掘的数据按照所述数据挖掘流程进行处理。
[0031] 本发明实施例通过综合评估数据挖掘流程的特性(包括:数据挖掘流程包含的执 行步骤,以及各执行步骤和运行该执行步骤节点间关系)以及分布式网络系统中网络节点 自身拥有物理资源间的关系,从而得出了在该分布式网络系统中运行该数据挖掘流程所能 支持的最大数据量,对于输入数据做了准确而有效的限定,从而保证系统正常运行。
[0032] 本领域技术人员可以理解,该给定的数据挖掘流程可以是任意的公知的数据挖掘 流程,本发明所要做的是如何对数据挖掘流程进行分析,并结合分布式系统各节点拥有的 物理资源,从而对输入的数据做相应的限定和优化。对于所述数据挖掘流程,本实施例此处 不做特别限制。
[0033] 在步骤101的解释中,公开了确定数据挖掘流程的多个执行步骤相关方法。下面 将结合具体的数据挖掘流程,详细说明确定数据挖掘流程的过程。
[0034] 请参照图2,图2为本发明所举例的一个数据挖掘流程示意图。本实施例的数据挖 掘流程仅为示意性的,对于其它数据挖掘流程也可以在本实施例公开内容的基础上应用本 发明的方法完成执行步骤的获取。如图2所示,该数据挖掘流程包括以下执行步骤:
[0035] 步骤①特征列选择。该步骤是指从输入数据中选择特征列,后续流程只在选择的 特征列上运行,其余特征列将不再参与到后续步骤中的分析。本领域技术人员可以理解, 各特征列中存在一个目标列,该目标列要求是进行该数据挖掘所要解决问题最相关的数据 列。
[0036] 此处的特征选择是所举例的数据挖掘流程中的操作步骤,其目
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1