一种数据挖掘方法及装置的制造方法

文档序号：9453052阅读：464来源：国知局

一种数据挖掘方法及装置的制造方法
【技术领域】
[0001 ] 本发明实施例涉及数据处理技术，尤其涉及一种数据挖掘方法及装置。
【背景技术】
[0002] 数据挖掘（DataMining，简称DM)是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。
[0003] 然而，随着大数据时代的到来，数据挖掘的对象的来源越来越广泛，使得数据集中的样本数，和/或是特征列的数目，都达到了一个非常大的规模，现有技术在步骤（2)进行特征列选择之后，如果选择的特征列数量过大，在步骤（3)中，会出现内存不足等资源不够的问题，使得数据挖掘流程执行失败。

【发明内容】

[0004] 本发明实施例提供一种数据挖掘方法及装置，以克服数据挖掘过程中，物理资源不足导致的数据挖掘流程执行失败。
[0005] -方面，本发明实施例提供了一种数据挖掘方法，所述方法应用于分布式系统，所述分布式系统包括至少一个节点，所述方法包括：
[0006] 确定数据挖掘流程的多个执行步骤；获取所述各执行步骤在运行过程中所需的物理资源与所述数据挖掘流程的输入数据所占的物理资源之间的对应关系；确定执行所述各执行步骤的节点，所述节点为所述各执行步骤提供物理资源的节点；根据所述对应关系和用于执行相应执行步骤的节点所拥有的物理资源，确定执行各个步骤的节点所能处理的所述输入数据的最大数据量；根据所述执行各个步骤的节点所能处理的输入数据的最大数据量，确定所述分布式系统所能处理的输入数据的最大数据量；根据所述分布式系统所能处理的输入数据的最大数据量，对准备挖掘的数据按照所述数据挖掘流程进行处理。
[0007] 另一方面，本发明实施例提供了一种数据挖掘装置，所述装置包括：收发器、处理器和存储器；
[0008] 所述收发器，用于接收原始数据集，并将抽取得到的准备处理的输入数据发送给各节点处理；所述存储器，用于存储原始数据集；所述处理器，用于确定数据挖掘流程的多个执行步骤；获取所述各执行步骤在运行过程中所需的物理资源与所述数据挖掘流程的输入数据所占的物理资源之间的对应关系；确定执行所述各执行步骤的节点，所述节点为所述各执行步骤提供物理资源的节点；根据所述对应关系和用于执行相应执行步骤的节点所拥有的物理资源，确定执行各个步骤的节点所能处理的所述输入数据的最大数据量；根据所述执行各个步骤的节点所能处理的输入数据的最大数据量，确定所述分布式系统所能处理的输入数据的最大数据量；根据所述分布式系统所能处理的输入数据的最大数据量，对准备挖掘的数据按照所述数据挖掘流程进行处理。
[0009] 本发明实施例通过综合评估数据挖掘流程的特性以及数据挖掘流程和分布式网络系统中网络节点自身拥有物理资源间的关系，从而得出了在该分部是网络系统中运行该数据挖掘流程所能支持的最大数据量，对于输入的数据做了准确而有效的限定，从而保证系统正常运行。
【附图说明】
[0010] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。
[0011] 图1为本发明数据挖掘方法实施例一的流程图；
[0012] 图2为本发明所举例的一个数据挖掘流程示意图；
[0013] 图3为本发明数据挖掘方法实施例二的流程图；
[0014] 图4为本发明数据挖掘方法实施例三的流程图；
[0015] 图5为本发明数据挖掘装置实施例一的装置结构图。
【具体实施方式】
[0016] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0017] 图1为本发明数据挖掘方法实施例一的流程图。本实施例的执行主体可以为通用的数据挖掘装置，该数据挖掘装置可由通用的软件和/或硬件实现。本实施例的数据挖掘方法应用于分布式架构，该分布式架构包括至少一个节点，所述节点可以是普通的PC机、云架构中服务器中的虚拟机或者其他能够运用到所述分布式架构中的计算资源。如图1所示，本实施例的方法可以包括：
[0018] 步骤101、确定数据挖掘流程的多个执行步骤。
[0019] 其中，确定数据挖掘流程的多个执行步骤的方式可以由数据挖掘装置通过解析数据挖掘流程获得，或者由数据挖掘装置到存储有所述数据挖掘流程各执行步骤的存储装置上获取。
[0020] 其中，解析数据挖掘流程获得的方式可以是依据数据挖掘流程中不同阶段采用的不同算法原理来划分；也可以是依据数据挖掘流程中取得的各阶段性的处理结果作为划分依据；还可以是依据该数据挖掘流程的逻辑步骤来划分，所述逻辑步骤通常在研究设计该数据挖掘流程时设定，通常跟处理阶段强相关。上述解析方法是对本发明所能覆盖方式的简单列举，并不对其所能包含的范围做特俗限定。
[0021] 步骤102、获取所述各执行步骤在运行过程中所需的物理资源与所述数据挖掘流程的输入数据所占的物理资源之间的对应关系。
[0022] 其中，所述对应关系优选的是采用各执行步骤在运行过程中所需的物理资源与所述数据挖掘流程的输入数据所占的物理资源之间的比值参数。
[0023] 步骤103、确定执行所述各执行步骤的节点，所述节点为所述各执行步骤提供物理资源。
[0024]为各执行步骤提供物理资源的节点的关系包括：同一个节点为多个执行步骤提供物理资源；多个节点共同为一个执行步骤提供物理资源；多个节点为多个执行步骤提供物理资源等等。
[0025] 本步骤中，优选的，数据挖掘装置事先获取分布式系统中拥有的所有节点或可用节点情况，例如：哪些节点是空闲的、那些节点是可以组合使用的、甚至于执行步骤在节点上运行的历史记录等等。通常情况下各节点的运行情况都会由分布式系统中的管理装置进行管理，而所述数据挖掘装置可以直接从所述管理装置中获取各节点的分布情况和能力属性。
[0026] 步骤104、根据所述对应关系和用于执行相应执行步骤的节点所拥有的物理资源，确定执行各个步骤的节点所能处理的所述输入数据的最大数据量。
[0027] 其中，在步骤102中已经得到各执行步骤在运行过程中所需的物理资源与所述数据挖掘流程的输入数据所占的物理资源之间的对应关系，因此，进一步在步骤103中确定为所述各执行步骤提供物理资源的节点后，每一个执行步骤根据相应节点拥有的物理资源，计算得到相应的单个执行步骤允许所述数据挖掘流程输入的最大数据量。
[0028] 步骤105、根据所述执行各个步骤的节点所能处理的输入数据的最大数据量，确定所述分布式系统所能处理的输入数据的最大数据量。
[0029] 在步骤104中，得到的是各个执行步骤分别允许数据挖掘流程输入的多个最大数据量，那么所述分布式系统所能允许输入的最大数据量，便是所述多个最大输入数据量中的最小值。其原理类似于短板原理，只有满足输入的数据量小于各执行步骤所能处理的最大数据量中的最小值，分布式系统才能正常的运行。
[0030] 步骤106、根据所述分布式系统所能处理的输入数据的所述最大数据量，对准备挖掘的数据按照所述数据挖掘流程进行处理。
[0031] 本发明实施例通过综合评估数据挖掘流程的特性（包括：数据挖掘流程包含的执行步骤，以及各执行步骤和运行该执行步骤节点间关系）以及分布式网络系统中网络节点自身拥有物理资源间的关系，从而得出了在该分布式网络系统中运行该数据挖掘流程所能支持的最大数据量，对于输入数据做了准确而有效的限定，从而保证系统正常运行。
[0032] 本领域技术人员可以理解，该给定的数据挖掘流程可以是任意的公知的数据挖掘流程，本发明所要做的是如何对数据挖掘流程进行分析，并结合分布式系统各节点拥有的物理资源，从而对输入的数据做相应的限定和优化。对于所述数据挖掘流程，本实施例此处不做特别限制。
[0033] 在步骤101的解释中，公开了确定数据挖掘流程的多个执行步骤相关方法。下面将结合具体的数据挖掘流程，详细说明确定数据挖掘流程的过程。
[0034] 请参照图2,图2为本发明所举例的一个数据挖掘流程示意图。本实施例的数据挖掘流程仅为示意性的，对于其它数据挖掘流程也可以在本实施例公开内容的基础上应用本发明的方法完成执行步骤的获取。如图2所示，该数据挖掘流程包括以下执行步骤：
[0035] 步骤①特征列选择。该步骤是指从输入数据中选择特征列，后续流程只在选择的特征列上运行，其余特征列将不再参与到后续步骤中的分析。本领域技术人员可以理解，各特征列中存在一个目标列，该目标列要求是进行该数据挖掘所要解决问题最相关的数据列。
[0036] 此处的特征选择是所举例的数据挖掘流程中的操作步骤，其目

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭卫国;汪芳山;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：一种数据库增量日志解析方法及系统的利记博彩app
上一篇：移动通信资源的分析方法和系统的利记博彩app

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。