基于分布式的大数据挖掘方法

文档序号:9597876阅读:636来源:国知局
基于分布式的大数据挖掘方法
【技术领域】
[0001]本发明涉及大数据信息处理领域,更具体而言,涉及一种基于分布式的大数据挖掘方法、系统和装置。
【背景技术】
[0002]随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume (大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value (价值),其存在各方面的可用价值。然而,由于大数据中包含海量的信息,而采用中央数据库挖掘方法的计算成本要比分析处理分布式的众多小块数据的总和的成本要高很多,所以在对海量信息中的可用数据资源进行分布式的大数据挖掘是最优选方式,而且因为需要数据学习,且分配学习过程是提高学习的自然的有效学习方法,所以分布式的学习是可取的做法。
[0003]然而,在现有技术中,诸多大数据挖掘方法效能不够高、安全性、准确性也不能同时达到令人满意的程度,同时诸如计算、存储等成本也未能进行足够的优化,因此,本领域中需要一种能够有效解决上述技术问题的基于分布式的大数据挖掘方法。

【发明内容】

[0004]本发明的目的之一是提供一种基于分布式的大数据挖掘方法、系统及其装置,通过该方法和执行该方法的装置,能够提高大数据挖掘效能、安全性、准确性,并减少计算、存储等成本。
[0005]本发明为解决上述技术问题而采取的技术方案为:一种基于分布式的大数据挖掘方法,其特征在于包括以下步骤:在步骤SI中,根据用户对可用数据的需求,定义数据;在步骤S2中,从来源获得数据,准备数据,浏览数据并整合、检查数据,以去除错误的或不一致的数据;在步骤S3中,对数据进行处理;以及在步骤S4中,对结果进行测试、验证、部署和更新。
[0006]根据本发明的再一个方面,提供了一种用于实现所述的基于分布式的大数据挖掘方法的系统。
[0007]根据本发明的又一个方面,提供了一种用于实现所述的基于分布式的大数据挖掘器材,包括用于实现每个步骤的各个装置。
【附图说明】
[0008]在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中:
[0009]根据本发明的实施例,图1图示了一种基于分布式的大数据挖掘方法的流程图。
[0010]根据本发明的第一个实施例,图2图示了对数据处理的流程图。
[0011]根据本发明的第二个实施例,图3图示了对数据处理的另一个流程图。
[0012]根据本发明的第三个实施例,图4图示了对数据处理的又一个流程图。
[0013]根据本发明的第四个实施例,图5图示了对数据处理的再一个流程图。
【具体实施方式】
[0014]在下面的描述中,参考附图并以例示的方式示出几个具体的实施例。将理解的是:可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被认为具有限制意义。
[0015]根据本发明的实施例,图1例示了一种基于分布式的大数据挖掘方法的流程图,其中该方法可应用于并且适合于基于分布式的大数据架构。
[0016]首先,在步骤SI中,根据用户对可用数据的需求,定义数据。
[0017]其次,在步骤S2中,从来源获得数据,准备数据,浏览数据并整合、检查数据,以去除错误的或不一致的数据。
[0018]再次,在步骤S3中,对数据进行处理。
[0019]再次,在步骤S4中,对结果进行测试、验证、部署和更新。
[0020]优选地,该方法应用于基于分布式的大数据架构中。
[0021]在上述步骤SI中,用户可以是不同领域中针对不同类型的大数据的操作主体,可以是人,也可以是诸如电子设备之类的机制,该机制是包含了处理器、存储器、总线、电源电路等基本处理功能的装置,优选地,该机制还可根据需要而具有诸如键盘、键区、触摸屏之类的输入设备,还可以具有诸如图形用户界面之类的显示设备。不同领域包括现有的和以后开发的各种领域,甚至可以同时包括多个领域或交叉领域。对数据的定义取决于用户的要求。
[0022]在步骤S2中,获得数据的方式是任意的,可以采用现有的和以后开发的各种方式。同理,整合和/或检查数据的方式也任意。
[0023]在步骤S4中,对结果进行测试、验证、部署和更新的方式也是任意的,可采用现有的和以后开发的各种方式。
[0024]根据本发明的第一个实施例,图2图示了对数据处理的流程图。在步骤S3中,对数据的处理优选地包括以下步骤:S31:把之前整合和检查的数据进行分解,成为经过训练的有效数据;S32:在经过训练的有效数据的基础上,训练类别的划分;S33:将训练的类别的划分递送到所有的节点;S34:形成第一个新的经过训练的集;S35:向单独的节点传输新的子集;S36:在单独的节点处,形成包括所有数据的新的子集的第二个新的经过训练的集,并在第二个新的经过训练的集的基础上对整体的类别的划分进行再一次的训练。
[0025]通过以上处理,大数据挖掘效能得到极大提高,安全性、准确性也有改善,同时还减少了计算、存储等成本。
[0026]根据本发明的第二个实施例,图3图示了对数据处理的另一个流程图。可替代地,在步骤S3中,或者可以优选地包括以下步骤:S31 ':把之前整合和检查的数据进行分解,成为经过训练的有效数据;S32丨:在经过训练的有效数据的基础上,训练类别的划分;S33丨:将训练的类别的划分递送到所有的节点;S34丨:通过应用新的判定方法,使用有效的集形成第一个集;S35丨:向单独的节点传输数据的新的子集;S36丨:在单独的节点处,形成包括所有数据的新的子集的第二个集,并在第二个集的基础上对整体的类别的划分进行再一次的训练。
[0027]根据本发明的第三个实施例,图4图示了对数据处理的又一个流程图。可替代地,在步骤S3中,或者可以优选地包括以下步骤:S31":在数据的子集的基础上,对训练类别的划分;S32":将训练的类别的划分递送到所有的节点;S33":通过应用新的判定方法,使用有效的集形成第一个集;S34":向单独的节点传输数据的新的子集;S35":在单独的节点处,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1