关联规则算法的数据降维与压缩方法
【技术领域】
[0001]本发明数据处理领域,具体地,涉及一种关联规则算法的数据降维与压缩方法。
【背景技术】
[0002]关联规则算法开始是由R.Agrawal等人提出的挖掘顾客交易数据中商品项目集间的关联规则问题,它能够从所有顾客的交易数据中挖掘出商品与商品之间的隐藏关系,比如买面包的顾客会顺便买牛奶的概率比较大,这将非常利于大商场的货物排放。
[0003]目前,数据关联规则算法中常用的有两种:一种是Apr1ri算法,另一种是FP-Growth算法 。Apr i or i算法由于需要不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,数据源很大时,执行挖掘效率比较低下;FP-Growth算法则只需扫描原始数据两遍,执行挖掘效率相对比较高。
[0004]如果参与运算的数据量达到一定的数量级别时,调用相关的数据关联规则算法,会创建非常多的文字节点数据存放在内存中并进行运算,容易导致机器内存不够用并且算法执行效率也比较低下。
【发明内容】
[0005]本发明的目的在于,针对上述问题,提出一种关联规则算法的数据降维与压缩方法,以实现提高大数据量处理效率的优点。
[0006]为实现上述目的,本发明采用的技术方案是:
一种关联规则算法的数据降维与压缩方法,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤; 以及
对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。
[0007]优选的,所述关联规则算法:包括,Apr1ri算法或FP-Growth算法。
[0008]本发明的技术方案具有以下有益效果:
本发明的技术方案,先对数据源调用关联规则算法得到频繁一项集,不符合条件的项会被先过滤掉,减少了无用的数据参与后期的运算。
[0009]对数据进行编码,使得参与算法运算创建树的过程中,对树节点之间相互比较和查询运算更加有效率,而且占用的内存也相对较小。达到提高大数据量处理效率的目的。
[0010]在经济上,本技术方案对服务器性能相对原算法要求比较低,降低服务器硬件成本。
[0011]在空间和时间上,节省了内存的占用,提高了数据挖掘的执行效率,算法性能相对提尚。
[0012]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0013]图1为现有的FP-Growth算法的运算流程图;
图2为本发明实施例所述的关联规则算法的数据降维与压缩方法的流程图;
图3为本发明实施例所述的对数据源进行数字编码化的结果示意图;
图4为采用本发明实施例所述的关联规则算法的数据降维与压缩方法的数据结构示意图。
【具体实施方式】
[0014]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0015]一种关联规则算法的数据降维与压缩方法,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤; 以及
对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。[0〇16] 优选的,关联规则算法:包括,Apr1ri算法或FP-Growth算法。
[0017]如图3所示,常用的关联规则算法没有对参与运算的数据源数据类型进行限制,比如FP-Growth算法,它内用于存储各个节点的树结构,节点的内容是用文字字符串进行存储在内存中,很明显存储大量的数据节点会浪费很多内存空间,而且节点的内容之间相互比较与查询,也是非常的低效的
由此,本发明技术方案则是用编码来描述节点的内容,这样不仅会节约内存空间而且执行效率也会提尚不少。
[0018]如图1所示,现有关联规则算法(FP-Growth算法),直接对数据源数据进行挖掘处理
如图2所示,本发明技术方案,在挖掘数据前,需要对数据源进行分析加工压缩处理首先对事务数据源调用关联规则算法得到所有数据的频繁一项集结果集进行编码化,在利用前面的编码,再对之前的事务数据源进行编码化如图4所示,最后用编码化的事务数据进行参与关联规则算法(比如FP-Growth算法)运算,得到所需要的频繁项集结果集其中:下文具体对频繁一项与频繁项集进行说明:
如:顾客消费记录customerl{牛奶,面包,鸡蛋,香肠}; customer2{牛奶,面包,黄油,啤酒}; customer3 {牛奶,面包,黄油,肉}。
[0019]如果规定各种商品在不同的顾客消费记录里出现3次,那就是频繁一项,可以得出:牛奶,面包这两种商品各出现3次,则牛奶和面包中的每一种商品都是频繁一项。牛奶和面包的组合在不同的顾客消费记录中共出现了 3次,那它们整体称为频繁项集
其中,本发明技术方案符合频繁一项的数据源数字编码文件,其中过滤掉了无用的非频繁一项,而且又进行了数字编码化,这样再参与数据关联规则算法的运算,效率会得到非常大的提升,同样占用的内存空间也会大大的减少。
[0020]本发明技术方案,在内存使用量上,使用数字编码代替文字参与数据关联规则算法运算,会比直接参与运算的数据源所占用的内存至少减少了 70%以上;
在运行时间效率上,会使整个算法的执行效率提高80%以上。
[0021]最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种关联规则算法的数据降维与压缩方法,其特征在于,包括: 对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤; 对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤; 以及 对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。2.根据权利要求1所述的关联规则算法的数据降维与压缩方法,其特征在于,所述关联规则算法:包括,Apr1ri算法或FP-Growth算法。
【专利摘要】本发明公开了一种关联规则算法的数据降维与压缩方法,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行数据关联规则算法得到频繁项集结果集的步骤。达到提高大数据量处理效率的目的。
【IPC分类】G06F17/30
【公开号】CN105468750
【申请号】CN201510838047
【发明人】江海国
【申请人】央视国际网络无锡有限公司
【公开日】2016年4月6日
【申请日】2015年11月26日