一种基于改进Apriori算法的数据库关联规则挖掘方法

文档序号:9564680阅读:799来源:国知局
一种基于改进Apriori算法的数据库关联规则挖掘方法
【技术领域】
[0001] 本发明公开了一种基于改进Apriori算法的数据库关联规则挖掘方法,重点涉及 在用正交链表存储矩阵表示事务数据库的基础上,对Apriori算法的频繁项目集生成过程 进行改造优化,属于计算机数据挖掘及信息处理技术领域。
【背景技术】
[0002] 在大数据技术发展如火如荼的今天,人们逐渐意识到数据即是财富,尤其是对商 业数据的分析更具有巨大的实用价值。关联规则分析作为数据挖掘的主要手段之一,是数 据挖掘技术中不可或缺的一个重要组成部分,主要用于发现大型事务数据库中隐含的有价 值的令人感兴趣的联系及规则。因此,对关联规则算法的研究具有非常重要的意义。
[0003] 早在1993年,IBM的计算机科学家R. Agrawal等人在顾客交易数据库中发现了顾 客在购买商品时的购买规律,提出了事务之间的相关性模式,即最初的关联规则。关联规则 通常是一种不复杂但实用性却很高的规则。通过关联规则分析,我们可以将事务项集与项 集之间的关系挖掘出来。关联规则分析最典型的应用是购物篮数据分析,比如经典的{:啤 酒} - {尿布}规则。除了可以应用于购物篮数据之外,关联规则分析在其它领域的应用 也十分广泛,如电子商务个性化推荐,金融服务,广告策划,生物信息学及科学数据分析等。 比如说在电子商务个性化推荐中,关联规则可以帮助电子商务网站向具有相似消费行为的 顾客进行一些他们可能感兴趣的商品推荐,这样有助于电子商务网站提升用户体验,增加 盈利等。
[0004] 关联规则分析算法较多,其中最经典实用性最好的是Apriori算法及其改进算 法。Apriori算法[1]是由Agrawal和Swami于1994年提出的第一个关联规则算法,应 用广泛,该算法通过重复循环执行连接、剪枝生成频繁项目集,从而建立关联规则。基于 Apriori算法,Yang等人提出了 Apriori-TFP算法[2],该算法在关联规则挖掘过程中,将 原始数据进行预处理并存储在局部支持树中,最后生成关联规则。该算法通过有效的预处 理,降低了关联规则挖掘的时间,但是需要扫描数据库的次数仍然较多。Zhang等人提出 了 GP-Apriori 算法[3],GP-Apriori 算法米用图形处理器(Graphical Processing Unit, GPU)进行并行化的支持度计数,并将垂直交易列存储为线性有序阵列。GPU通过遍历该 有序阵列,并执行按位交叉实现支持度计算,并将结果复制回内存。与传统CPU上运行的 Apriori算法相比,GP-Apriori算法由于采用了先进的GPU提高了运行速率,但是复杂性 反而有所增长。Delighta等人也提出了 Apriori的改进算法(Apriori Mend Algorithm) [4]。该算法使用哈希函数生成项目集,用户必须指定最小支持度以删除不需要的项集。该 算法具有比传统Apriori算法更好的效率,但是执行时间有所增加。Ning等基于MapReduce 框架实现了乐Apriori算法的并行化[5]。该算法在处理海量数据集时具有良好的可扩展 性和效率,但是该算起需要强大的计算和存储能力支撑,通常运行在集群环境中。Sulianta 等人在文献[6]中尝试将Apriori算法应用于多维数据分析,探讨了在多维数据中建立关 联规则更加具体有效的方法。Sheila等人在文献[7]中对Apriori算法进行了改进,引入 了事务尺寸和事务规模的概念以消除非重要项目的影响。Feng等人在文献[8]中提出了 一种基于矩阵的ApriOTi算法,该算法通过矩阵有效的表示数据库的各种操作,并用基于 矩阵的AND操作得到最大的频繁项目集。Hu等人在文献[9]中应用关系理论思想,引入 了项目可辨识向量及其"与"运算,设计了一种快速挖掘算法-SLIG (Single-level Large ItemsetsGeneration)算法,将频繁项目集的产生过程转化为项目集的关系矩阵中向量运 算过程。该算法克服了 ApriOTi及其相关算法产生大量候选集和需多次扫描数据库的缺 点,但是需要的存储空间较大。
[0005] 文献引用
[0006] [1]R. Agrawalj R. Srikant et al·· Fast algorithms for mining association rules (挖掘关联规则的快速算法),Proc. 20th Int. Conf· Very Large Data Bases,VLDB,v ol. 1215, pp. 487-499, September 1994.
[0007] [2] Z. Yang, ff. Tang, A. Shintemirovj and Q. ffu. Association rule mining-based dissolved gas analysis for fault diagnosis of power transformers (基于关耳关 规则挖掘的电力变压器故障途断溶解气体分析),Systems,Man,and Cybernetics,Part C:Applications and Reviews, IEEE Transactions on,vol.39,no.6,pp. 597-610, 2009.
[0008] [3]F. Zhang, Y. Zhang, and J. D. Bakos. Gpapriori : Gp u-accelerated frequent itemsetmining (基于图形处理器加速的频繁项集挖掘),in CLUSTER. IEEE,2011,pp. 590-594.
[0009] [4] I. S. P. J. D. Magdalene DelightaAngeline. Association rule generation using Apriorimend algorithm for student's placement (基于改进Apriori 算法的关耳关 规则生成算法),vol. 2, no. 1,2012, ρρ· 78-86.
[0010] [5]N. Li, L. Zengj Q. He, and Z. Shi. Parallel implementation of apriori algorithm based on MapReduce (基于 MapReduce 的 Apriori 算法的并行实现),in Software Engineering,Artificial Intelligence, Networking and Parallel Distributed Computing (SNPD),201213th ACIS International Conference on,2012, pp. 236-241.
[0011] [6]F. Suliantaj T. H. Liongj and I. Atastina. Mining food industry's multidimensional data to produce association rules using Apriori algorithm as a basis of business strategy (基于Apriori算法的面向食品工业多维数据的企业战略 关联规则挖掘算法),in Information and Communication Technology (ICoICT),2013Int ernational Conference of,2013, pp. 176-181.
[0012] [7]S.A.Abaya. Association rule mining based on Apriori algorithm in minimizing candidate generation(基于 Apriori 算法的最小生成候选关 耳关规贝丨J 挖掘算法),International Journal of Scientific and Engineering Research, vol. 3, no. 7, pp. 1-4, July 2012.
[0013] [8]Wang Feng, Li Yong-hua. An Improved Apriori Algorithm Based on the Matrix ( -种基于矩阵的改进 Apriori 算法),fbie,pp. 152-155, 2008International Seminar on Future BioMedical
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1