本发明属于电子商务领域,涉及的是基于web日志的用户行为相似度的业务流分析的一种新方法。
背景技术:
随着网络的迅速发展,囤积在互联网上的数据也越来越多。移动互联网推动消费模式共享化、设备智能化和场景多元化。随着互联网信息的普及化,人们可以从中获得娱乐,知识以及商机。面对如此海量的信息,如何快速提取所需要的信息是web用户所关心的问题之一。与此同时,对web站点的拓扑结构的设计以及功能也提出了更多的要求。比如,如何改善网站的结构以方便用户迅速找出所需要的信息;如何为用户提供个性化服务;如何发现潜在的访问群体,为不同的访问群体做出准确的市场定位。
因此,一种将传统数据应用于web领域的技术-web挖掘应用而生。因为web日志具有完美的结构,其包含的信息反映了用户浏览行为特点为web挖掘提供了良好的前提条件,所以在web日志挖掘中关于用户访问路径相似度的评价方法具有良好的实际应用价值。但是,到目前为止有关用户访问路径的相似度计算大部分是基于集合之间的交集运算,都对行为序列的时间信息进行了弱化,不能真正的反映出用户间的差异。所以,有必要提出一种方法同时考虑用户行为以及行为所持续的时间长度等因素,并在一定程度上保证所提出的方法是有效的。
技术实现要素:
基于背景技术存在的技术问题,本发明提出了一种基于web日志的用户行为相似度的业务流分析的新方法。
本发明提出的一种基于web日志的用户行为相似度的业务流分析的新方法,主要包括以下步骤:
s1、对所选取的数据集(该数据集来源于datatang.com共享平台)中的用户的日志文件进行清洗,过滤等预处理。接着,把从数据集中抽取一部分用户日志作为分析对象,提取出用户行为以及行为所持续的时间长度等因素。
s2、基于序列对齐方法提出含时间的对齐方法计算用户的行为相似度。
s3、通过事件隶属度的概念,提出了基于行为属性的用户聚类算法。
s4、将所得到的聚类结果与传统的spss聚类结果进行对比。
附图说明
图1是本发明的一种实施流程流程图。
图2是本发明的一种相似度算法步骤。
图3是本发明的所提出的一种聚类算法。
具体实施方式
本发明利用网络用户的cookies日志,考虑用户行为以及行为所持续的时间长度等因素,提出用户行为相似度计算方法,并在此基础上通过事件隶属度的概念,提出了基于行为属性的用户聚类算法。最后,利用自动程序采集到的web用户事件日志,对所提出的相似度计算方法和聚类算法进行分析验证。
以下结合附图对本发明作进一步的说明。
图1是本发明的一种实施流程流程图,包括web用户相似度计算方法和web用户聚类算法,如图1所示。
图2是web用户的相似度计算方法步骤图,其主要步骤如下所示:
step1:i=1,j=1;
step2:if(ti=aj)
(|ti-aj|)/进行补偿操作/
i++,j++;
elseif(ti≠aj)
(|ti-aj|*|i-j|);/重排操作/
i++,j++;
step3:i=n
step4:
step5:
/结束/
returnsim(u1,u2)。
图3所示,通过事件隶属度的概念,提出了一种基于行为属性的用户聚类算法,其主要步骤如下所示:
输入:相似度矩阵,相似度阙值λ0
输出:web用户聚类结果集合
步骤:
step1:输入相似度矩阵,取除对角线外所有元素的平均值作为相似度阈值λ0,
其中
step2:用三元组∑=(i,j,sim(ui,uj))(其中的元素分别代表行号,列号,相似值;且(i≠j))表示出相似矩阵的前(n-1行)每一行的最大值;
step3:根据相似度矩阵中的元素适当的调节相似度阈值,使得λ=γλ0(其中γ为调节系数,其中0≤γ≤1),使分类的精度较高;
step4:将所得到三元组中的相似度值分别与相似度阈值比较,大于阈值的元素所在的行号和列号对应的元素归为一类,小于阈值的所在行号的的元素单独归为一类。即如果sim(ui,uj)≥λ,那么class1={useri,userj}。如果sim(ui,uj)<λ,则class2={useri}
step5:根据相似性的传递性,需合并
step6:如果类间有交集,则用隶属度概念判别该交集项所属的类;
step7:由所提出的相似度方法计算类间相似度,得到由类间相似度构成的相似度矩阵,继续上面的步骤直到得到需要的分类结果。