基于相似性传播与流行度降维的混合推荐方法

文档序号:6626202阅读:279来源:国知局
基于相似性传播与流行度降维的混合推荐方法
【专利摘要】本发明涉及一种基于相似性传播与流行度降维的混合推荐方法,对稀疏的数据进行了两阶段处理,首先通过相似性传播方法,利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居,从而填充为零的元素;之后,考虑到原始数据存在无意义的垃圾Tag问题,将搜索引擎中的评分算法引入进来计算Tag的流行度,删除流行度低于某个阈值的Tag以精简数据,从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来,既可以使得推荐结果具有多样性,又可以一定程度上缓解稀疏性和冷启动的问题。提供了对个性化推荐过程中数据稀疏性问题的一种解决方法,该方法对推荐结果精度高,具有准确性高、可靠性高的优点。
【专利说明】基于相似性传播与流行度降维的混合推荐方法

【技术领域】
[0001]本发明涉及一种数据挖掘的个性化推荐技术,特别涉及一种基于相似性传播与流行度降维的混合推荐方法。

【背景技术】
[0002]在个性化推荐算法的研究中,社会化标签作为一种重要的显示评分技术,不仅可以描述资源而且可以表征用户的偏好,因此结合社会化标签的推荐正成为互联网推荐引擎中的研究热点。然而大多数推荐算法的研究都面临着数据稀疏性的问题。目前解决稀疏性问题的研究方法主要分为采用各种技术对矩阵进行填充和数据降维两大类。
[0003]在对矩阵进行填充方面,最简单的矩阵填充方法是将用户未评分项目设为一个固定的缺省值,可以是用户对其他项目的平均评分值或其他用户对该项目的平均评分值,但该方法对用户的推荐质量有待提高。另一种矩阵填充方法是采用预测填充方法,如采用BP神经网络对项目进行预测,但网络模型的学习速度较慢,算法效率较低,而且对用户的推荐质量有待提高;采用朴素贝叶斯方法估算项目所属的分类,利用此类中其他项目的评分来预测未评分项目的评分,从而减小数据稀疏性。另外有一些研究利用相似性传播的方法,假定用户的品味具有传递性,并利用此传递性对矩阵进行填充,这些方法对用户的推荐质量有明显的提升。但是,目前基于相似性传播来填充矩阵的方法只考虑了两维空间:用户和资源。将Tag这一维空间考虑进来解决数据稀疏性问题更有意义。
[0004]在数据降维方面,采用奇异值分解技术可以减少向量空间的维数。有些研究将主成分分析(PCA)用在推荐中,利用主成分分析对评分数据预处理,原始评分数据被投射到最相关的主特征向量上。还可以采用聚类的方法,利用用户间相似性对用户聚类,将离目标用户最近的一个类的所有用户作为其邻居,从而对数据进行降维度。这些方法的优点是能有效提高推荐系统的预测准确率,不足之处是算法的复杂度比较高。


【发明内容】

[0005]本发明是针对推荐算法中数据存在稀疏性的问题,提出了一种基于相似性传播与流行度降维的混合推荐方法,提供了对个性化推荐过程中数据稀疏性问题的一种解决方法,该方法对推荐结果精度高,具有准确性高、可靠性高的优点。
[0006]本发明的技术方案为:一种基于相似性传播与流行度降维的混合推荐方法,具体包括如下步骤:
[0007]I)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵,
[0008]其中:U = Iu1, u2,, um}表示m个用户集合,R= Ir1, r2,..., rj表示η个资源集合,T= It1, t2,..., tp}表示 P 个 Tag 集合;
[0009]2)相似性计算:通过步骤I)所得二元数据模型,采用pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵;
[0010]3)相似性传播:利用步骤2)所得相似矩阵对步骤I)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为O的元素;
[0011]4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维;
[0012]5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。
[0013]所述步骤I)三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID,Tag1, Tag2,…,Tagq,其中q≤ρ,表示用户对一个资源标注了一组标签,稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示:

【权利要求】
1.一种基于相似性传播与流行度降维的混合推荐方法,其特征在于,具体包括如下步骤: 1)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵, 其中:U = Iu1, u2, , um}表示m个用户集合,R = Ir1, r2,..., rj表示η个资源集合,T = It1, t2,..., tp}表示 P 个 Tag 集合; 2)相似性计算:通过步骤I)所得二元数据模型,采用Pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵; 3)相似性传播:利用步骤2)所得相似矩阵对步骤I)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为O的元素; 4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维; 5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。
2.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤I)三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID, Tag1, Tag2,..., Tagq,其中q ( P,表示用户对一个资源标注了一组标签,稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示:

Utuj表示用户Ui使用Tag tj标注的资源数;
表示资源巧被了&8 tj标注的用户数。
3.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算: 用户间的相似矩阵UU的元素UUm表示用户Ui与用户+的相似性,该相似性分别通过UR矩阵和UT矩阵来计算,然后取两个相似性的均值,公式为:
其中,Simiij(UR)是根据矩阵UR得到的用户Ui和用户Uj的相似性,Simiij(UT)是根据UT矩阵得到的用户Ui和用户+的相似性;资源间相似性矩阵RR的元素rri, j表示资源ri与r」的相似性,该相似性分别通过UR矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:
其中,(【W)是根据矩阵UR得到的资源ri和资源&的相似性,Simri,r.(RT)是根据RT矩阵得到的资源&和资源&的相似性; Tag间相似性矩阵TT的元素tti, J表示Tag t,与相似性,该相似性分别通过UT矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:
其中,(W)表示利用矩阵UT得到的Tag ti与tj相似性,Simtutj (灯)表示利用矩阵RT得到的Tag \与tj相似性。
4.根据权利要求3所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述相似性计算:
其中,R(Ui)表示用户Ui标注的资源集合,R(Uj)表示用户+标注的资源集合;r为用户4和用户+共同标注的资源;表示用户Ui对资源r的偏好值:表示用户Ui对所有标注过的资源的平均偏好值;表示用户对资源r的偏好值,‘表示用户对所有标注过的资源的平均偏好值;
其中,T(Ui)表示用户Ui标注的Tag集合,T(Uj)表示用户Uj标注的Tag集合;t为用户Ui和用户U」共同标注的Tag ; Utuut表示用户Ui对.Tagt的偏好值,^表示用户Ui对.所有.标注过:的Tag的平均偏好值; Hf ,t表示用户Uj对Tagt的偏好值,Ut^表示用户Uj对所有标注过的Tag的平均偏好值;
其中,U(r,)表示标注资源ri的用户集合,U(rj)表示标注资源&的用户集合;u为同时标注资源A和资源&的用户; uru,n表示用户u对资源ri的偏好值,表示所有标注过资源&的用户对资源ri的平均偏好值; uru’rj表示用户u对资源&的偏好值,^表示所有标注过资源&的用户对资源rj的平均偏好值;
其中,T Cri)表示资源η被标注的Tag集合,TCrj)表示资源r」被标注的Tag集合;t为同时标注资源A和资源r」的Tag ; ?η,?表示资源A对Tag t的偏好值,表示资源A对所有标注过的Tag的平均偏好值;表示资源L对Tag t的偏好值,Tt^j表示资源&对所有标注过的Tag的平均偏好值;
其中,UCti)表示Tagti被标注的用户集合,U (tj)表示Tagti被标注的用户集合;u为同时标注Tagti与tj的用户;表示用户t的偏好值,表示所有标注过的Tag \的用户对Tag \的平均偏好值; ?4&表示用户u对Tag tj的偏好值,Ut I表示所有标注过的Tag t」的用户对Tag tj的平均偏好值;
其中,IUti)表示Tag \被标注的资源集合,R(tp表示Tag \被标注的资源集合;r为同时标注Tag ti与tj资源;
表示资源I^iTag ti的偏好值,rt (.表示所有标注过的Tag 1^的资源对Tag的平均偏好值;
表示资源r对Tagtj的偏好值,rtit.表示所有标注过的Tag tj的资源对Tag tj的平均偏好值。
5.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤3)相似性传播公式如下:
其中,i表示相似性传播迭代的次数; UTt, RTt和URt分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵; (UT)i+1、(RT)i+1和(UR)i+1分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵。
6.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤4)流行度降维算法基于如下假设:被高素质用户用高质量的Tag标注的资源具有更高价值,而用高质量的Tag标注高价值资源的用户也具有更高的素质,被高素质的用户用来标注高价值资源的Tag通常具有更高的质量,通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,根据流行度进行删除,删除流行度低的垃圾Tag,流行度降维公式为:
Tj+\ =M Ir X Rj 其中,j表示流行度降维迭代的次数I为所有Tag的流行度矢量;Ri为所有资源的流行度矢量;Ui对所有用户的流行度矢量;初始化Ttl都设为1,即Ttl = (1,1, , I) ;MTU, Mue和Mkt分别为传播后的TU矩阵、UR矩阵和RT矩阵;MTTU,MTUK和Mtkt分别表示传播后的TU矩阵、UR矩阵和RT矩阵的转置矩阵。
7.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤5)将基于内容的推荐和协同过滤推荐两种方法结合起来,预测结果值如下:Rankaybrid (Ui, r」)=a Rankcontent (Ui, + (1- a ) Rankcp (Ui, r」) 其中,Rank。— (Ui,rp为基于内容推荐算法得到的用户Ui对资源的评分;Rankcp(Uijrj)为协同过滤推荐算法得到的用户Ui对资源&的评分;α为平衡因子(O < α<D ;
Rankcontent (Ui, Tj)的计算公式为:
Rankcontent(ui; Tj) = sim(Utij, Ttjj) 其中,Uti表示UT矩阵中用户Ui对所有Tag的偏好矢量,表示为Uti = (utia,Utij2,…,Uti, p) ;rtj表示RT矩阵中资源r」对所有Tag的偏好矢量,表示为rt」=(rtja, rtJj2,...,rtJ, P); Sim(Utyrtj)为传统的修正的余弦相似度公式,公式如下:
其中,T为标签集合,UtUi,tt,分别表示用户Ui和资源L对Tag的平均偏好值;Utua为用户Ui对Tag t的偏好值;rtrj,t为资源rj对Tag t的偏好值; 利用UU相似性矩阵,可选出用户Ui的前m个最近邻居集合AWui,用户Ui对资源rj的预测评分Rank^^Ui, !」)的计算公式如下:
其中,uru.和urUk分别表不用户Ui和用户uk的平均评分值为用户Ui和用户Uk的相似性;urUk,rj为用户Uk对资源h的评分,MVlii表示用户Ui的最近邻居集合。
【文档编号】G06F17/30GK104182543SQ201410452338
【公开日】2014年12月3日 申请日期:2014年9月5日 优先权日:2014年9月5日
【发明者】赵海燕, 郭娣 申请人:上海理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1