协同过滤推荐系统中的用户可用度的计算方法
【专利摘要】本发明涉及一种协同过滤推荐系统中的用户可用度的计算方法,包括下列步骤:构建用户?项目评分矩阵;采用皮尔森相似度计算方法计算用户间相似度;计算各个用户对目标用户的可用系数,计算方法如下:当某用户与目标用户之间的相似度值小于0时或者目标用户所评价的项目包含该用户所评价的所有项目,则定义该用户对目标用户的可用度系数为0,当某用户与目标用户之间的相似度值不小于0或者该用户所评价的项目中含有目标用户所未评价的项目时,则定义该用户对目标用户的可用度系数为两个用户的共同评分项目中评分都大于评分区间中值的项目个数与目标用户评分项目数的比值;计算各个用户对目标用户的可用度;推荐。本发明可以提高推荐的准确度。
【专利说明】
协同过滤推荐系统中的用户可用度的计算方法
技术领域
[0001] 本发明设及一种在基于用户的协同过滤推荐系统中的用户可用度的计算方法。
【背景技术】
[0002] 伴随着互联网的飞速发展,信息数据资源与日俱增已如汪洋大海一般,运导致互 联网在支持信息共享时陷入"信息过载"问题之中,其中电商领域的"信息过载"问题尤为严 重。消费者在网上采购时面对海量的产品信息,往往很难及时发现自己最喜欢或最合适的 产品。电子商务网站为获取更高利润,吸引更多用户并提高用户粘性,必须考虑如何有效地 将商品或网站内容呈现给用户,提高服务质量,节约用户时间和精力。在此背景下,个性化 推荐系统应运而生,并被广泛应用。个性化推荐系统可W解决传统捜索引擎无法提供个性 化服务的问题,通过收集并分析用户历史行为信息,将用户和项目紧密相连,为用户提供其 感兴趣的商品。同时,推荐系统也方便供应商把商品呈现给用户,实现用户和供应商双赢。
[0003] 在众多个性化推荐技术中,基于内存的协同过滤算法是现今最成功的推荐技术之 一,已广泛应用于电子商务系统中。其核屯、思想是基于用户-项目评分数据集,利用与目标 用户相似的最近邻居的评分信息为目标用户做出推荐。其优点在于不需要分析项目专业领 域特征,方便处理非结构化的项目。但是,随着电子商务平台用户和项目数量的不断增加, 用户评分稀疏,导致用户之间的相似性存在较大误差,进而影响最近邻居的选取。
【发明内容】
[0004] 本发明提供一种协同过滤推荐系统中的用户可用度的计算方法,可W为目标用户 提供具有更高推荐能力且更加相似的用户作为最近邻居,进而提高推荐的准确度。为了达 到上述目的,本发明采用如下的技术方案:
[0005] -种协同过滤推荐系统中的用户可用度的计算方法,包括下列步骤:
[0006] (1)构建用户-项目评分矩阵;
[0007] (2)采用皮尔森相似度计算方法计算用户间相似度;
[000引(3)计算各个用户对目标用户的可用系数,计算方法如下:当某用户与目标用户之 间的相似度值小于0时或者目标用户所评价的项目包含该用户所评价的所有项目,则定义 该用户对目标用户的可用度系数为0,当某用户与目标用户之间的相似度值不小于0或者该 用户所评价的项目中含有目标用户所未评价的项目时,则定义该用户对目标用户的可用度 系数为两个用户的共同评分项目中评分都大于评分区间中值的项目个数与目标用户评分 项目数的比值;
[0009] (4)计算各个用户对目标用户的可用度,可用度等于可用系数与相似度的乘积;
[0010] (5)将可用度排序,向目标用户推荐对其可用度较大的那些用户。
[0011] 本发明提出的用户可用度的计算方法,通过计算其他用户对目标用户的可用度, 不仅可W为目标用户挖掘出与其相似性较高的用户,而且可W为目标用户排除对其具有较 低推荐能力的用户,进而为目标用户选取高质量的最近邻居集。通过该方法可W有效提高 推荐的准确度,并在一定程度上改进数据稀疏性问题。
【附图说明】
[0012] 图1是可用度计算流程图。
【具体实施方式】
[0013] 本发明的【具体实施方式】是:
[0014] (1)首先采集数据,数据可W在推荐系统的数据库中获取,然后构建如下的用户- 项目评分矩阵:
[0015]
[0016] 其中,用户总数为m,项目总数为n,Ru为用户i对项目j的评分,如在MovieLens数据 集中Rij取值范围为1~5,评分越高,表明用户i对项目j的喜好程度越大。
[0017] (2)计算用户间的相似度,运里采用经典的皮尔森相似度计算方法,具体方法如下 所示:
[001 引
[0019] 其中,a和b代表两个用户,sim(a,b)表示用户a和b之间的相似度,Ra康示用户a对 项目i的评分,Iab表示两个用户的共同评分项集,表示用户a的评分均值, Ia I表示用户a评价过的项目个数。
[0020] (3)计算可用系数,可用系数的计算方法如下:当某用户与目标用户之间的传统相 似度值小于0或者目标用户所评价的项目包含该用户所评价的所有项目时,则定义该用户 对目标用户的可用系数为0。当某用户与目标用户之间的传统相似度值不小于0时且该用户 所评价的项目中含有目标用户未评价的项目,则定义该用户对目标用户的可用系数为两个 用户的共同评分项目中评分都大于评分区间中值的项目个数(例如评分范围为1~5分时, 评分区间中值则为3)与目标用户评分项目数的比值。如果用A(a,b)表示用户b对用户a的可 用度,表示用户a的评分数据中大于评分区间中值的项目数,则A(a,b)计算公式如下:
[0021]
[0022] (4)可用度等于可用系数与传统相似度的乘积,可W表示为:
[0023] usa(a,b) =A(a,b) X sim(a,b)。
【主权项】
1. 一种协同过滤推荐系统中的用户可用度的计算方法,包括下列步骤: (1) 收集历史记录中的用户-项目评分数据,构建用户-项目评分矩阵; (2) 采用皮尔森相似度计算方法计算用户间相似度; (3) 计算各个用户对目标用户的可用系数,计算方法如下:当某用户与目标用户之间的 相似度值小于〇时或者目标用户所评价的项目包含该用户所评价的所有项目,则定义该用 户对目标用户的可用度系数为〇,当某用户与目标用户之间的相似度值不小于〇或者该用户 所评价的项目中含有目标用户所未评价的项目时,则定义该用户对目标用户的可用度系数 为两个用户的共同评分项目中评分都大于评分区间中值的项目个数与目标用户评分项目 数的比值。 (4) 计算各个用户对目标用户的可用度,可用度等于可用系数与相似度的乘积; (5) 将可用度排序,向目标用户推荐对其可用度较大的那些用户。
【文档编号】G06F17/30GK106021558SQ201610370999
【公开日】2016年10月12日
【申请日】2016年5月27日
【发明人】金志刚, 张子洋, 罗咏梅
【申请人】天津大学