一种基于用户浏览行为的网页推荐方法

文档序号:6624134阅读:1076来源:国知局
一种基于用户浏览行为的网页推荐方法
【专利摘要】本发明涉及一种基于用户浏览行为的网页推荐方法,其特征在于:步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;步骤2:对页面内容进行文本分析,获得页面的特征项;步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。
【专利说明】一种基于用户浏览行为的网页推荐方法

【技术领域】
[0001]本发明涉及一种基于用户浏览行为的网页推荐方法。

【背景技术】
[0002]在网络技术飞速发展的今天,信息和资源也随之迅猛增长。在网络方面这种趋势显得尤为突出。面对Web上如此庞大的信息资源,Web上的“信息迷航”和“信息过载”等问题也在加剧。为了防止此类问题的愈演愈烈,有必要提供一种基于用户浏览行为的网页推荐方法,在Web上寻找更相关的信息以满足不同用户的个性化需求。


【发明内容】

[0003]本发明目的在于提供一种基于用户浏览行为的网页推荐方法,通过获取并分析用户的浏览行为数据,向用户推荐他可能感兴趣的网页,满足用户的个性化需求。
[0004]实现本发明目的技术方案:
[0005]一种基于用户浏览行为的网页推荐方法,其特征在于:
[0006]步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;
[0007]步骤2:对页面内容进行文本分析,获得页面的特征项;
[0008]步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;
[0009]步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;
[0010]步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。
[0011]步骤I中,利用浏览器监听页面的创建和消亡、鼠标滚轮的滑动,统计页面的停留时间;利用在浏览器中得到所有页面url,对页面源代码即页面内容进行获取。
[0012]步骤2中,首先对网页中的干扰信息进行清理,所说的干扰信息为HTML页面的框架结构信息、超链接信息或者脚本信息。
[0013]步骤2中,文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,N值由用户设定。
[0014]步骤3中,兴趣类权值计算公式如下所示:
[0015]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0016]兴趣等级InterestDegree(Ij),表示用户兴趣类权值;
[0017]页面停留时间等级ViewtimeDegree(Ij),表示用户在每一关键词中花费的时间时间占总浏览时间的比值,Ij e T,T表示特征集合;
[0018]关键词兴趣等级KeywordDegree (Ij),表示每一关键词在主题词集合T中出现的次数占关键词的总数的比值,Ij e T,T表示特征集合。
[0019]本发明具有的有益效果:
[0020]本发明在用户进行浏览网页时,利用浏览器将每个页面的停留时间以及页面内容收集起来;在数据预处理阶段,对页面内容进行文本分析,获得页面的特征项;根据页面停留时间和特征项出现频率分析出用户对每个特征项的兴趣程度,得到用户的当前兴趣模型;最后根据页面停留时间和特征项对用户兴趣的影响分析出用户对每个特征项的兴趣程度,得到用户的当前兴趣,将相关网页推送给用户。本发明不仅能够自动记录用户行为,实时分析,挖掘用户当前的兴趣偏好,还可以掌握用户对所有兴趣的喜爱程度,可以利用此信息进行实时的个性化推荐服务。
[0021]本发明在数据预处理阶段即步骤2中,首先对网页中的干扰信息进行清理,在文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,能够有效提高获得页面特征项的速度和准确率。本发明在步骤3中通过兴趣类权值计算公式,能够充分体现出用户对浏览网页的兴趣。

【具体实施方式】
[0022]步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;
[0023]利用浏览器监听页面的创建和消亡、鼠标滚轮的滑动,统计页面的停留时间;每当一个页面(PageA)加载完成时,浏览器会将此时的系统时间记录下来,作为页面停留时间的开始时刻T(StartA)。当这个页面进入非活跃状态时,也就是用户进行了关闭页面的操作或进行了新的网页浏览,浏览器就会再次记录系统时间,作为页面停留时间的结束时刻T(endA)。那么用户在此页面的页面停留时间StayTime (pageA)就等于结束时刻与开始时刻的时间差。页面停留时间计算公式如下:
[0024]StayTime(pageA) = T(endA)-T(startA)
[0025]利用在浏览器中得到所有页面url,对页面源代码,即页面内容,进行获取。
[0026]步骤2:对页面内容进行文本分析,获得页面的特征项;
[0027]首先对网页中的干扰信息进行清理,所说的干扰信息为HTML页面的框架结构信息、超链接信息或者脚本信息。
[0028]文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,N值由用户设定,本实施例中,N取7。
[0029]步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;
[0030]在用户兴趣挖掘阶段,考虑到页面停留时间和特征项对用户兴趣的影响,对用户每一兴趣类进行兴趣强度计算,即计算用户兴趣类权值。
[0031]兴趣等级InterestDegree (I」):表示用户兴趣类权值。
[0032]页面停留时间等级ViewtimeDegree (I」)(I」e Τ) (T表示特征集合)::表示用户在每一关键词中花费的时间时间占总浏览时间的比值。
[0033]关键词兴趣等级KeywordDegree (Ij) (Ij e T):表示每一关键词在主题词集合T中出现的次数占关键词的总数的比值。
[0034]兴趣权值计算公式如下所示:
[0035]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0036]通过计算页面停留时间等级和关键词兴趣等级,就可计算出用户对每个兴趣类的兴趣强度,从而得到用户兴趣表示。
[0037]用户兴趣表示为:((I1,InterestDegree (I1)), (I2, InterestDegree (I2)),...,(In, InterestDegree (In))。
[0038]其中,In表示用户的兴趣类,InterestDegree(In)表示In对应的用户兴趣类权值。
[0039]经过文本分析后,就可以利用特征项表示页面内容,构建向量空间模型。对于页面集合 P = (P1, Pa,, pn}中的任意页面 Pi (1< = i〈 = η),表示成 Pi = {(tn, wn),(ti2, wi2),...,(tin, win)} (n> = I)。其中 tik(l〈 = k〈 = n)表示页面的特征项,wik(l< = k〈 = η)表示特征项对应的权值。在向量空间模型下,使用特征项的权重集合表示页面向量,页面Pi和Pj的页面向量分别为Pi (Wil, wi2,...,win), Pj (Wj1, Wj2,...,wJn)。两个页面之间的相似度Sim(PpPj)的公式为:

【权利要求】
1.一种基于用户浏览行为的网页推荐方法,其特征在于: 步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息; 步骤2:对页面内容进行文本分析,获得页面的特征项; 步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值; 步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来; 步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。
2.根据权利要求1所述的基于用户浏览行为的网页推荐方法,其特征在于:步骤I中,利用浏览器监听页面的创建和消亡、鼠标滚轮的滑动,统计页面的停留时间;利用在浏览器中得到所有页面url,对页面源代码即页面内容进行获取。
3.根据权利要求2所述的基于用户浏览行为的网页推荐方法,其特征在于:步骤2中,首先对网页中的干扰信息进行清理,所说的干扰信息为HTML页面的框架结构信息、超链接信息或者脚本信息。
4.根据权利要求3所述的基于用户浏览行为的网页推荐方法,其特征在于:步骤2中,文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,N值由用户设定。
5.根据权利要求4所述的基于用户浏览行为的网页推荐方法,其特征在于:步骤3中, 兴趣类权值计算公式如下所示:
InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij) 兴趣等级InterestDegree(Ij),表示用户兴趣类权值; 页面停留时间等级ViewtimeDegree (Ij),表示用户在每一关键词中花费的时间时间占总浏览时间的比值,Ij e T,T表示特征集合; 关键词兴趣等级KeywordDegree (Ij),表示每一关键词在主题词集合T中出现的次数占关键词的总数的比值,Ij e T,T表示特征集合。
【文档编号】G06F17/30GK104199874SQ201410412077
【公开日】2014年12月10日 申请日期:2014年8月20日 优先权日:2014年8月20日
【发明者】姚念民, 张薇 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1