一种基于dm的农业信息精准推送的方法

文档序号:6370733阅读:163来源:国知局
专利名称:一种基于dm的农业信息精准推送的方法
技术领域
本发明涉及信息处理领域,具体涉及一种利用数据库挖掘技术(DateMining, DM)提高访问动态数据库时的精准信息推送方法。
背景技术
农业信息化的快速发展与广大用户需求的个性化,加剧了庞大而无序的海量信息库与用户需求之间的矛盾。到2015年,信息化将在农业全领域普遍应用,将建成服务智能推送、渠道丰富多样的综合信息服务体系,实现实时准确的农业信息服务。目前各大网站为用户推荐的信息基本都是从资源内容关联的角度进行推荐,没有考虑用户的历史浏览行为之间的关联。近几年,利用关联分析等数据挖掘技术对互联网的访问记录进行深度挖掘已成为国内外科研人员研究的热点。农业信息精准推送的方法主要 分为两种基于用户行为分析的和基于内容关键词分析的。基于用户行为分析的信息推送方式,通过分析用户的访问与浏览行为,分析出用户的喜好和兴趣,将有相同喜好用户所普遍访问的信息推荐给该用户,进而为用户提供更加个性化和精准的信息推送服务。该方式存在的问题主要有对于不太活跃的用户或新用户信息推送效果不理想或无法提供精准信息推送服务。基于内容关键词分析的信息推送方式,将信息内容通过分词组件对其进行处理得到信息内容的关键词,再将含有这些关键词的信息内容推送给用户,从而实现信息的精准推送。该方式存在的问题主要有由于语言表述的差异,有可能内容相似的两条信息却没有共同的关键词,从而这两个信息之间的“相似”关系不被发现,无法实现两者之间的互相推荐。

发明内容
为解决现有技术中针对新用户或不太活跃用户在查询信息时,服务系统不能精确推送访问内容的问题,本发明提供一种综合考虑用户行为和内容关键词的高精准信息推送方式。具体方案如下一种基于DM的农业信息精准推送的方法,包括步骤I、对用户访问页面的规律进行分析;其特征在于,分析的规律包括步骤101、对用户相关行为进行分析并生成行为序列表;步骤102、对用户浏览页面内容的分析并生成内容序列表;步骤2、对行为序列表和内容序列表配以不同的权重后进行组合生成推荐序列表,根据推荐序列表为用户提供与用户访问页面信息相同或相近的其它页面。为提高用户行为的精确预测所述步骤101中用户相关行为分析的因素包括用户的历史浏览行为、当前页面的访问热度和当前页面的访问时间长短,针对上述信息采用Apriori关联算法对网站内其它页面进行关联,并将关联出的页面进行排序。为避免有关页面在关联性计算时被遗漏所述步骤101中Apriori关联算法在对关联出的页面进行排序时,包括对各个页面中的相关因素设定权重的步骤,设定权重的因素包括当前面的访问热度和当前页面的访问时间长短,首先将各个页面按访问热度的权重系数进行排序后,再利用访问时间长短的权重系数对排序的页面进行修正,最终生成行为序列表。为避免热门页面影响关联效果所述访问热度的权重系数设定标准是与其页面的访问热度成反比。
为方便新用户得到相似性页面的推荐所述步骤102中,对用户浏览的每个页面采用分词组件进行关键词排序,并针对每个页面建立一个关键词序列表,再利用TFX IDF根据关键词序列表在网站内其它页面中进行内容相关性分析,并将分析出的页面生成内容序列表。为提高最终推荐页面的精确性所述步骤2中将用户行为的分析结果与用户浏览页面的分析结果按不同的权重比例计算后进行排序,步骤如下步骤601、基于用户行为序列表和内容序列表,分别得到行为关联度倒序列表和内容相似度倒序列表;步骤602、通过各自列表的极值分别将关联度和相似度归一化映射为0-1区间的值;步骤603、按数值由大到小进行合并生成组合表,在组合表中,行为关联度优先于内容相似度且同一个页面中以较大的特征数值为准。为提高程序执行效率所述用户序列表和内容序列表的内容包括相同或相似页面的 url。为使新用户有针对性的页面推荐所述步骤I中包括对当前页面是否是常用页面的判断步骤,判断的依据是当前页面的点击量。本发明通过对访问用户意图的准确理解和涉及到的相关农业信息的寻优及生成,采集用户访问站点的访问记录,对采集的数据进行预处理;然后对数据进行挖掘,找出访问规则和用户集,建立访问站点的用户访问模式,最后按照用户访问模式结合其浏览行为关联和内容关联两个方面来实现一种新的农业信息精准推送方式。本发明通过分析用户访问规律和用户访问WEB页面的模式,针对用户的访问记录进行建模,同时以内容关键词相关和用户浏览行为相关两个方面作为依据,实现对于不活跃用户和新用户也能进行信息推送,同时推送的信息内容不受表达方式和关键词的限制。本发明还同时为用户提供了更便捷和广泛的信息内容,间接增加了用户获取的有用信息量和信息获取效率。本发明算法的设计考虑了用户的历史浏览行为、页面内容相关性、用户访问时间等重要因素,基于上述信息的相关性采用改进的Apriori关联算法对用户访问特点进行分析,从而确定用户的需求。WEB页面内容的相关性采用向量空间模型的TFX IDF方法计算其相互之间的相关度。最终将行为关联度与内容关联度之间进行有机的结合,并在用户浏览过程中不断优化各自阀值,从分析结构中为浏览网站的用户推荐正在阅读某一页面的相关信息,提高站点的信息利用效率。本发明能够实现下述有益效果(I)在用户不登陆信息系统且未安装任何客户端的情况下,利用插件根据用户访问记录分析出用户访问模式,从信息内容相关和浏览行为相关两个方面,实现相关信息的精准推荐。
(2)对其中个别数据挖掘关联算法进行改进,将用户访问的时间及页面的权重作为事务项的重要因素进行关联,最终提高算法的有效性。(3)在大量的相关访问记录进行自动分析的基础上,对网站结构和内容布局进行完善和优化,提高站点的信息服务水平和竞争力。


图I本发明的流程图。图2本发明的执行过程流程图。
具体实施例方式本发明通过分析用户访问规律及访问WEB页面的模式,针对用户的访问记录进行 建模,同时从内容关键词相关和用户浏览行为相关两个方面作为依据,实现对当前用户进行农业信息精准推送的方法。如图I所示,具体步骤包括101、对用户访问页面的规律进行分析;其中规律分析包括对用户相关行为进行分析并生成分析序列表和对用户浏览页面内容的分析并生成内容序列表两个方面。对用户相关行为进行分析并生成行为序列表的过程为首先对当前页面进行分析,包括对当前页面的历史浏览行为、当前页面的访问热度、当前页面访问的时间长短等因素分析,针对上述因素本发明采用改进的Apriori算法进行关联,Apriori算法的改进点在于下面两个方面(I)在动态数据库的适应性方面;现有Apriori算法在对Web页面进行关联推荐时,事先离线一次性生成所有关联规则,大概每两、三天才计算一次,这样对数据频繁变动的动态数据库,就无法及时发现较新的关联规则,推荐结果比较滞后、准确性稍差,尤其是对新生成的页面。本发明利用Apriori算法只生成针对特定页面的关联规则,极大的缩小了Apriori算法的搜索空间,提高了 Apriori算法的执行效率。同时,本发明采用插件的形式作用于当前页面,页面每次加载都执行,Apriori算法能够同步于动态数据库更新发现数据库中该页面的所有规则。(2)对“稀有项目”规则的发现性;现有Apriori算法的最小支持度是针对整个数据集的,对于比较生僻的页面其在整个数据库中的记录数量非常小,进而支持度也非常小。在Apriori算法中会被机械的认为是关联度不高的规则而被筛除掉,导致与该生僻页面相关的所有规则都不会被发现,即“稀有项目”问题。本发明利用Apriori算法将最小支持度换算为针对页面的最小支持度,再用转化后的最小支持度在与该页面有用户关联性的页面集范围内筛选可用的关联规则。因此,在本发明中Apriori算法对于再生僻的页面也能发现其相关的关联规则。对Apriori关联算法找出的所有关联页面,根据页面中的因素设定不同的权重,各页面的设定权重考虑的因素包括当前页面的访问热度和当前页面的访问时间长短,由于热门页面在关联规则挖掘中有潜在的优势,会普遍出现在多个页面的推荐列表中,因此本发明将每个页面的访问热度与其权重系数设置成反比,根据该权重系数与关联度的乘积对推荐结果页面进行排序并建立相应的行为序列表,从而削弱热门页面的潜在优势,当前页面的访问时间长短一定程度上反映了当前页面内容的重要性,本发明认为在上述各信息中,当前页面的访问时间长短是非常重要的一个因素,因此将每个页面的平均访问时间转化为当前页面的一个正比权重系数,用该权重系数对根据页面热度建立的行为序列表进行修正,以增加用户行为推荐的比重。对用户浏览页面内容的分析包括对用户浏览的每个页面首先采用分词组件进行关键词排序,并针对每个页面建立一个关键词序列表,然后采用向量空间模型的TFX IDF方法计算序列表与其它页面内容之间的相关度,在网站内找出关联性的页面并建立内容序列表。102、对行为序列表和内容序列表配以不同的权重后进行组合生成推荐序列表,根据推荐序列表为用户提供与用户访问页面信息相同或相近的其它页面。 将上述行为关联度的分析结果与内容相似度的分析结果进行有机的结合,首先生成目标页面的用户行为推荐和内容相关推荐各自的top 15页面列表(如果存在)。对于用户量很小的页面(生僻页面或者新页面),推荐结果为基于内容相似度的toplO ;对于有一定用户数的页面,为用户相关页面和内容相关分别设置权重数,在增加用户行为推荐的比重后,整合并重新排序所有推荐结果,最终选取综合列表的toplO。此外,不断优化各自权重,从内容相关和用户浏览行为相关两个方面作为依据,为浏览网站的用户推荐正在阅读某一页面的相关信息,提高站点的信息利用效率。其中对用户序列表和内容序列表进行结合时,采用下面的方法步骤如下(I)、基于用户行为序列表和内容序列表,分别得到行为关联度倒序列表和内容相似度倒序列表;(2)、通过各自列表的极值分别将关联度和相似度归一化映射为0-1区间的值;(3)、按数值由大到小进行合并生成组合表,在组合表中,行为关联度优先于内容相似度且同一个页面中以较大的特征数值为准。实施例I :如图2所示,下面以网站的web页面间的推荐为例,详细阐述本发明的工作过程I.用户点击进入某个网站的内容页A,开始浏览A页面的内容;2.网站将此次点击行为以消息形式传给精准推荐插件(即由本发明构成的插件),同时传递的参数还有该页面的url ;3.精准推荐插件通过访问日志数据和调用分词组件开始分析页面10 ①首先,判断A页面的类型是否常用20 :若A的点击量小于5,则认为A生僻页面或新页面,页面类型为0 ;否则,页面类型为I ;②通过分词组件获取A页面的关键词序列,并在网站范围内通过TFX IDF方法进行相关性内容分析30,得到内容相关推荐排序构成的内容序列表40的topl5 (不足15条的话,全部输出即可)页面的url,记录为listl。若A页面类型为0则取Iistl的toplO页面url执行⑤;③若A页面类型为I,通过用户行为分析60对用户访问模式采用改进的Apriori算法结合页面热度权重和页面平均访问时间权重排序策略,得到基于用户行为的关联构成的行为序列表70的topl5页面的url,记录为list2 ;④将Iistl与list2按不同的权重比例结合、去重、重新排序得到综合推荐页面列表list3。(该权重比例是各网站经过多次评估算法实验后得到的最优参数)取list3的top 10页面url执行⑤;⑤将这10个url通过接口返回网站;4.网站将获取的10个(或小于10个)推荐页面url在站内解析出其页面的标题或内容截取,并以超链接的形式在A页面底部进行展示;5.用户在A页面底部可以看到被推荐的10个页面的推荐内容50链接,并根据自身的兴趣点击浏览其中的内容。本发明从浏览行为相关和内容相似性的角度,完成网站内容相关信息的推荐,并根据运行效果对方法所采用的算法进行参数修订,通过评估算法分析一段时间内用户推荐 结果的满意度,从而对精准推荐方法中的各种权重系数进行调整与参数修订,通过反复实验,使用户的满意度能有所提高。评估算法的流程对一段时间网站内每个页面分类统计用户行为推荐和页面内容推荐被采用情况,分析用户的兴趣,从而对精准推荐的方法的参数进行调整。每个网站的用户兴趣有所差别,所以其最终推荐方法的参数设置也不同,真正体现了本发明的适用性与精准性,本发明可以应用于任何一个农业信息网站,用来为用户提供更个性化和精准的信息推送服务。
权利要求
1.一种基于DM的农业信息精准推送的方法,包括 步骤I、对用户访问页面的规律进行分析;其特征在于,分析的规律包括 步骤101、对用户相关行为进行分析并生成行为序列表; 步骤102、对用户浏览页面内容的分析并生成内容序列表; 步骤2、对行为序列表和内容序列表配以不同的权重后进行组合生成推荐序列表,根据推荐序列表为用户提供与用户访问页面信息相同或相近的其它页面。
2.如权利要求I所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述步骤101中用户相关行为分析的因素包括用户的历史浏览行为、当前页面的访问热度和当前页面的访问时间长短,针对上述信息采用Apriori关联算法对网站内其它页面进行关联,并将关联出的页面进行排序。
3.如权利要求I所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述步骤101中Apriori关联算法在对关联出的页面进行排序时,包括对各个页面中的相关因素设定权重的步骤,设定权重的因素包括当前面的访问热度和当前页面的访问时间长短,首先将各个页面按访问热度的权重系数进行排序后,再利用访问时间长短的权重系数对排序的页面进行修正,最终生成行为序列表。
4.如权利要求3所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述访问热度的权重系数设定标准是与其页面的访问热度成反比。
5.如权利要求I所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述步骤102中,对用户浏览的每个页面采用分词组件进行关键词排序,并针对每个页面建立一个关键词序列表,再利用TFX IDF根据关键词序列表在网站内其它页面中进行内容相关性分析,并将分析出的页面生成内容序列表。
6.如权利要求I所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述步骤2中将用户行为的分析结果与用户浏览页面的分析结果按不同的权重比例计算后进行排序,步骤如下 步骤601、基于用户行为序列表和内容序列表,分别得到行为关联度倒序列表和内容相似度倒序列表; 步骤602、通过各自列表的极值分别将关联度和相似度归一化映射为0-1区间的值; 步骤603、按数值由大到小进行合并生成组合表,在组合表中,行为关联度优先于内容相似度且同一个页面中以较大的特征数值为准。
7.如权利要求I所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述用户序列表和内容序列表的内容包括相同或相似页面的url。
8.如权利要求I所述的一种基于DM的农业信息精准推送的方法,其特征在于,所述步骤I中包括对当前页面是否是常用页面的判断步骤,判断的依据是当前页面的点击量。
全文摘要
本发明公开一种基于DM的农业信息精准推送的方法,包括步骤1、对用户访问页面的规律进行分析;分析的规律包括步骤101、对用户相关行为进行分析并生成行为序列表;步骤102、对用户浏览页面内容的分析并生成内容序列表;步骤2、对行为序列表和内容序列表配以不同的权重后进行组合生成推荐序列表,根据推荐序列表为用户提供与用户访问页面信息相同或相近的其它页面。本发明通过对访问用户意图的准确理解和涉及到的相关信息的寻优及生成,采集用户访问站点的访问记录并进行预处理,找出访问规则和用户集,建立访问站点的用户访问模式,最后按照用户访问模式结合其浏览行为关联和内容关联两个方面来实现一种新的农业信息精准推送方式。
文档编号G06F17/30GK102750334SQ20121017769
公开日2012年10月24日 申请日期2012年6月1日 优先权日2012年6月1日
发明者于峰, 刘新, 孙利鑫, 孙素芬, 张倩, 张峻峰, 李刚, 栾汝朋, 郭亮 申请人:北京市农林科学院农业科技信息研究所, 北京智农天地网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1