识别用户点击访问网站行为的方法及装置的制造方法

文档序号:9453132阅读:347来源:国知局
识别用户点击访问网站行为的方法及装置的制造方法
【技术领域】
[0001]本发明涉及网络技术领域,尤其涉及一种识别用户点击访问网站行为的方法及装置。
【背景技术】
[0002]近年来,HTTP协议在网络应用中的占比逐步提升,一方面,越来越多的客户端应用也都采用HTTP协议进行数据交互;另一方面,前端技术与浏览器性能的提升,使得用户浏览的网页不再停留在单调的文字基本页面上,而转向丰富的复合式页面。这就导致了用户正常访问页面的请求被淹没在海量的噪音数据中,对后续的用户行为监测与分析带来很大的困扰,导致行为分析产生偏差。因此,需要对用户点击浏览器时的用户行为和浏览器、软件等产生的非用户行为进行识别、区分。
[0003]现有技术中大多根据人为经验给出前缀、后缀黑名单,再由黑名单将网络请求中非人为访问的部分滤除,从而识别出用户的访问行为,但靠人为经验得到的黑名单存在局限于少部分站点导致范围较小、需专人专员投入导致成本较高、更新较慢等缺点,无法适应当今互联网千变万化的节奏。此外,现有技术中也可利用爬虫技术进行页面解析后得出前缀、后缀黑名单,但利用爬虫技术来获取前缀、后缀黑名单存在页面解析不完整、覆盖站点针对性不强的问题,对用户的访问行为识别不够精确。
[0004]因此,现有的识别用户点击访问网站行为的方法成本高,且识别不够准确。
[0005]上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

【发明内容】

[0006]本发明的主要目的在于提供一种识别用户点击访问网站行为的方法及装置,旨在低成本的精确识别用户点击访问网站行为。
[0007]为实现上述目的,本发明提供的一种识别用户点击访问网站行为的方法,所述方法包括以下步骤:
[0008]利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL,并记录访问所述预设常用URL的行为中产生的所有请求URL ;
[0009]从所有请求URL中滤除模拟用户点击访问的预设常用URL,将剩余的URL加入非用户访问URL名单;
[0010]基于所述非用户访问URL名单对用户点击访问网站行为进行识别。
[0011]优选地,所述浏览器为谷歌浏览器或IE浏览器,所述扩展程序为chrome扩展程序或IE浏览器扩展程序。
[0012]优选地,所述预设常用URL为预设常用站点中预置的所有可访问URL。
[0013]优选地,对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理,并将聚合后的非用户访问URL加入所述非用户访问URL名单。
[0014]优选地,所述对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理,并将聚合后的非用户访问URL加入所述非用户访问URL名单的步骤包括:
[0015]利用网络爬虫获取第一预设常用站点中预置的可访问URL,并根据所述可访问URL生成第一前缀树;生成访问第二预设常用站点的访问集合;
[0016]利用浏览器的扩展程序获取访问第二预设常用站点时的访问集合中与所述可访问URL相关的URL,并生成第二前缀树;
[0017]遍历所述第一前缀树与第二前缀树,判断所述第二前缀树上的URL与所述第一前缀树上的URL是否有公共前缀;若没有,则将所述第二前缀树上该URL之后的所有分支进行聚合处理,并将聚合后的URL加入所述非用户访问URL名单;若有,则不将所述第二前缀树上的该URL加入所述非用户访问URL名单。
[0018]此外,为实现上述目的,本发明还提供一种识别用户点击访问网站行为的装置,所述识别用户点击访问网站行为的装置包括:
[0019]访问记录模块,用于利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL,并记录访问所述预设常用URL的行为中产生的所有请求URL ;
[0020]滤除模块,用于从所有请求URL中滤除模拟用户点击访问的预设常用URL,将剩余的URL加入非用户访问URL名单;
[0021]识别模块,用于基于所述非用户访问URL名单对用户点击访问网站行为进行识别。
[0022]优选地,所述浏览器为谷歌浏览器或IE浏览器,所述扩展程序为chrome扩展程序或IE浏览器扩展程序。
[0023]优选地,所述预设常用URL为预设常用站点中预置的所有可访问URL。
[0024]优选地,所述识别用户点击访问网站行为的装置还包括:
[0025]聚合模块,用于对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理,并将聚合后的非用户访问URL加入所述非用户访问URL名单。
[0026]优选地,所述聚合模块还用于:
[0027]利用网络爬虫获取第一预设常用站点中预置的可访问URL,并根据所述可访问URL生成第一前缀树;生成访问第二预设常用站点的访问集合;
[0028]利用浏览器的扩展程序获取访问第二预设常用站点时的访问集合中与所述可访问URL相关的URL,并生成第二前缀树;
[0029]遍历所述第一前缀树与第二前缀树,判断所述第二前缀树上的URL与所述第一前缀树上的URL是否有公共前缀;若没有,则将所述第二前缀树上该URL之后的所有分支进行聚合处理,并将聚合后的URL加入所述非用户访问URL名单;若有,则不将所述第二前缀树上的该URL加入所述非用户访问URL名单。
[0030]本发明提出的一种识别用户点击访问网站行为的方法及装置,利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL,并在访问所述预设常用URL的行为中产生的所有请求URL中滤除所述预设常用URL,将剩余的URL加入非用户访问URL名单,基于该非用户访问URL名单对用户点击访问网站行为进行识别。由于是通过浏览器的扩展程序来自动模拟用户在所述浏览器中的点击访问网站行为,因此经过采集、过滤最终获取非用户访问URL名单及基于该非用户访问URL名单对用户点击访问网站行为进行识别的成本较低,且识别更加精确。
【附图说明】
[0031]图1为本发明识别用户点击访问网站行为的方法第一实施例的流程示意图;
[0032]图2为本发明识别用户点击访问网站行为的方法第二实施例的流程示意图;
[0033]图3为本发明识别用户点击访问网站行为的装置第一实施例的功能模块示意图;
[0034]图4为本发明识别用户点击访问网站行为的装置第二实施例的功能模块示意图。
[0035]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
【具体实施方式】
[0036]应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0037]本发明提供一种识别用户点击访问网站行为的方法。
[0038]参照图1,图1为本发明识别用户点击访问网站行为的方法第一实施例的流程示意图。
[0039]在第一实施例中,该识别用户点击访问网站行为的方法包括:
[0040]步骤S10,利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL,并记录访问所述预设常用URL的行为中产生的所有请求URL ;
[0041 ] 统一资源定位符(Uniform Re
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1