基于网页标签的安全监控方法和系统的利记博彩app【
技术领域:
】[0001]本发明设及一种基于网页标签的安全监控和网页去噪的方法和系统,属于信息安全
技术领域:
。【
背景技术:
】[0002]当前,纷繁复杂的互联网越来越成为人类社会的重要信息源。然而,由于商业利益和网站维护的需要,几乎所有的网页除了有用的信息之外,还包含了一些和网页主体内容关联不大的元素如:广告条、导航链接、版权等信息,使用户不能迅速定位所需信息。[0003]在运种情况下,网页去噪技术成为网络信息检索特有的一个研究领域,受到越来越多的研究人员的关注,并提出了各种算法。现有技术主要是研究如何从某一领域或者模板网页中探测出主题信息,但运对其他类型的页面却难W成立。现有技术采用机器学习的方法来识别广告和不相关的噪音信息,但是运需要大量的人工参与。现有技术中提出了VIPS算法,将页面转化成内容结构。VWS算法基于页面的可视化信息来进行页面划分,并定义其内聚度。算法通过可视块抽取,分隔条检测及构造内容结构Ξ步迭代进行,W各块的内聚度值与预定义的终止条件比较作为迭代的终止条件。但该算法由于视觉特征的复杂性,运用的启发知识往往较为模糊,需要人工不断地总结调整规则。现有技术采用了量化网页的方法,但选取的特征提取自网页文本内容,最后只是对隶属于不同类的网页采用不同的去噪方法。而本发明能够很好地解决上面的问题。【
发明内容】[0004]本发明目的在于提供了一种基于网页标签的安全监控方法,该方法主要解决了网页去噪的问题,能将HTML网页中的文本节点按照属性的相似度进行分类,提取具有最大文本量的类作为正文,从而达到去噪效果。该方法不仅避免了传统去噪方法中对网页模式的局限性,而且能够通过网页文本格式量化的方式提高去噪的精度。[0005]本发明解决其技术问题所采取的技术方案是:一种基于网页标签的安全监控方法,该方法解决了网页去噪的问题,采用K-MEANS聚类算法对由去噪声后的网页进行聚类处理,通过比较去噪声前后的聚类效果,可W看出通过本方法处理的网页,聚类正确率有了明显提局。[0006]方法流程:[0007]步骤1:将读入的HTML网页转化为D0M结构;[000引步骤2:对每个文本节点添加父节点〈attrInfo〉,设置其属性为:id、font、size、color、italic、bold;[0009]步骤3:循环在当前文本节点的祖先节点中查找每个文本节点的属性,添加到<attrinfo〉标签中;[0010]步骤4:对文本节点两两之间计算相似关系,大于某一阔值即为相似,得到该网页的相容关系图;[0011]步骤5:计算该网页所有文本节点的极大相容类,得到的极大相容类即为该网页的文本类;[0012]步骤6:计算该网页每个文本类的文本量总和;[0013]步骤7:选择文本量最大的文本类作为正文,删除正文之外的网页文本。[0014]本发明的上述方法能够应用于基于网页标签的安全监控系统。[0015]本发明还提供了一种基于网页标签的安全监控系统,该系统对访客的来源,路径,动作,行为,时间,操作的分析,可提供可疑访问及访客,非友好访问及访客的报告并产生报警报告,该系统可对非友好用户进行追踪及报警。包括:[0016]异常数据的发现和处理模块的功能是:通过分析统计数据的散度情况,即数据变异指标,来对数据的总体特征和分布情况进行预测,在"支持度-置信度"框架下,利用相对支持度概念,处理异常数据[0017]大数据降维模块的功能是:按照用户的需求,将纷繁复杂的数据进行有效地降维,既保持数据的可靠性,又减少其他信息的干扰。W达到高可靠性,高扩展性,高效性和低成本。[0018]云计算信息融合模块的功能是:不同的信息处理应用有着不同的需求,云计算环境下,实现基于主动机制的智能信息主动服务,提供人人之间、人物之间、物物之间的信息推送机制。特别是基于构件的事件定义与处理、触发机制和规则定义与处理等技术方法。[0019]移动用户分析模块的功能是:WIE提供手机用户界面,用户可通过手机获得服务。WIE可针对移动用户进行分析并提供分析报告。[0020]社交网分析模块的功能是:WIE还可针对来自社交网的用户流量进行分析并提供分析报告。[0021]有益效果:[0022]1、本发明系统既保持数据的可靠性,又减少其他信息的干扰。W达到高可靠性,高扩展性,高效性和低成本。[0023]2、本发明方法主要解决了网页去噪的问题,能将HTML网页中的文本节点按照属性的相似度进行分类,提取具有最大文本量的类作为正文,从而达到去噪效果。[0024]3、本发明方法不仅避免了去噪算法对网页模式的局限性,而且还通过网页文本格式量化的方式提高了去噪的精度。[0025]4、本发明方法采用K-MEANS聚类算法对由去噪声后的网页进行聚类处理,通过比较去噪声前后的聚类效果,可W看出通过本算法处理的网页,聚类正确率有了明显提高。【附图说明】[00%]图1为本发明的HTML网页结构示意图。[0027]图2为本发明的相容关系图。[0028]图3为本发明的去噪前后F1值变化图。【具体实施方式】[0029]下面结合说明书附图对本发明创造作进一步的详细说明。[0030]在HTML网页中,元素(element)是文档结构的基本组成部分。每个HTML网页由两个主要元素组成:首部化ead)和主体(body)。首部包含标题(title)和用来标志文档的一些辅助信息。主体紧跟在首部后面,是HTML网页的最主要部分,文档所包含的主要信息都在主体中。主体部分又由若干更小的元素组成:如段落(paragraph)、表格(table)和列表(list)等。HTML网页中用标签来标志一个元素,而标签还可W加上属性来规定文档的显示样式和效果。[0031]一个普通的HTML网页的结构如图1,可W看出,HTML网页本身具有树形结构,所W很适合使用D0M(Doc皿entObjectModel)树进行描述。[0032]DOM是W3C制定的标准规范,是一种与浏览器、平台、语言无关的HTML(或XML)应用编程接口。HTML网页在经过解析器(如HTMLparser、afterwork、Nokogi;ri、NekoHTML等)的解析之后,都可W转换为相应的DOM树形结构。[0033]在HTMLD0M树中常见的节点类型有:文档节点(根节点)、元素节点、属性节点、文本节点和注释节点等。D0M树中节点之间的关系符合图论中树的节点关系。对一个节点来说,可能与之相关的节点有:祖先节点、父节点、子节点、兄弟节点。[0034]D0M通过解析HTML网页为之在逻辑上建立一个树模型,而树的节点是一个个的对象。运样通过操作运棵树和运些对象就可W完成对HTML网页的操作,为处理HTML文档提供了一个完美的概念性框架。[0035]很多编程语言如化vaSc;ript、php、java等都按照不同的解析器对D0M树形结构的操作方法提供了具体的实现。本发明实验即利用JAVA对D0M4J解析器创建的D0M树形结构提供的方法展开的。[0036]本发明极大相容类具体包括:[0037]定义1:如果集合A上的二元关系R是自反的和对称的,则称R为A上的相容关系。若对x,yEA有X和y相容,则记为xRy。[0038]定义2:设R为集合A上的相容关系。1)如果S为A的非空子集且当x,yeS时皆有xRy,则称S为R的一个相容类。2)设S为R的相容类。若当V6S时皆有XeS使xRy不成立,则称S为R的一个极大相容类。[0039]举例:如果集合A=U,2,3,4,5,6}上的相容关系R的简化关系图如图2所示,贝化的所有极大相容类为{1,2,3,4},{2,5},{3,6},{5,6}。[0040]定义3:设R为集合A上的相容关系,关系矩阵法计算R的所有极大相容类的算法如下:[0041]1)列出R的简化关系矩阵;[0042]2)R的所有第η级相容类为1x1},1x2},…,{xn};[0043]3)若n=l,则终止。[0044]4)若n>l,则i^n-1;[0045]5)A^{xjIaji=l且i<j含η};[0046]6)对每个i+1级相容类s,若snA辛Φ,则添加一个相容类{xi}u(snA);[0047]7)对已得到的任意二相容类S和S',若则删去S';称运样合并后的相容类为第i级相容类。[004引8)若i>l,则并转到5);[0049]9)若i=l,则终止;[0050]最后计算得到的相容类就称为R的所有极大相容类。[0051]为了表述一致,本发明对HTML网页对象的各种表述均按照D0M树中各种定义展开的。另外,定义文本类为本算法中相似文本节点的集合。[0052]对HTML网页来说,其中所有的文本节点都有显示的样式。控制文本节点显示样式的是文本节点的属性,如:字体(font)、颜色(color)、字号(size)、加粗(boId)和倾斜(italiC)等。如果对HTML网页按照文本节点的属性进行分类,将相同或者相似属性的文本节点归为一类,那么可W将网页区分为不同的文本类。按照视觉定位网页正文的方式,一般有W下常识,包括:[0053]1)正文的属性一般相同或者相似。正文文本的标题可能出现文本大小、加粗的情况、极少链接可能出现颜色不同的情况、文中极少的词语有倾斜、加粗、颜色不同的情况。[0054]2)噪声的属性一般差别较大。几乎对每一个网页来说,出现在网页正文周边的广告条、导航链接、版权等噪声信息几乎不会出现文本节点属性相同或者相近的情况。一般情况下噪声的文本节点属性差别较大。[0055]3)在HTML网页中,正文的文本量是最大的。将HTML网页中文本节点按照属性分类后,按照前述正文的属性一般相同或相似运一常识,正文将被区分为一类。此时,正文的文本量相比HTML网当前第1页1 2