专利名称:一种互联网内容过滤系统及过滤方法
技术领域:
本发明属于互联网技术领域,具体涉及一种互联网内容过滤系统以及进行过滤的方法,可用于阻止用户访问互联网上各类媒体数据,包括文本、图像、视频、音频、图形和动画等。
背景技术:
互联网已经成为日常生活中不可缺少的一个组成部分。人们在网上生活,享用着网络提供的形形色色的服务网上购物、网上银行、收发邮件、信息查询等。然而,当人们享受互联网好处的同时,也存在着互联网上日益递增的负面影响,例如青少年沉溺于成人网站、不良信息的散播,或是通过互联网犯罪等。
根据美国N2H2公司统计,全球大致有8%的网页是色情网页。每天向搜索引擎提交的请求中有四分之一是有关色情内容的;另外色情垃圾邮件已经成为人们最为头痛的事情之一。一般主流的免费邮箱每天会收到3-10封这样的邮件,而发信人却不管信箱的主人是否成年。
与网络色情相比,以反政府、反社会为内容的网站网页也同样是多如牛毛。“法轮功”的字眼随处可见,所谓的“政府秘密”正四处扩散。公众的视听被混淆,人们的生活被扰乱。网络负面效应之大,不良信息内容之广,是人们始料未及的。
如何保障互联网的运行安全和信息安全已经引起全社会的普遍关注。为了兴利除弊,促进我国互联网的健康发展,全国人民代表大会常务委员会于2000年12月通过了一项关于维护互联网安全的决定。该决定明文规定了“为了维护国家安全和社会稳定,对有下列行为之一,构成犯罪的,依照刑法有关规定追究刑事责任(一)利用互联网造谣、诽谤或者发表、传播其他有害信息,煽动颠覆国家政权、推翻社会主义制度,或者煽动分裂国家、破坏国家统一;(二)通过互联网窃取、泄露国家秘密、情报或者军事秘密;(三)利用互联网煽动民族仇恨、民族歧视,破坏民族团结;(四)利用互联网组织邪教组织、联络邪教组织成员,破坏国家法律、行政法规实施。”目前,中共中央、国务院正强调进一步加强和改进未成年人思想道德建设。教育部也于2004年5月要求把文明上网、网络安全知识列入学校德育的重要内容,以此来提高未成年人抵御有害信息的能力。
为了防止违法与有害信息的入侵,在技术上主要采取三种手段,一是从服务器上删除文档,一旦主机服务者意识到在服务器上存在违法信息,必须将这类信息从服务器上删除。二是堵塞信息传递,如果违法信息所在的服务器的拥有者或国家,不认可这是违法信息或采取不合作的态度,其它国家只能采取堵塞的手段,禁止对这类信息的检索。三是开发行之有效的过滤软件,目前已经开发出了三代过滤软件。第一代被称为“黑名单”软件,第二代是“白名单”软件,第三代是PICS系统。
“黑名单”软件的工作原理是封锁住不应检索的网址,“白名单”软件是用来检索只允许访问的网址。“黑名单”软件在第一代过滤软件中得到广泛应用,最有名的是Cyber Patro,九十年代早期投入使用,可以与因特网检索商和联机服务商的检索软件配合合作。软件记录了大约7000个网址,12个大类的非法和有害信息(暴力/渎神、种族主义/对少数民族不恰当的评论、魔鬼崇拜、毒品、好战言论/极端主义、赌博等)。“白名单”是与“黑名单”工作原理正好相反的软件,它是先封锁住所有因特网网址,然后选择可供访问的网址,由于这种软件在逻辑上与因特网相反,因此适用范围十分有限。
过滤违法与有害信息的另一种有效技术手段是采用“因特网内容选择平台”(PICS-Platform for Internet Content Selection)、“中性标签”(neutral labeling)系统。该系统由麻省理工学院计算机科学实验室的Jim Miller教授开发,它类似于过滤掉电视节目中色情与暴力的V芯片电视节目选择器。由万维网协论坛(W3C-Wold Wide WebConsortium)在1996年5月正式颁布。目前已被广泛应用。PICS得到了39个国际计算机公司、计算机软硬件制造商、检索服务商、联机服务商、出版商、内容提供者的广泛支持,它被安装在因特网的浏览器中,供用户选择使用。PICS的主要工作是对每一个网页的内容进行分类,并根据内容特性加上标签,同时由计算机软件对网页的标签进行监测,以限制对特定内容网页的检索。网页上的标签即可以是数字字符,也可以是密码。标签被嵌入RFC-822传输格式和HTML文本格式,通过HTTP协议,可以与文件一起传输。
今天,许多软件公司意识到网络内容过滤带来的商机,各种过滤软件不断问世。“网络爸爸”、“美萍反黄专家”、“e反黄软件”、“正义战士”都是我国早期涌现的一批反黄软件。在国内为数不多的网页过滤软件中,不乏一些较有特色的软件,如“MyIE2”、“别碰NoPorn!”、“过滤网”和“护花使者”等。纵观国内的过滤软件,大多采用简单的URL匹配和关键词判断技术来过滤网页,真正采用基于内容的分析处理方法来过滤网络媒体文件的产品基本上没有。
相比之下,国外同类产品的开发比国内更快,过滤技术也相对成熟。ZyXEL、WebSense、FilterLogix、SurfControl都是使用较为广泛的网络内容过滤软件,它们均拥有一个庞大的、分过类的URL数据库。普遍采用的技术也是黑白名单和关键词匹配查询。
ISS公司的Proventia Web Filter拥有世界上最大最新的内容过滤数据库,它不仅依赖关键词查询和手工网站分类,并且使用了一个文本图像分析系统一起处理媒体内容。
FortiGuard的URL数据库包括超过5百万条URL并含有分类信息。每当有请求时,系统会先去询问FortiGuard数据库该网页的分类情况,并根据客户预先制定的政策允许或拒绝网页的请求。
韩国的WebWacher是一款相当不错的网络图像过滤软件。该软件针对家庭用户,提供控制上网时间和过滤网络不良内容两大功能,以此保护儿童合理使用互联网。
另外,大多数美国开发过滤软件的公司都从事反垃圾邮件和杀病毒软件的开发。因此,一方面各大软件公司依托本身的基础,可以很快建立起庞大的URL数据库以供查询;而另一方面过滤软件的工作模式基本上与反垃圾邮件或杀病毒相似,同时销售对象也往往只针对企业级用户。
发明内容
本发明的目的在于提出一种新的互联网内容过滤系统以及进行过滤的方法,使得系统具有自学习能力,并可提高系统分类精度,降低人工成本;当用户访问网络时,以主动方式过滤互联网中存在的各类媒体数据,包括文本、图像、视频、音频、图形和动画等。
下面先介绍URL的概念。
URL是Uniform Resource Locator(统一资源定位器)的缩写,其数据结构为协议//主机名端口号/目录路径/文件名。
URL与网站或服务器上一个具体的数据对象对应,例如一个URL对应一个门户站点或BBS服务器,也可对应一个站点中一个目录下的一幅特定图片。因此,如果要阻止用户访问某个网站、服务器或特定数据对象,则只要阻止向网络用户发送该URL请求即可。
协议段说明Internet的资源类型,如http表示超文本传输协议或WWW。其他协议有ftp(表示文件传输协议)、telnet(表示远程登录)、news(表示新闻组)、mailto(表示电子邮件)、mms(表示流媒体)等。
主机名段说明Internet的服务器名,例如www.fudan.edu.cn。目录路径段指出文件或部分文件在internet服务器上位置。每一级目录以一个正斜杠(/)符号隔开。
文件名段是将要访问的文档、图像或脚本的实际名称,例如index.html、logo.gif、script.cgi。端口号、目录路径、文件名这些都属于URL的可选组成部分。
下面给出一些URL的实例http//www.w3.org/index.html该URL对应一个网站http//10.64.130.4/images/advice.gif该URL对应一幅图片ftp//10.11.3.8该URL对应一个FTP服务器mms//10.11.4.6/abc.avi该URL用于点播一个音像节目telnet//bbs.fudan.edu.cn该URL对应一个BBS服务器本发明提出的网络内容过滤系统包括如下几个部分(参见图1所示)互联网支持下的内容过滤代理、查询服务器、内容分析与管理服务器,它们位于用户端设备和目标站点之间。其中1、用户端设备(UTUser Terminal),可以是计算机或其它能访问互联网的设备,用户通过UT访问网络资源,例如浏览网页、检索文献、下载文件等。
2、内容过滤代理(CFAContent Filtering Agent),存储黑名单(即禁止访问的站点或文件)和白名单(允许访问的站点或文件),它们实际上是一组URL列表。该模块将以多种形式运行在不同类型的平台上。
3、查询服务器(QSQuery Server),有一个具有分类和分级信息的、海量的URL库。当QS接收到UT提交的URL时,在分类与分级库中进行查询,并将结果告诉UT。采用QS的基本原因是因为CFA的资源受限,不能存储太多的分类分级信息,只能存储少量的黑/白名单,而在QS上可以大量存储分类分级信息,一个QS可以支持大量CFA的并发访问。同时在Internet网上还可以部署多个QS,一个单位的Intranet上也可以部署QS,以对付大量并发的查询请求。
4、内容分析与管理服务器(CAMSContent Analysis and Management Server),其主要任务是对Internet中的资源进行分类与分级评估。例如记录“存放黄色图片或音像的网站或不良URL”的列表。获得授权的QS可以从这里下载具有分类与分级信息的URL库。通常情况下,不同企业或部门关注不同类型的CAMS,可以有多个不同类别的CAMS。CAMS还必须具有管理和发布功能,也可作为一个网络门户网站存在。
5、目标站点(TWSTarget Website or Server),可以是任何一个存储资源的网站或服务器,UT通过Internet可以访问其公开资源。
该网络内容过滤系统工作的具体步骤概括如下1、当用户发出对某个URL进行访问的请求时,CFA根据黑名单或白名单,允许或禁止该访问请求;
2、倘若该URL不在CFA的黑名单和白名单中,CFA则向QS发出查询请求;3、QS将会在本地URL库中查询该URL的分级信息并将结果返回给CFA,CFA则据此做出反应;4、QS会定期从CAMS中下载更新的URL分级信息;5、CAMS自动搜索、下载和分析处理互联网上多媒体数据,采用人工交互标注方法和机器自动分类方法,对网络内容进行分类和分级评估,形成分类和分级的URL信息库。
本发明提出的互联网内容过滤系统可以应用于各种应用场合,例如1.用于阻止访问政治反动的、或危害国家安全的站点。
2.用于阻止访问黄色的、影响青少年身心健康的站点。
3.用于阻止访问电子竞技游戏的站点。
4.用于阻止访问特定类型的站点或资源,有具体应用需求确定。
过滤代理CFA能以多种方式运行在多种类型的软硬件平台上,例如1.CFA可以运行在代理服务器上。
2.CFA可以运行在防火墙上。
3.CFA可以作为浏览器插件运行在浏览器上。
4.CFA可以运行于ADSL调制解调器、Cable Modem、电话线调制解调器、ISDN PC适配器等网络访问设备中。
图1为互联网上内容过滤系统总体框架结构图示。
图2为内容分析与管理服务器(CAMS)的基本组成与工作流程图示。
图中标号1为用户端UT,2为内容过滤代理CFA,3为查询服务器QS,4为内容分析和管理服务器CAMS,5位目标站点TWS。
具体实施例方式
下面通过举例进一步介绍本发明的内容。
关于内容分析与管理服务器(CAMS)众所周知,Internet上存在着各种各样的、时刻变化的内容,例如文本、图像、视频、音频、图形、动画、动态网页、Flash等;从全世界角度看,Internet网中数据是真正海量。
CAMS应时刻关注互联网络中各种时刻变化着的、海量的多媒体数据内容,并且能及时对网络内容作出客观的分类和分级。这是一项难度较大的、富有挑战性的工作,需要大规模计算和存储设备,也需要大量的人工辅助。
下表给出了关于“暴力”、“裸体”等类别的分级实例。
对网站或服务器上各种数据进行自动或半自动的分类与分级是CAMS的一个非常重要的任务。这里必须指出的是,分类与分级的标准应该由国家有关部门制定、发布和执行。
有了网络内容的分类与分级标准之后,不同的公司、单位或门户网站就有可能针对某一类数据进行分级评价。例如,某个CAMS只关注政治性的内容,另一个CAMS可能只关注色情方面的内容,由此可以产生很多商业机会。
显然,某个特定类别的CAMS能否全面并准确地实现对网络数据内容的分级,将直接关系到网络内容过滤的准确性。完全依靠计算机处理和分析来全自动评价网络内容是非常困难的,在本发明中采用人工指导和机器学习相结合的方法来指导计算机完成海量时变网络数据的评价任务。
图2给出了基于内容的多媒体数据分析处理和评价方法(针对特定类,类别可以事先人工确定),它可以对图像、视频、音频、文本等各种媒体内容进行分级,其工作步骤是1、对各种媒体对象进行特征提取。例如,从图片中提取颜色和颜色直方图、分析图象区域颜色和纹理结构等;从视频数据中提取相机或物体的运动信息、颜色信息、纹理信息等;从文本中提取关键词等。
2、用人工方法对部分少量的对象进行标注。这些人工标注的对象将作为机器学习的样本。
3、系统根据人工标注结果进行学习,获得较高层次的语义信息,并形成用于分级的知识库。
4、最后,系统对没有人工标注的绝大多数数据对象进行自动分级,从而大大减轻人工成本。
为保证机器有足够的分类精度,还需要对机器分类的结果进行抽查和人工评价,即通过人工再次评价的方式进一步改进机器的分类性能,即相关反馈。
上述方法的主要特点有采用基于内容的分析处理方法,对各种媒体对象的理解进入语义层面;引入人工交互和标注,允许机器学习,以增强系统的分类准确性;采用反馈机制,系统有自学习能力。通过适当人工指导和机器学习方法,可以较好地提高机器分类精度,极大降低人工成本。
另外,CAMS其它功能模块有管理URL的分类与分级信息库;发布URL分类与分级信息库;还必须有一个重要模块就是“网络爬虫”,用于自动探索互联网,访问网站或服务器,抓取各种媒体文件。现在已有很多类似功能的爬虫软件,这不是本发明的重点。
下面给出CAMS的详细工作步骤(见图2)(1)网络爬虫组从Internet网上自主搜索下载各种类型的数据,例如网页、图片、视频、音乐等[对应流程①];根据可疑的URL信息库要求,下载数据对象[对应流程⑦]。注意,这里“可疑的URL信息库”主要由查询服务器(QS)发来的、QS尚不能处理的URL列表。
(2)特征提取对下载的各类多媒体数据对象进行分析处理,提取特征。例如,提取图像的颜色、纹理和形状等特征;提取视频的特征,例如物体运动、相机运动等;组织存储每个下载的数据对象的URL及其特征[对应流程②]。
(3)人工标注从人工下载的多媒体数据对象中,选择部分数据对象进行分类和分级标注;人工对自动分类和分级的结果进行检查,既可以减少错误,也可以通过这种相关反馈的方法提高分类性能[对应流程③]。
(4)训练分类器对URL对应的数据对象进行自动分类和分级,可以采用机器学习方法,用人工指导标注和相关反馈信息,对分类器进行训练,得到高精度的分类和分级结果[对应流程④]。
(5)自动分类和分级训练好的分类器可以自动地对每个下载的数据对象进行分类和分级处理,得到分类和分级之后的URL信息库[对应流程⑤];可以对该URL信息库定期更新和发布,由于Internet网内容时时刻刻在变化之中,因此要求更新和发布的周期尽量短[对应流程⑥]。
关于查询服务器(QS)在QS上存储了海量的URL分类和分级信息库,这些信息可能来自于一个或多个CAMS。在QS中URL分类和分级信息库的一般性数据结构如下(实例)
QS的主要工作是对内容过滤代理(CFA)提交的URL做出判决,这是一个简单的查表过程。如果该URL存在于分类与分级表中,则QS将查表结果(即级别)反馈给CFA;否则,QS要做两件事情(1)给CFA反馈“不可判定”(NAN)信息;(2)将该URL提交给CAMS,由CAMS进行分析处理。由于Internet网上内容时刻变化,出现不可判定的情况是无法避免的。如果CAMS能够及时分析、处理、跟踪网络内容变化情况,则出现“不可判定”的概率会很小。
在实现QS的时候,必须考虑支持并发访问。本发明采用基于Trie树的URL索引结构,同时利用主存缓存策略,将经常访问的URL项存放在服务器的主存中,不经常使用的存放在磁盘上。这种利用索引结构和缓存的策略极大提高了QS的验证速度,支持大并发量的访问。
QS可以在Internet或Intranet上大量部署,以服务于各类用户,包括家庭用户或企业用户。QS将从各类获得授权的CAMS下载分类和分级信息库。CAMS应及时处理QS不能判断结果的URL所对应的数据,并周期性发布分类和分级信息,供QS下载。
关于内容过滤代理(CFA)CFA是一个非常简单的软件模块,它以多种形式运行在各类软硬件系统平台上。在CFA中存储白名单(WNList)和黑名单(BNList)。本质上,黑/白名单是一张URL列表。
CFA的黑/白名单的数据结构如下
CFA的基本工作过程1、当URL属于WNList时,CFA允许URL通过,将URL转发给TWS,TWS将根据URL请求返回结果给UT。
2、当URL属于BNList时,CFA禁止URL通过,CFA直接将“禁止访问或警告”信息发送给UT,这实际上是切断了UT的请求信息。
3、当URL既不属于WNList,也不属于BNList时,CFA将该URL发送给QS,请求QS对URL进行验证,并根据验证结果进行相应处理。
以上操作细节在后续工作流程中还有更加详细的叙述。
每个CFA都将有个授权账号,授权用户可以通过用户端的图形化界面,设置各类CFA选项,形成各自的过滤策略,具体包括1、判定URL属于黑/白名单的URL分类级别的设置例如,假设用户设定“暴力”1级以上(包括1级),“裸体”2级以上(包括2级)的URL为黑名单。当UT请求访问一个不在CFA的黑/白名单中的URL时,CFA将该URL发送给QS。假设在QS的分类与分级库中,该URL的分级信息为“暴力”0级、“裸体”3级,当QS将这个分级信息返回给CFA时,CFA会根据用户设置,判定该URL属于黑名单,从而拦截该URL。
2、当QS返回信息为“NAN”时,判定该URL的属性设置假设用户将此选项设为“白名单”,则当QS返回“NAN”给CFA时,CFA自动判定该URL属于白名单;否则,认为是黑名单。
3、用户可以手工管理CFA中的黑/白名单,包括浏览、增加和删除。
4、用户可以修改CFA中授权账号的密码。
当CFA的存储资源受限时,需要采取一定缓存策略,例如保留最近的和最频繁使用的黑白名单。
CFA的计算能力和存储资源通常是受限的。例如,CFA运行在ADSL的调制解调器(MODEM)中,此时计算能力明显不足,能存储的黑/白名单也相当有限。针对这种应用,CFA必须设计得简单小巧快速。显然,本发明提出的CFA不需要复杂的程序,只是一个查表和维护缓存的过程,而且缓存机制大大减少了对存储空间的需求。
最后需要指出的是,CFA、QS与CAMS三者之间通信可以通过Socket编程实现,也可以通过其它方法实现。CFA与QS之间,QS与CAMS之间的通信都要通过身份验证。本发明中互联网内容过滤的具体步骤如下(见图1所示)1、当用户希望访问某个目标站点或服务器(TWS),进行网页浏览、视频点播或文件下载时,将发出http(或ftp、mms、telnet等)请求,内容过滤代理CFA会马上截获该请求的URL,并与CFA的黑白名单中的URL进行比较[对应流程①]。
如果UT请求的URL在CFA黑名单中,则拦截该URL请求,返回错误或警告信息给UT[对应流程②]。
2、如果UT请求的URL在CFA白名单中,则将该URL请求直接转发给目标站点TWS[对应流程③];TWS将回复UT相应的响应[对应流程⑥]。
3、如果请求的URL即不在CFA黑名单中,也不在CFA白名单中,CFA将该URL发送给查询服务器QS[对应流程④],QS对该URL进行查询,获取分级信息或NAN,并发送给CFA[对应流程⑤]。
(1)如果该URL在QS的URL库中,并且按照用户设置,它的分类级别属于黑名单时,CFA认定该URL属于黑名单,立即自动更新其黑名单,禁止UT访问该URL,并返回错误或警告信息给UT[对应流程②]。
(2)如果该URL在QS的URL库中,并且按照用户设置,它的分类级别属于白名单时,CFA认定该URL属于白名单,立即自动更新其白名单,并将请求转发给TWS[对应流程③];TWS将回复UT相应的响应[对应流程⑥]。
(3)如果该URL不在QS的URL库中,QS将通知CFA该URL是无法判定的,CFA将根据事先用户设置的策略作出反应一种是自动作为白名单处理,另一种自动作为黑名单处理。不过,在此情形下,CFA不再更新其黑名单或白名单。另一方面,QS会将该URL交由CAMS处理[对应流程⑦]。
内容分析管理服务器CAMS会定期向QS发布更新的URL分级库[对应流程⑩],使之能够及时反映互联网中内容的变化。CAMS的性能直接影响过滤精度,因此需要付出较大代价来维护和更新CAMS。
为了提高CFA的判别速度,减小CFA对存储资源的要求,需要在CFA中引入缓存机制,即存储用户UT经常访问的黑白名单,减少UT向QS发送验证请求的机会,因为一次验证请求需要一定的等待时间。
授权用户可以根据自己的需要,管理CFA中黑白名单列表,对其浏览、添加或删除[对应流程⑧和⑨]。
权利要求
1.一种网络内容过滤系统,其特征在于由内容过滤代理(记为CFA)、查询服务器(记为QS)和内容分析与管理服务器(记为CAMS)组成,其中,内容过滤代理存贮有黑名单和白名单;查询服务器拥有一个具有分类和分级信息的URL库;内容分析与管理服务器是对Internet中的资源进行分类与分级评估。
2.根据权利要求1所述的网络内容过滤系统,其特征在于CFA中设有用户个性化配置,包括(1)判定URL属于黑名单或白名单的URL分类级别的设置;(2)当QS返回信息为没有该URL条目时,判定该URL属性的设置;(3)手工管理CFA中的黑名单或白名单,包括浏览、增加和删除功能。
3.根据权利要求1所述的网络内容过滤系统,其特征在于CFA以多种形式运行在下述各类软硬件系统平台上(1)代理服务器;(2)防火墙;(3)浏览器;(4)ADSL调制解调器、Cable Modem、电话线调制解调器、ISDN PC适配器等网络访问设备。
4.根据权利要求1所述的网络内容过滤系统,其特征在于QS拥有海量的URL分类及分级信息,对CFA提交的URL进行快速查询并返回相应的分级信息。
5.根据权利要求1所述的网络内容过滤系统,其特征在于QS可以在Internet或Intranet上大量部署,支持并发查询,用于服务各类用户;QS将从各类获得授权的CAMS处下载分类和分级信息库。
6.根据权利要求1所述的网络内容过滤系统,其特征在于CAMS采用基于内容的多媒体分析处理方法,对互联网中各类媒体内容进行分析和评估,并按照不同的分类为它们标注分级。
7.根据权利要求1所述的网络内容过滤系统,其特征在于CAMS引入人工交互和标注,利用机器学习增强系统的分级准确性。
8.根据权利要求1所述的网络内容过滤系统,其特征在于CFA与QS之间,QS与CAMS之间的通信都需要通过身份验证。
9.一种网络内容过滤的方法,其特征在于利用权利要求1所述的网络内容过滤系统,具体步骤如下(1)当用户发出对某个URL进行访问的请求时,CFA根据黑名单或白名单,禁止或允许该访问请求;(2)倘若该URL不在CFA的黑名单和白名单中,CFA则向QS发出查询请求;(3)QS将会在本地URL库中查询该URL的分级信息并将结果返回给CFA,CFA则据此做出反应;(4)QS会定期从CAMS中下载更新的URL分级信息;(5)CAMS自动搜索、下载和分析处理互联网上多媒体数据,采用人工交互标注方法和机器自动分类方法,对网络内容进行分类和分级评估,形成分类和分级的URL信息库。
10.根据权利要求9所述的网络内容过滤方法,其特征在于CAMS的工作步骤如下(1)网络爬虫组从Internet上自主搜索下载各种类型数据,根据可疑的URL信息库要求,下载数据对象;(2)特征提取对下载的各类多媒体数据对象进行分析处理,提取特征;(3)人工标注从下载的多媒体数据对象中,选择部分数据对象进行分类和分级标注;人工对自动分类和分级的结果进行检查;(4)训练分类器对与URL相对应的数据对象进行自动分类和分级,采用机器学习方法,用人工指导标注和相关反馈信息,对分类器进行训练;(5)自动分类和分级训练好的分类器自动把对每个下载的数据对象进行分类分级处理,得到分类和分级之后的URL信息库;对该URL信息库定期更新和发布。
全文摘要
本发明为一种互联网内容过滤系统及过滤方法。系统框架包括内容过滤代理(CFA)、查询服务器(QS)、内容分析与管理服务器(CAMS)三部分。网络内容过滤系统的过滤流程为当用户发出对某个URL进行访问的请求时,CFA根据用户设置的黑白名单,允许或禁止该访问请求。倘若该URL不在CFA的黑白名单中,CFA则向QS发出查询请求。QS将会在自己的URL库中查询该URL的分级信息并将结果返回给CFA。CFA据此做出反应。同时QS会定期从CAMS中下载更新的URL分级信息。本发明可以准确地识别网络中存在的不良信息,并主动地阻止互联网用户访问这些不良网站。在过滤不良信息的同时,系统将最大限度的确保网络速度的高效。
文档编号H04L12/24GK1588879SQ20041005368
公开日2005年3月2日 申请日期2004年8月12日 优先权日2004年8月12日
发明者薛向阳, 石静, 郭小鹏, 许源, 赵泽宇 申请人:复旦大学