于深度内容解析的HTTP协议数据防外泄系统框图,如图4所示,图2系统中各装置的功能可以由以下模块实现,具体包括:
[0057]高速报文抓取模块(即串行网络报文高速抓取及透传模块),其直接从网卡抓取网络报文,经过程序分析后进行透传或者丢弃处理。
[0058]深度报文解析模块,根据报文的端口特征及应用层协议识别出HTTP协议。
[0059]HTTP会话重组模块(即会话还原模块),根据报文四元组信息还原出HTTP会话的数据内容。
[0060]文件解析模块,用于解析HTTP会话数据中包含的文本信息并识别常见文件类型中的文本数据。
[0061]策略匹配模块,根据设定的阻断策略,对文件解析模块解析出的文件内容进行实时匹配。
[0062]HTTP会话阻断模块,根据从HTTP会话报头获取的HTTP会话实体正文长度和顺序拼接后的HTTP会话实体正文长度,确定外发报文是否为关键报文,若为关键报文,则暂时拦截该关键报文,并根据策略匹配模块的匹配结果确定对关键报文进行阻断或者放行,即匹配时对该关键报文进行阻断,从而达到阻断整个会话的目的,否则对该关键报文进行透传。
[0063]图5是图4所示系统的工作流程图,如图5所示,工作流程如下:
[0064]步骤S201:数据防外泄系统通过双网卡串联接入网络边界,以便通过其高速报文抓取模块直接从网卡抓取网络报文。
[0065]本发明应用的阻断系统部署在网络边界处,以双网卡串联方式接入网络,针对HTTP协议报文特点,对WEB浏览器外发的关键报文进行有效拦截,不会出现漏阻情况,对用户透明,用户体验好。
[0066]步骤S202:管理员通过系统管理平台设置HTTP内容防外泄敏感关键词(例如:“规定”)、正则规则(例如:以“110”开头的身份证号)、例外条件(例如:以abc@163.com地址发出的邮件将不予拦截,即拦截abc@163.com以外地址发出的具有敏感数据的邮件)。
[0067]需要说明的,也可以利用四元组信息中的任意一个或组合设置匹配策略,例如透传来自IP地址A的外发数据,而拦截来自其它IP地址的具有敏感数据的外发数据。同样地,也可以利用MAC地址设置匹配策略。
[0068]步骤S203:当企业网络用户通过WEB浏览器外发邮件、博文、论坛贴或者上传附件等时,HTTP阻断服务器通过其高速报文抓取模块获取到流经HTTP阻断服务器的所有报文。
[0069]步骤S204:深度报文解析模块根据报文端口号及应用层协议特征识别出HTTP协议。
[0070]步骤S205:HTTP会话重组模块根据报文四元组信息还原出HTTP会话的数据内容,并按照报文的序列号(sequence number)进行会话重组,将应用层数据内容与前序报文的应用层数据进行拼接处理,该报文拼接完成后,如果在顺序链表中存在该报文的后续报文,则对后续报文继续进行拼接处理。
[0071]如果该报文的前序报文尚未到达,则将该报文存入顺序链表,待前序报文到达后,再进行数据拼接。
[0072]步骤S206:HTTP会话阻断模块判断该报文是否为关键报文,若是,则执行步骤S207,否则执行步骤S210。
[0073]HTTP会话阻断模块计算拼接后的会话实体正文总长度,根据从重组后的HTTP会话报头中获取的会话实体正文长度信息,确定该报文是否为关键报文,如果从重组后的HTTP会话报头中获取的会话实体正文长度大于拼接后的会话实体正文长度,说明此报文不是关键报文,执行步骤S210直接透传;否则,如果从重组后的HTTP会话报头中获取的会话实体正文长度等于拼接后的会话实体正文长度,说明此报文为会话的关键报文,HTTP会话阻断模块将暂时拦截该关键报文,同时通知文件解析模块对拼接好的数据进行内容解析。
[0074]步骤S207:文件解析模块将拼接好的数据转换成特定类型文件,然后解析出文本和附件内容,如果有附件,则进一步根据附件类型(例如:rar,doc,docx,txt,pdf,ppt,pptx,xls,xlsx等类型)调用相应的解析模块,解析出附件文本内容。
[0075]步骤S208:策略匹配模块根据设定的匹配条件(即步骤S202中设置的关键词、正贝1J、例外条件等)对文本内容进行实时匹配,根据匹配结果确定是否对关键报文进行阻断或者放行,也就是说,如果匹配过程命中设定的策略,则执行步骤S209,如果匹配过程没有命中设定的策略,则执行步骤S210。
[0076]本发明可以设置多条策略匹配规则,对外发的邮件等内容进行实时匹配。
[0077]步骤S209:如果匹配过程命中设定的一个或多个策略,则说明该HTTP会话外发数据包含敏感数据信息,HTTP会话阻断模块将阻止该关键报文的通行,并拦截该会话的后续报文发送,从而达到阻断整个会话的目的。
[0078]本发明通过阻断HTTP关键报文的方式破坏TCP会话,使服务器端因为会话不完整而无法重组报文,达到保护企业内部数据的目的。
[0079]步骤S210:直接转发该报文,不影响数据的正常通行和用户体验。
[0080]进一步地,图4系统还可以包括:
[0081]证据文件加密存储模块,用于对违规泄露数据事件的证据文件进行加密存储,也就是说,拼接的应用层数据命中匹配策略时,在阻断关键报文的基础上,还需要将相应的应用层数据和/或文本内容作为证据文件。
[0082]进一步地,图4系统还可以包括:
[0083]可靠性模块,用于在串行阻断设备(即数据防外泄系统)发生故障时,自动bypass网络,以保证网络的可靠运行。
[0084]综上,本发明具有以下技术效果:
[0085]本发明解决了在网络边界中,传统数据阻断方法中存在的支持应用少,处理能力不强,阻断效果差等问题,实现网络边界HTTP协议敏感数据的有效阻断,提供对外发内容的深度解析和实时匹配功能,不会出现漏阻情况,有效保护企业数据资产安全,且对用户透明,不影响用户体验,容易被用户接受。
[0086]尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。
【主权项】
1.一种基于深度内容解析的HTTP协议数据防外泄方法,其特征在于,包括: 在网络边界串联接入用来阻断涉密数据的数据防外泄系统; 利用所述数据防外泄系统,抓取外发报文,并确定所述外发报文的协议类型; 当确定所述外发报文的协议类型是HTTP协议时,判断所述外发报文是否包含涉密数据; 若判断所述外发报文包含涉密数据,则阻断所述涉密数据外泄。2.根据权利要求1所述的方法,其特征在于,所述确定所述外发报文的协议类型的步骤包括: 利用所述数据防外泄系统,获取所述外发报文的端口特征; 根据所述外发报文的端口特征和应用层协议特征,确定所述外发报文的协议类型。3.根据权利要求1所述的方法,其特征在于,所述判断所述外发报文是否包含涉密数据的步骤包括: 利用所述数据防外泄系统,确定HTTP会话的所述外发报文是否为关键报文; 当确定所述HTTP会话的外发报文是关键报文时,判断所述HTTP会话的四元组特征和/或顺序拼接后的应用层数据是否与预设阻断策略相匹配; 若匹配,则判断所述外发报文包含涉密数据。4.根据权利要求3所述的方法,其特征在于,所述确定HTTP会话的所述外发报文是否为关键报文的步骤包括: 利用所述数据防外泄系统,从所述HTTP会话报头获取HTTP会话实体正文的长度信息;将前序报文的应用层数据与当前报文的应用层数据进行顺序拼接,得到拼接后的HTTP会话实体正文长度; 若拼接后的HTTP会话实体正文长度与从所述HTTP会话报头获取HTTP会话实体正文的长度信息相匹配,则将所述当前报文确定为关键报文。5.根据权利要求4所述的方法,其特征在于,通过阻止所述关键报文,阻断所述涉密数据外泄。6.—种基于深度内容解析的HTTP协议数据防外泄系统,其特征在于,所述数据防外泄系统串联接入网络边界,包括: HTTP外发报文获取装置,用于抓取外发报文,并确定所述外发报文的协议类型; HTTP涉密数据确定装置,用于在确定所述外发报文的协议类型是HTTP协议时,判断所述外发报文是否包含涉密数据; HTTP涉密数据阻断装置,用于在判断所述外发报文包含涉密数据时,阻断所述涉密数据外泄。7.根据权利要求6所述的系统,其特征在于,所述HTTP外发报文获取装置获取所述外发报文的端口特征,并根据所述外发报文的端口特征和应用层协议特征,确定所述外发报文的协议类型。8.根据权利要求6所述的系统,其特征在于,所述HTTP涉密数据确定装置在确定HTTP会话的所述外发报文是关键报文时,判断所述HTTP会话的四元组特征和/或顺序拼接后的应用层数据是否与预设阻断策略相匹配,若匹配,则判断所述外发报文包含涉密数据。9.根据权利要求8所述的系统,其特征在于,所述HTTP涉密数据确定装置从所述HTTP会话报头获取HTTP会话实体正文的长度信息,并将前序报文的应用层数据与当前报文的应用层数据进行拼接,得到拼接后的HTTP会话实体正文长度,若拼接后的HTTP会话实体正文长度与从所述HTTP会话报头获取HTTP会话实体正文的长度信息相匹配,则将所述当前报文确定为关键报文。10.根据权利要求9所述的系统,其特征在于,所述HTTP涉密数据阻断装置通过阻止所述关键报文,阻断所述涉密数据外泄。
【专利摘要】本发明公开了一种基于深度内容解析的HTTP协议数据防外泄方法及系统,涉及数据保护领域,所述方法包括:在网络边界串联接入用来阻断涉密数据的数据防外泄系统;利用所述数据防外泄系统,抓取外发报文,并确定所述外发报文的协议类型;当确定所述外发报文的协议类型是HTTP协议时,判断所述外发报文是否包含涉密数据;若判断所述外发报文包含涉密数据,则阻断所述涉密数据外泄。本发明实现网络边界HTTP协议敏感数据的有效阻断,提供对外发报文的深度解析和实时匹配功能,不会出现漏阻情况,有效保护企业数据资产安全,且对用户透明,不影响用户体验,容易被用户接受。
【IPC分类】H04L29/06, H04L29/08
【公开号】CN105656937
【申请号】
【发明人】代刚, 郭卓越, 李宁, 孙彦雷, 唐玉山, 司禹
【申请人】北京中测安华科技有限公司
【公开日】2016年6月8日
【申请日】2016年3月11日