文件类型识别方法及装置制造方法

文档序号:6526838阅读:286来源:国知局
文件类型识别方法及装置制造方法
【专利摘要】本发明涉及一种文件类型识别方法,包括:对文件的文件特征进行预编译,从而获取位图特征,所述位图特征包括第一偏移量和所述第一偏移量对应的第一字符值;从传输的数据包中获取需要识别文件类型的第一文件的文件流,所述文件流包括第二偏移量和所述第二偏移量对应的第二字符值;根据所述第二偏移量从所述位图特征中查找与所述第二偏移量相匹配的第一偏移量;将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果;根据所述运算结果确定所述第一文件的文件类型。本发明可以高效准确地识别文件类型、实时告警特定文件类型和跟踪局域网内用户操作,细粒化呈现用户上传或下载文件的行为。
【专利说明】文件类型识别方法及装置
【技术领域】
[0001]本发明涉及计算机及网络安全领域,特别是涉及一种文件类型识别方法及装置。【背景技术】
[0002]随着科学技术的不断发展,人们对网络的依赖程度越来越高,并通过网络来传输数据,然而在传输数据的同时,信息安全也面临着极大的挑战。为了防止机密信息泄露,网络管理员或企业常常需要对传输文件的类型进行识别和检测。
[0003]现有的文件类型识别技术通过应用识别及协议深度分析,获取文件名,并依赖文件名中的后缀名确定文件类型。该方法虽然不需要查找文件边界,不需要分析文件内容,但是在实际应用中如果文件的文件名被修改,将会识别出错误的结果,因此,使用这种技术正确识别率低并且差错不可预期。
[0004]同时,基于魔鬼数字的文件类型识别方法,该方法与文件头数据流进行匹配,根据匹配结果判断文件类型。该方法虽然能有效识别文件类型,但是采用字符串进行比较,识别效率低,不能满足网络设备对转发性能的需求。
[0005]因此,现有的文件类型识别技术都不能准确高效地识别文件类型。

【发明内容】

[0006]本发明的目的是提高文件类型识别准确率,避免后缀名识别错误带来的隐患;识别过程采用逻辑运算,大大提高了文件类型识别的效率。
[0007]为实现上述目的,本发明提供了一种文件类型识别方法,该方法包括:
[0008]对文件的文件特征进行预编译,从而获取位图特征,所述位图特征包括第一偏移量和所述第一偏移量对应的第一字符值;
[0009]从传输的数据包中获取需要识别文件类型的第一文件的文件流,所述文件流包括第二偏移量和所述第二偏移量对应的第二字符值;
[0010]根据所述第二偏移量从所述位图特征中查找与所述第二偏移量相匹配的第一偏
移量;
[0011]将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果;
[0012]根据所述运算结果确定所述第一文件的文件类型。
[0013]进一步地,所述根据所述运算结果确定所述第一文件的文件类型之后还包括:对所述第一文件的文件类型进行处理。
[0014]进一步地,所述运算为与运算,从而缩小查找文件类型的范围。
[0015]进一步地,对文件的文件特征进行预编译,从而获取位图特征之后还包括:将所述位图特征在进程启动时加载到内存中。
[0016]进一步地,所述位图特征还包括文件类型ID ;所述将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果包括:
[0017]判断所述第二字符值与所述第一字符值是否匹配;[0018]如果所述第二字符值与所述第一字符值匹配,则根据当前所述第一字符值所对应的所述文件类型ID确定所述第一文件的文件类型;
[0019]如果所述第二字符值与所述第一字符值不匹配,则判断所述第一文件的文件类型为异常文件类型。
[0020]进一步地,所述异常文件类型包括内容篡改文件类型和未知文件类型。
[0021]进一步地,所述从传输的数据包中获取需要识别文件类型的第一文件的文件流,还包括获取文件边界,所述文件边界用于确定所述传输的数据包的开始时间和结束时间。
[0022]另一方面,本发明提供了一种文件类型识别装置,所述装置包括特征编译模块、文件边界获取模块、类型识别模块、结果决策模块、策略模块和策略匹配模块;
[0023]特征编译模块,用于对文件的文件特征进行预编译,从而获取位图特征,所述位图特征包括文件类型ID、第一偏移量和所述第一偏移量对应的第一字符值;
[0024]策略模块,用于指示所述第一文件的文件类型如何处理;
[0025]文件边界获取模块,用于从传输的数据包中获取需要识别文件类型的第一文件的文件流和文件边界,所述文件流包括第二偏移量和所述第二偏移量对应的第二字符值;
[0026]类型识别模块,用于根据所述第二偏移量从所述位图特征中查找与所述第二偏移量相匹配的第一偏移量;将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果;
[0027]结果决策模块,用于根据所述运算结果确定所述第一文件的文件类型;
[0028]策略匹配模块,用于根据所述策略模块,对所述第一文件的文件类型进行处理。
[0029]本发明的主要优点在于:
[0030]1、在下一代防火墙的数据防泄露功能应用中,可以实时告警特定文件类型文件的发送或接收。
[0031]2、在下一代防火墙的数据防泄露功能应用中,可以高效准确地识别文件类型,为文件解析和内容审计等功能提供保障。
[0032]3、在上网行为管理等网络监控设备应用中,可以跟踪局域网内用户的操作,细粒化呈现用户下载或上传的行为。
【专利附图】

【附图说明】
[0033]图1为本发明实施例提供的文件类型识别方法流程图;
[0034]图2为本发明实施例提供的文件类型识别装置的示意图;
[0035]图3为本发明实施例提供的位图特征示意图。
【具体实施方式】
[0036]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
[0037]图1为本发明实施例提供的文件类型识别方法流程图。如图1所示,该方法包括如下步骤:
[0038]步骤101,对文件的文件特征进行预编译,从而获取位图特征,位图特征包括第一
偏移量和所述第一偏移量对应的第一字符值;
[0039]进一步地,从而获取位图特征之后还包括:将位图特征在进程启动时加载到内存中。
[0040]步骤102,从传输的数据包中获取需要识别文件类型的第一文件的文件流,文件流包括第二偏移量和所述第二偏移量对应的第二字符值;
[0041]进一步地,从传输的数据包中获取需要识别文件类型的第一文件的文件流,还包括获取文件边界,文件边界用于确定传输的数据包的开始时间和结束时间。
[0042]步骤103,根据第二偏移量从位图特征中查找与第二偏移量相匹配的第一偏移量;
[0043]步骤104,将第二字符值与各第一字符值依次进行运算,得到运算结果;
[0044]进一步地,位图特征还包括文件类型ID ;将第二字符值与各第一字符值依次进行运算,得到运算结果包括:
[0045]判断第二字符值与第一字符值是否匹配;
[0046]如果第二字符值与第一字符值匹配,则根据当前第一字符值所对应的文件类型ID确定第一文件的文件类型;
[0047]如果第二字符值与第一字符值不匹配,则判断第一文件的文件类型为异常文件类型。
[0048]进一步地,所述异常文件类型包括内容篡改文件类型和未知文件类型。
[0049]进一步地,运算为与运算,从而缩小查找文件类型的范围。
[0050]步骤105,根据运算结果确定第一文件的文件类型。
[0051]进一步地,对第一文件的文件类型进行处理。
[0052]图2为本发明实施例提供的一种文件类型识别装置结构示意图。如图2所示,文件类型识别装置包括特征编译模块20、文件边界获取模块10、类型识别模块30、结果决策模块40、策略模块60和策略匹配模块50。
[0053]特征编译模块20,用于对文件的文件特征进行预编译,从而获取位图特征,位图特征包括文件类型ID、第一偏移量和所述第一偏移量对应的第一字符值。
[0054]策略模块60,用于指示第一文件的文件类型如何处理。;
[0055]文件边界获取模块10,用于从传输的数据包中获取需要识别文件类型的第一文件的文件流和文件边界,文件流包括第二偏移量和所述第二偏移量对应的第二字符值。
[0056]类型识别模块30,用于根据第二偏移量从所述位图特征中查找与第二偏移量相匹配的第一偏移量;将第二字符值与各第一字符值依次进行运算,得到运算结果。
[0057]结果决策模块40,用于根据运算结果确定第一文件的文件类型。
[0058]策略匹配模块50,用于根据策略模块60,对第一文件的文件类型进行处理。
[0059]图3为本发明实施例提供的位图特征示意图。如图3所示,该图包括文件类型ID,第一偏移量和第一偏移量对应的第一字符值。将文件流中的第二偏移量从位图特征中查找与第二偏移量相匹配的第一偏移量;将第二字符值与各第一字符值依次进行与运算,若与运算结果为1,则根据与第二字符值进行与运算结果为I的第一字符值的当前位置,确定文件类型ID,并根据文件类型ID确定文件类型。
[0060]以上所述的【具体实施方式】,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的【具体实施方式】而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种文件类型识别方法,其特征在于,包括: 对文件的文件特征进行预编译,从而获取位图特征,所述位图特征包括第一偏移量和所述第一偏移量对应的第一字符值; 从传输的数据包中获取需要识别文件类型的第一文件的文件流,所述文件流包括第二偏移量和所述第二偏移量对应的第二字符值; 根据所述第二偏移量从所述位图特征中查找与所述第二偏移量相匹配的第一偏移量; 将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果; 根据所述运算结果确定所述第一文件的文件类型。
2.根据权利要求1所述的一种文件类型识别方法,其特征在于,所述根据所述运算结果确定所述第一文件的文件类型之后还包括:对所述第一文件的文件类型进行处理。
3.根据权利要求1所述的一种文件类型识别方法,其特征在于,所述运算为与运算,从而缩小查找文件类型的范围。
4.根据权利要求1所述的一种文件类型识别方法,其特征在于,对文件的文件特征进行预编译,从而获取位图特征之后还包括:将所述位图特征在进程启动时加载到内存中。
5.根据权利要求1所述的一种文件类型识别方法,其特征在于,所述位图特征还包括文件类型ID ;所述将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果包括: 判断所述第二字符值与所述第一字符值是否匹配;` 如果所述第二字符值与所述第一字符值匹配,则根据当前所述第一字符值所对应的所述文件类型ID确定所述第一文件的文件类型; 如果所述第二字符值与所述第一字符值不匹配,则判断所述第一文件的文件类型为异常文件类型。
6.根据权利要求1所述的一种文件类型识别方法,其特征在于,所述异常文件类型包括内容篡改文件类型和未知文件类型。
7.根据权利要求1所述的一种文件类型识别方法,其特征在于,所述从传输的数据包中获取需要识别文件类型的第一文件的文件流,还包括获取文件边界,所述文件边界用于确定所述传输的数据包的开始时间和结束时间。
8.一种文件类型识别装置,其特征在于,所述装置包括特征编译模块、文件边界获取模块、类型识别模块、结果决策模块、策略模块和策略匹配模块; 特征编译模块,用于对文件的文件特征进行预编译,从而获取位图特征,所述位图特征包括文件类型ID、第一偏移量和所述第一偏移量对应的第一字符值; 策略模块,用于指示所述第一文件的文件类型如何处理; 文件边界获取模块,用于从传输的数据包中获取需要识别文件类型的第一文件的文件流和文件边界,所述文件流包括第二偏移量和所述第二偏移量对应的第二字符值; 类型识别模块,用于根据所述第二偏移量从所述位图特征中查找与所述第二偏移量相匹配的第一偏移量;将所述第二字符值与各所述第一字符值依次进行运算,得到运算结果; 结果决策模块,用于根据所述运算结果确定所述第一文件的文件类型;策略匹配模块, 用于根据所述策略模块,对所述第一文件的文件类型进行处理。
【文档编号】G06F17/30GK103701821SQ201310750085
【公开日】2014年4月2日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】郭璞, 曹政, 刘岩 申请人:北京网康科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1