专利名称:基于自组织映射网络的自适应入侵检测方法
技术领域:
本发明涉及的是一种自适应入侵检测方法,特别是一种基于自组织映射网络的自适应入侵检测方法。属于网络信息技术领域。
背景技术:
入侵检测技术作为一种动态安全技术以及传统防火墙的有力补充措施,近年来在安全研究领域成为热点。按照数据来源,又可分为基于主机和基于网络入侵检测。随着计算环境转向网络和分布式环境,基于网络的入侵检测技术逐渐流行。几乎所有的商用入侵检测系统都采用传统的基于关键词匹配技术,其缺点是具备较高的虚警概率以及不易检测到较新攻击手法或者原有攻击方法的变种。
自适应的思想最早体现在异常入侵检测模型中。异常入侵检测的基本思想就是建立关于用户正常行为状态的模型,凡是偏离该模型的行为判断为异常。而正常行为状态模型就是通过不断学习用户的使用行为(各种统计分析值)来建立的。经文献检索发现,Tan,K在《In Proceedings of the IEEE International Conference onNeural Networks》,Vol.1(1995)pp.476-481上发表的“The Application of NeuralNetworks to UNIX Computer Security”一文,(“神经网络在UNIX计算机安全中的应用”,IEEE神经网络国际会议论文集,1995年第1卷476~481页),该文提到对MLP网络进行改进后,用来自适应主机用户行为模式的不断变化,所采用的改进方法是首先将MLP网络样本的训练方式由并行改为串行方式,其次是在训练和识别过程中引入了“随机样本”,来试图解决不完整训练样本的问题。但是该文中并未很好地解决这个问题“随机样本”应该在何时和以何种频率加入到网络训练和测试中,只是指出应该根据所要学习的特征样本情况而定。经分析可知,MLP网络训练方式的改变违背了该类型网络训练方法的本质特征,而随机样本的引入带来了更多的问题,因为如果要自适应输入样本的变化,很难事先了解样本特征的情况。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于自组织映射网络的自适应入侵检测方法,使其用于网络入侵检测目的,选用自组织映射神经网络的优势在于自组织映射网络训练方法其本身可以采用串行化的工作方式,并实现自适应的训练功能。通过本发明方法,实现自适应的检测模型,达到提高入侵检测性能,并降低虚警概率的效果。
本发明是通过以下技术方案实现的,本发明方法分为两大阶段,即训练阶段和检测阶段,首先,对自组织映射神经网络采用训练样本集合进行训练,达到稳定,之后,训练完毕后的自组织映射神经网络在检测阶段用于实际的入侵检测任务,具体如下第一,训练阶段在训练阶段,首先从会话数据矢量训练样本集获得输入特征矢量,然后在进行预处理后,送入自组织映射神经网络进行自组织训练直至稳定收敛。
训练阶段中,自组织映射神经网络训练方式采用串行工作方式,在具体训练时可分为两个子阶段排序阶段和微调阶段,在排序阶段,对于每个输入特征矢量,自组织映射神经网络在训练时采用较大的初始邻城尺寸和较大的初始学习速率(通常采用0.9),目的在于加快形成大致的有序自组织状态,同时在排序过程中,自组织映射神经网络训练时采用的邻域大小和学习速率都随时间递减;而在进入微调阶段后,则仅对赢单元的权值矢量进行调整。
所述的输入特征矢量,其构建过程包括如下步骤(1)从所收集的网络数据包中构建网络会话数据矢量,即单个网络会话中双方实体之间所传输的所有数据负载内容。
(2)在构建完毕网络会话数据矢量后,然后根据选定的关键词表,在会话数据内容中搜索匹配各个关键字,并形成各个关键字对应的统计计数值。
(3)然后,将各个关键字计数值并行排列起来形成输入特征矢量,即作为神经网络输入的特征矢量中的每个分量代表着对应关键词在会话数据中出现次数的计数值。
(4)在输入到神经网络进行训练之前,必须对输入特征矢量进行预处理工作。预处理主要包括归一化过程,在本方法中,针对的是各个关键字计数值字段的归一化问题。
第二,检测阶段在实际的检测阶段,本发明首先从实际输入的数据样本集中生成输入特征矢量,然后将它们按照串行方式依次送入自组织映射神经网络,得到对应的输出值。对于每个输入特征矢量,用其产生的输出值对自组织映射神经网络内的神经元权值进行调整,完成一次自适应训练过程。
检测阶段,具体包括以下步骤(1)根据当前网络会话数据和上面所述的构造输入特征矢量的方法,首先构造一个输入样本X,送入到自组织映射网络进行计算,得到对应的检测输出值Y。
(2)然后,设定一个阈值λ进行判断,如果Y>λ,则构造输入特征矢量Z={X,1},表明判断当前会话数据异常;否则,构造Z={X,0},表明判断当前会话数据正常。
(3)紧接着,对赢单元及其邻域η内输出神经元的权值按照输入矢量Z进行调整修改。
至此,完成对一个输入样本的自适应训练过程。对于后继的输入样本,可循环进行检测和自适应训练的过程。由此,实现基于自组织映射网络的自适应入侵检测方法。
本发明方法的优点在于,利用自组织映射神经网络本身的串行工作特征,实现了输入样本的自适应训练过程,建立了自适应检测模型,解决了Tan,K等人选择“随机样本”存在的难以选定样本类型问题以及MLP模型本身存在的难以进行串行工作的问题。本发明方法实现过程简洁、原理直观,能够提高入侵检测自适应学习的能力,从而提高检测性能。
具体实施例方式
结合本发明方法的具体内容提供以下的实施例实施的环境为具有多台PC机的内部局域网。其中1台主机用作服务器,安装了Windows 2000 Server操作系统和IIS 5.0服务器软件,局域网采用10M以太网卡和10M以太集线器进行搭建。在实施中,1台PC工作站作为攻击主机使用,另外若干工作站产生正常的网络流量数据。因为实施环境是内部局域网,所以可以避免外部入侵的可能性,能够保证在正常网络操作条件下采集到所需的正常Web会话样本。攻击样本的产生同时采用了手工模拟方式,以及使用Satan、Superscan等安全扫描软件的自动工作方式。
实施例的具体实施过程如下
(1)通过攻击主机和正常工作主机共发送1,230个Web协议会话的训练样本,其中包括30个攻击样本数据,其他均为正常会话样本;在所有的攻击样本中包含了多种基于Web服务的攻击手段,例如传统的PHF攻击和Translate:f漏洞发掘。
(2)从所收集的网络数据包中构建网络会话数据矢量,然后根据选定的关键词表,在会话数据内容中搜索匹配各个关键字,并形成各个关键字对应的统计计数值。
(3)然后,将各个关键字计数值并行排列起来形成输入特征矢量。
(4)然后在进行预处理后,送入自组织映射网络进行自组织训练直至稳定收敛。在具体训练时可分为两个子阶段排序阶段和微调阶段。在排序阶段采用较大的初始邻城尺寸(采用SOM输出平面中输出神经元最大间距的1/4)和较大的初始学习速率(采用0.9),加快形成大致的有序自组织状态,同时在排序过程中邻域大小和学习速率都随时间递减。而在进入微调阶段后,则仅对羸单元的权值矢量进行调整。
(5)此时,通过攻击主机和正常工作主机发送890个Web会话的测试样本,其中包括30个攻击样本数据。在这些攻击样本中包含了15个未在训练样本中出现过的新攻击样本。
(6)根据当前网络会话数据,构造一个输入样本X,送入到SOM网络进行计算,得到对应的检测输出值Y。
(7)然后,设定一个阈值λ进行判断,如果Y>λ,则构造输入特征矢量Z={X,1},表明判断当前会话数据异常;否则,构造Z={X,0},表明判断当前会话数据正常。
(8)紧接着,对赢单元及其邻域η内输出神经元的权值按照输入矢量Z进行调整修改。
(9)对随后的测试样本,重复执行(6)~(8)的操作步骤。
实施效果当阈值λ取0.2,邻域η取3时,对测试样本集中出现的新攻击样本的检测性能是在1%的虚警概率下能够达到100%的检测概率。
权利要求
1.一种基于自组织映射网络的自适应入侵检测方法,其特征在于,方法分为两大阶段,即训练阶段和检测阶段,首先,对自组织映射神经网络采用训练样本集合进行训练,达到稳定,之后,训练完毕后的自组织映射神经网络在检测阶段用于实际的入侵检测任务,具体如下第一,训练阶段在训练阶段,首先从会话数据矢量训练样本集获得输入特征矢量,然后在进行预处理后,送入自组织映射神经网络进行自组织训练直至稳定收敛;第二,检测阶段首先从实际输入的数据样本集中生成输入特征矢量,然后将它们按照串行方式依次送入自组织映射神经网络,得到对应的输出值,对于每个输入特征矢量,用其产生的输出值对自组织映射神经网络内的神经元权值进行调整,完成一次自适应训练过程。
2.根据权利要求1所述的基于自组织映射网络的自适应入侵检测方法,其特征是,所述的训练阶段中,自组织映射神经网络训练方式采用串行工作方式,在具体训练时分为两个子阶段排序阶段和微调阶段,在排序阶段,对于每个输入特征矢量,自组织映射神经网络在训练时采用较大的初始邻城尺寸和较大的初始学习速率,加快形成大致的有序自组织状态,同时在排序过程中,自组织映射神经网络训练时采用的邻域大小和学习速率都随时间递减,而在进入微调阶段后,则仅对赢单元的权值矢量进行调整。
3.根据权利要求1或2所述的基于自组织映射网络的自适应入侵检测方法,其特征是,所述的输入特征矢量,其构建过程包括如下步骤(1)从所收集的网络数据包中构建网络会话数据矢量,即单个网络会话中双方实体之间所传输的所有数据负载内容;(2)在构建完毕网络会话数据矢量后,然后根据选定的关键词表,在会话数据内容中搜索匹配各个关键字,并形成各个关键字对应的统计计数值;(3)然后,将各个关键字计数值并行排列起来形成输入特征矢量,即作为神经网络输入的特征矢量中的每个分量代表着对应关键词在会话数据中出现次数的计数值;(4)在输入到神经网络进行训练之前,必须对输入特征矢量进行预处理工作,即对各个关键字计数值字段的归一化。
4.根据权利要求1所述的基于自组织映射网络的自适应入侵检测方法,其特征是,所述的检测阶段,具体包括以下步骤(1)根据当前网络会话数据和上面所述的构造输入特征矢量的方法,首先构造一个输入样本X,送入到自组织映射网络进行计算,得到对应的检测输出值Y;(2)然后,设定一个阈值λ进行判断,如果Y>λ,则构造输入特征矢量Z={X,1},表明判断当前会话数据异常,否则,构造Z={X,0},表明判断当前会话数据正常;(3)紧接着,对赢单元及其邻域η内输出神经元的权值按照输入矢量Z进行调整修改。
全文摘要
一种基于自组织映射网络的自适应入侵检测方法。属于信息安全领域。方法分为两大阶段,即训练阶段和检测阶段,在训练阶段,首先从会话数据矢量训练样本集获得输入特征矢量,然后在进行预处理后,送入自组织映射神经网络进行自组织训练直至稳定收敛;在检测阶段中,首先从实际输入的数据样本集中生成输入特征矢量,然后将它们按照串行方式依次送入自组织映射神经网络,得到对应的输出值,对于每个输入特征矢量,用其产生的输出值对自组织映射神经网络内的神经元权值进行调整,完成一次自适应训练过程。本发明方法实现过程简洁、原理直观,能够提高入侵检测自适应学习的能力,从而提高检测性能。
文档编号H04L12/24GK1555156SQ20031012278
公开日2004年12月15日 申请日期2003年12月25日 优先权日2003年12月25日
发明者唐正军, 李建华, 杨树堂, 伍星, 陈杰 申请人:上海交通大学