基于可视化聚类的网络流量异常分析方法
【专利摘要】本发明公开了一种基于可视化聚类对网络流量进行异常分析的方法,步骤为:1)对网络流量监控数据记录进行预处理;2)对流量数据进行RadViz可视聚类,得到网络流量特征类似的流量时隙聚类;3)归纳2)所得到的流量时隙聚类的网络流量特征,得到流量特征异常的聚类;4)对2)所得到的流量时隙聚类过滤选择,得到不在聚类内离散的时隙点;5)结合IPPort矩阵对3)4)所得到的流量异常聚类中的和离散的时隙点进行分析。本发明能结合多角度快速对网络流量进行协同过滤,高效分析出网络流量的异常。
【专利说明】基于可视化聚类的网络流量异常分析方法
【技术领域】
[0001] 本发明涉及一种基于可视化聚类的网络流量异常分析方法。
【背景技术】
[0002] 流量是网络中传播的数据量,数据传输是网络活动的基础,网络流量就是网络活 动最重要的标志之一,几乎所有的网络应用和网络攻击在流量变化上都有迹可循。如今信 息社会进入大数据时代,网络规模日益壮大,设备集成程度越来越高,数据容量越来越大, 新兴的网络业务正在逐渐被开发,网络流量呈爆发性的增长,这些都有可能使得网络出现 状况。
[0003] 由于网络流量数据的海量和高维,传统的数据挖掘技术和算法让用户难以理解和 使用,往往耗费大量的时间,也未能分析清楚数据之间的关联来反应完整的网络状态,而且 不能以用户为驱动进行交互。而实践证明,用可视化的方法描述庞大的流量数据集合和复 杂的关联规则,让用户在易于理解的图形结构中对流量进行直观的可视分析,效率和效果 都会比对着一堆数据操作好很多。用户在看到直观的图片形式的网络流量表示图后,可以 较快的对当前流量有一个清楚的认识,同时也便于用户继续执行流量分析及异常判断的步 骤。
[0004] 基于可视化方法对网络流量进行异常分析,能帮助用户直观地感受网络状态的发 展,使用户能够在及时找出故障原因,预测运行态势,规避网络危险,从而做到防微杜渐,稳 定网络环境,提升网络性能。
【发明内容】
[0005] 本发明的主要目的是针对如今呈爆发性的增长的网络流量和网络问题,提出一种 基于可视化聚类的,结合多角度快速对网络流量进行协同过滤可视聚类的方法,能高效分 析出网络流量的异常。
[0006] 为了实现上述技术目的,本发明的技术方案是,
[0007] -种基于可视化聚类对网络流量进行异常分析的方法,包括:
[0008] 步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量 特征的关于各个时隙slot点的集合P的流量信息表Netflow_Info_Table ;
[0009] 步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行 RadViz可视聚类,得到网络流量特征类似的时隙点聚类;
[0010] 步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流 量特征异常聚类中的时隙点集si ;
[0011] 步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离 散时隙点集s2 ;
[0012] 步骤5):根据步骤3)和步骤4)得到的点集合si、s2,用IPPort矩阵反映每个时 隙点的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完 成对该时间段网络流量的异常分析。
[0013] 所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤1)包括:
[0014] 步骤1. 1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征 数据,即提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口 sport、接收方端口 dport、传输流大小byte字段;
[0015] 步骤1. 2):根据步骤I. 1)得到的网络流量特征数据,计算对应每个时隙网络流 量数据特征的相关统计信息,包括该时隙的源IP标准熵sipNormEntro、目的IP标准熵 dipNormEntro,源端口标准熵 sportNormEntro、目的端口标准熵 dportNormEntro ;该时隙 的主机总连接数sumCount ;该时隙的总流量大小sumByte ;并将每一个时隙点加入时隙 slot点集合p中,其中Pi代表集合p中第i个时隙点;
[0016] 步骤1. 3):根据步骤1. 2)计算得到的对应每个时隙网络流量数据特征的相关统 计信息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table。
[0017] 所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤2)包括:
[0018] 步骤2. 1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端 口标准熵sportNormEntro、目的端口标准熵dportNormEntro ;主机总连接数sumCount ;总 流量大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周;
[0019] 步骤2. 2):对时隙slot点集p中每个流量时隙点进行Radviz聚类,每个时隙点 在Radviz以半径r的圆表示,r介于RadViz圆半径的1/60与1/70之间,受其对应维度锚 点产生的弹簧力而在RadViz中处于平衡位置;
[0020] 步骤2. 3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数 K=[# ],X为流量信息表Netfl〇W_Inf〇_Table中时隙记录条数;聚类内记录个数限制 Nummin = 30 ;在RadViz中随机选定K个时隙点作为聚类质心Centroid,每个质心代表聚类 Ci, i = 1,2, ···,!(;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时 隙点最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中 所有的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到前后质心变动的距离 d不大于时隙点半径r ;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数 限制Nummin,若Num i < Nummin,则取消该聚类,K = K-I ;聚类内的时隙点回复未被聚集状态; 聚类Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中R i的最大值为Rmax ;
[0021] 步骤2.4):对步骤2.3)中的初始聚类个数K、聚类内记录个数限制Num min进行调 整,重复执行步骤2. 3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到 最终聚类结果,其中初始聚类个数K的调整范围为0到I'
【权利要求】
1. 一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,包括: 步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量特征 的关于各个时隙slot点的集合P的流量信息表Netflow_Info_Table ; 步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行RadViz 可视聚类,得到网络流量特征类似的时隙点聚类; 步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流量特 征异常聚类中的时隙点集si; 步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离散时 隙点集s2 ; 步骤5):根据步骤3)和步骤4)得到的点集合si、s2,用IPPort矩阵反映每个时隙点 的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完成对 该时间段网络流量的异常分析。
2. 根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,所述步骤1)包括: 步骤1. 1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征数据,即 提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口 sport、接 收方端口 dport、传输流大小byte字段; 步骤1.2):根据步骤1.1)得到的网络流量特征数据,计算对应每个时隙网络流量 数据特征的相关统计信息,包括该时隙的源IP标准熵SipNormEntro、目的IP标准熵 dipNormEntro,源端口标准熵 sportNormEntro、目的端口标准熵 dportNormEntro ;该时隙 的主机总连接数sumCount ;该时隙的总流量大小sumByte ;并将每一个时隙点加入时隙 slot点集合p中,其中Pi代表集合p中第i个时隙点; 步骤1. 3):根据步骤1. 2)计算得到的对应每个时隙网络流量数据特征的相关统计信 息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table。
3. 根据权利要求2所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,所述步骤2)包括: 步骤2. 1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标 准熵sportNormEntro、目的端口标准熵dportNormEntro ;主机总连接数sumCount ;总流量 大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周; 步骤2. 2):对时隙slot点集p中每个流量时隙点进行Radviz聚类,每个时隙点在 Radviz以半径r的圆表示,r介于RadViz圆半径的1/60与1/70之间,受其对应维度锚点 产生的弹簧力而在RadViz中处于平衡位置; 步骤2. 3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数K= [一7 ], X为流量信息表Netflow_Info_Table中时隙记录条数;聚类内记录个数限制Nummin = 30 ; 在RadViz中随机选定K个时隙点作为聚类质心Centroid,每个质心代表聚类Ci, i = 1, 2,· · ·,Κ;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时隙点 最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中所有 的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到前后质心变动的距离d不 大于时隙点半径r ;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数限制 Nummin,若Numi < Nummin,则取消该聚类,K = K-I ;聚类内的时隙点回复未被聚集状态;聚类 Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中Ri的最大值为R max ; 步骤2.4):对步骤2. 3)中的初始聚类个数K、聚类内记录个数限制Nummin进行调整,重 复执行步骤2. 3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到最终聚 类结果,其中初始聚类个数K的调整范围为O到之间的整数,聚类内记录个数限制 Numniin为大于O的整数。
4. 根据权利要求3所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,所述步骤2. 4)中,最终聚类结果中的不同聚类由用户进行调整,包括: 步骤2.5):对步骤2. 4)中得到的每一个聚类Ci,首先统计该聚类中记录个数Numi,然 后以该聚类质心为圆心,以一半聚类半径即学:为半径,统计此区域内包含记录个数ruim,若 num< pumi,则认为聚类(^记录点分布离散,取消该聚类;若nmiS >mi,则记录 来作为衡量聚类Ci的记录密度,其中Pi的最小值为Pmin ; 步骤2.6):对步骤2. 4)中由于Nummin限制未被聚类的时隙点,以及步骤2. 5)中分散 的时隙点,由用户选择组成新的聚类:第一步,随机选择一未被聚类的时隙点作为新聚类质 心,然后以此时隙点为圆心、不大于当前已有聚类的最大半径R max的距离为半径,随机选择 该范围内的另一未被聚类的时隙点加入点集作为新聚类中的点,然后重新计算点集内所有 点的平均坐标作为新的聚类质心,再以新的质心为圆心,半径保持不变,继续加入新的时隙 点并计算质心,直至范围内没有未被聚类的时隙点或点集加入时隙点会成为已形成过的不 能聚类的点集为止;第二步,设所选点集中时隙点个数为η、点集中所有点的平均坐标到点 集中任一点的最大值为1,若满足则认为六个维度对点集中时隙点影响相似,所选 点集成为新的聚类,若不满足,则认为所形成的点集不符合聚类要求,记录该点集内容并标 记为不能聚类的点集并取消聚类;随后重复进行第一步和第二步,直到连续3次出现点集 为已形成过的不能聚类的点集,则认为剩下的离散点再不能构成聚类。
5. 根据权利要求4所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,对所述步骤3)包括: 步骤3. 1):通过步骤2) RadViz可视聚类,将Radviz圆心往每一聚类Ci的质心的向量, 向圆心到源ip,目的ip,源端口,目的端口,连接数,流量大小六个维度锚点方向进行分解, 得到六个维度的分量 SipEi、(IipEi、SportEi、(IportEi、Counter i、bytei,如果满足关系(SipEi > 0) Π (ClipEi < 0) Π (ClportEi < 0),则认为聚类Ci符合DDos攻击的图像特征,标记Ci 为异常聚类;如果满足(SipEi < 0) Π (ClipEi < 0) Π (ClportEi > 0),符合端口扫描攻击的 图像特征,标记Ci为异常聚类; 步骤3. 2):对于步骤1. 2)时隙slot点集ρ中的每一时隙点Pi,确定Pi为步骤2)所 得到RadViz中的哪个聚类,若Pi所在聚类为步骤3. 1)异常聚类,将Pi加入特征异常的聚 类中的时隙点集si中。
6. 根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,所述步骤4):根据得到的时间点聚类Radviz图像进行过滤选择,对于步骤I. 2)时 隙slot点集p中的每一时隙点Pi,若Pi不为步骤2)中聚类的点,将Pi加入不在聚类内的 离散时隙点集s2中。
7.根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,所述步骤5)包括: 步骤5. 1):建立IPPort矩阵来反应时隙点6个维度的网络流量特征,IPPort包括源 IP,目的IP,源端口,目的端口四个矩阵;将网络中的主机按顺序排列到到IP矩阵中,每个 单位代表一个主机IP ;将主机中端口按顺序排列到Port矩阵中,每个单位代表一个端口; 对应IP和Port中的流量和连接数映射到对应矩阵的颜色,颜色由暗到亮对应数量级由低 到高;并且实现四个矩阵对应固定某个IP或端口的交互过滤; 步骤5. 2):根据步骤1. 3)得到的流量信息表Netfl〇W_Inf〇_Table将sl、s2中时隙点 的流量信息映射到IPPort矩阵中; 步骤5. 3):根据对应时隙点的IPPort矩阵中由颜色代表的流量大小和连接数的分布, 选择其中对应大数量级颜色的IP或端口,固定该IP或端口进行交互,过滤掉与之无关的流 量信息,快速定位到网络可疑处查看流量分布情况,记录下所发现的异常信息,包括异常的 时间点、异常类型和异常的IP与端口。
【文档编号】H04L12/24GK104394021SQ201410745810
【公开日】2015年3月4日 申请日期:2014年12月9日 优先权日:2014年12月9日
【发明者】周芳芳, 王俊韡, 赵颖, 彭燕妮, 施荣华, 樊晓平 申请人:中南大学