基于大数据的网络异常行为建模方法

2018-03-20 15:28:49 电力信息与通信技术　点击量：评论 (0)

随着网络技术的发展,网络攻击方式复杂多变,传统检测技术无法应对未知的攻击模式,因此异常检测技术被提出。文章介绍了目前常见的异常检测技术,并分析了这些技术的优缺点,在此基础上提出了基于大数据的网络异常行为建模方法并分析了可行性。通过聚类算法识别偏离正常的流量,并对偏

值,认为不相似度大于这一阈值的离群点为异常。

2）选择固定数量的离群点,即按照不相似度排序从大到小固定选择前N个离群点认为是异常。

3）选择不相似度量值发生突变的点,即观察经排序后的离群点的不相似度变化曲线,找出变化率有显著变化的点作为判定异常的阈值。

4）人工检查各个离群点,根据管理分析人员的经验来判定是否异常。

上述方法适用不同场景,前2种方法适用于变化不大的网络环境,第3种方法能根据场景有一定的动态自适应性,第4种方法则是在前3种方法表现不佳的情况下引入管理分析人员的专业知识和经验作为异常检测判定的依据。

2.2 自主的网络行为建模与异常检测

2.2.1 通过聚类建立初始的检测模型

首先应用子空间聚类算法的思想,从m维特征中选取k维形成子空间以供进一步分析,若要完全探索特征空间,所要分析的子空间总数为从m个不同元素中取出k个元素的组合数。在每个子空间内将应用基于密度的聚类算法,如DBSCAN、OPTICS等对数据集进行分簇。

以DBSCAN为例,它是一种能够有效发现识别任意形状和大小的簇的聚类算法,并且能标注出游离于各分簇之外的离群点,适合于无监督的网络流量分析场景,且无需事先指定分簇的数量。

对于每个子空间应用如DBSCAN的基于密度的聚类算法后均可得到一组分簇结果和离群点集。为了选取合理的k值,即子空间维度的大小,利用聚类的一个单调性质,称为向下封闭属性（downward closure property）,这个性质直接说明了如果一个空间中存在有关于数据点密度的某项证据,那么它一定会存在于这一空间的最低维子空间中。本文推荐使用k = 2,也就是会产生N = m(m-1)/2个子空间,分别应用基于密度的聚类算法处理得到N个分簇结果和相应的离群点集合。然后,使用证据积累聚类技术来对这些结果进行融合,形成统一的离群点排序。具体来说,对于任何子空间中的一个离群点,计算它与该子空间中最大簇中心的距离并将其累计到不相似度向量的相应的维度。这一计算方法的思想是明确突出那些在不同子空间中与正常网络流量相差较远的流（用与最大簇中心的距离来表示）。这里距离的计算使用马式距离（Mahalanobis distance）,在样本方差较小时更能突出离群点的不相似度。得出不相似度向量后,将其每一维的取值进行排序就得到所有离群点的不相似度排序。

2.2.2 在高速海量数据流环境中检测异常并实时更新检测模型

本文在数据收集过程中采用的基于时间序列的变化检测技术具有自适应的特性,与大数据处理和流处理技术相配合,能够很好地适应高速海量数据流环境。其中,在基于时间序列的变化检测中可以采用连续滑动的时间窗口,从而达到在线实时检测的效果,能够更及时地发现新产生的异常。每发现一个存在异常的时间窗口,就会触发后续的聚类分析及异常检测处理过程,可以看作是网络行为模型随时间窗口行进的不断动态更新。

3 结语

大数据处理技术及流处理技术的飞速发展,产生了诸多优秀的聚类算法。这些聚类算法能够保证初始检测模型构建的高效性和合理性,且聚类算法属于无监督学习,确保了检测机制的普适性。本文提出了基于大数据的网络异常行为建模,通过聚类算法识别偏离正常的流量,并对偏离流量的异常程度排序,采用基于阈值的方法将异常度高的流量标记为网络异常行为,其实现步骤和总体框架流程均参考借鉴了已有的研究成果,其可行性也有相应的技术支持。