Page 132 - 大数据背景下网络安全问题研究

P. 132

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

标准。CART算法生成的决策树精确度较高，但是当其生成的决策树复杂度超过一定
程度后，随着复杂度的提高，分类精确度会降低，所以该算法建立的决策树不宜太复
杂。2007年房祥飞表述了一种叫SLIQ（决策树分类）算法，这种算法的分类精度与其
他决策树算法不相上下，但其执行的速度比其他决策树算法快，它对训练样本集的样
本数量以及属性的数量没有限制。SLIQ算法能够处理大规模的训练样本集，具有较好

的伸缩性；执行速度快而且能生成较小的二叉决策树。SLIQ算法允许多个处理器同时
处理属性表，从而实现了并行性。但是SLIQ算法依然不能摆脱主存容量的限制。2000
年Rajeev RaSto等提出了PUBLIC算法，该算法是对尚未完全生成的决策树进行剪枝，

因而提高了效率。近几年模糊决策树也得到了蓬勃发展。研究者考虑到属性之间的相
关性提出了分层回归算法、约束分层归纳算法和功能树算法，这三种算法都是基于多
分类器组合的决策树算法，它们对属性间可能存在的相关性进行了部分实验和研究，
但是这些研究并没有从总体上阐述属性间的相关性是如何影响决策树性能。此外，还
有很多其他的算法，如Zhang.J于2014年提出的一种基于粗糙集的优化算法、Wang.R

在2015年提出的基于极端学习树的算法模型等。
（2）随机森林

随机森林（RF）作为机器学习重要算法之一，是一种利用多个树分类器进行分类
和预测的方法。近年来，随机森林算法研究的发展十分迅速，已经在生物信息学、生
态学、医学、遗传学、遥感地理学等多领域开展的应用性研究。
（3）人工神经网络
人工神经网络（Artiﬁcial Neural Networks，ANN）是一种具有非线性适应性信息

处理能力的算法，可克服传统人工智能方法对于直觉，如模式、语音识别、非结构化
信息处理方面的缺陷。早在20世纪40年代人工神经网络已经受到关注，并随后得到迅
速发展。

（4）贝叶斯学习
贝叶斯学习是机器学习较早的研究方向，其方法最早起源于英国数学家托马斯，
贝叶斯在1763年所证明的一个关于贝叶斯定理的一个特例。经过多位统计学家的共同
努力，贝叶斯统计在20世纪50年代之后逐步建立起来，成为统计学中一个重要的组成

部分。
2.大数据环境下机器学习的研究现状
大数据的价值体现主要集中在数据的转向以及数据的信息处理能力等。在产业
发展的今天，大数据时代的到来，对数据的转换，数据的处理数据的存储等带来了更

好的技术支持，产业升级和新产业诞生形成了一种推动力量，让大数据能够针对可发
现事物的程序进行自动规划，实现人类用户以计算机信息之间的协调。另外现有的许

• 120 •

127 128 129 130 131 132 133 134 135 136 137