Page 131 - 大数据背景下网络安全问题研究

P. 131

» 第五章机器学习在网络信息安全中的应用

Leslie vlliant教授，其获奖工作之一是建立了概率近似正确（Probably Approximate

Correct，PAC）学习理论；2011年的图灵奖获得者为加州大学洛杉矶分校的Judea
Pearll教授，其主要贡献为建立了以概率统计为理论基础的人工智能方法。这些研究
成果都促进了机器学习的发展和繁荣。
机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学，是人工智能

中最具智能特征，最前沿的研究领域之一。自20世纪80年代以来，机器学习作为实现
人工智能的途径，在人工智能界引起了广泛的兴趣，特别是近十几年来，机器学习领
域的研究工作发展很快，它已成为人工智能的重要课题之一。机器学习不仅在基于知

识的系统中得到应用，而且在自然语言理解、非单调推理、机器视觉、模式识别等许
多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一
个标志。机器学习的研究主要分为两类研究方向：第一类是传统机器学习的研究，该
类研究主要是研究学习机制，注重探索模拟人的学习机制；第二类是大数据环境下机

器学习的研究，该类研究主要是研究如何有效利用信息，注重从巨量数据中获取隐藏
的、有效的、可理解的知识。
机器学习历经70年的曲折发展，以深度学习为代表借鉴人脑的多分层结构、神经

元的连接交互信息的逐层分析处理机制，自适应、自学习的强大并行信息处理能力，
在很多方面收获了突破性进展，其中最有代表性的是图像识别领域。
1.传统机器学习的发展现状
传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学
习等方面的研究。

（1）决策树
决策树是机器学习常见的一种方法。20世纪末期，机器学习研究者J.Ross Quinlan
将Shannon的信息论引入了决策树算法中，提出了ID3算法。1984年I.Kononenko、

E.Roskar和I.Bratko在ID3算法的基础上提出了AS-SISTANT Algorithm，这种算法允
许类别的取值之间有交集。同年，A.Hart提出了Chi-Squa统计算法，该算法采用了
一种基于属性与类别关联程度的统计量。1984年L.Breiman、C.Ttone、R.Olshen和
J.Freidman提出了决策树剪枝概念，极大地改善了决策树的性能。1993年，Quinlan在

ID3算法的基础上提出了一种改进算法，即C4.5算法。C4.5算法克服了ID3算法属性偏
向的问题增加了对连续属性的处理通过剪枝，在一定程度上避免了“过度适合”现
象。但是该算法将连续属性离散化时，需要遍历该属性的所有值，降低了效率，并且
要求训练样本集驻留在内存，不适合处理大规模数据集。2010年Xie提出一种CART

算法，该算法是描述给定预测向量X条件分布变量Y的一个灵活方法，已经在许多领
域得到了应用。CART算法可以处理无序的数据，采用基尼系数作为测试属性的选择

• 119 •

126 127 128 129 130 131 132 133 134 135 136