Page 131 - 大数据背景下网络安全问题研究
P. 131

» 第五章  机器学习在网络信息安全中的应用


               Leslie vlliant教授,其获奖工作之一是建立了概率近似正确(Probably Approximate

               Correct,PAC)学习理论;2011年的图灵奖获得者为加州大学洛杉矶分校的Judea
               Pearll教授,其主要贡献为建立了以概率统计为理论基础的人工智能方法。这些研究
               成果都促进了机器学习的发展和繁荣。
                   机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能

               中最具智能特征,最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现
               人工智能的途径,在人工智能界引起了广泛的兴趣,特别是近十几年来,机器学习领
               域的研究工作发展很快,它已成为人工智能的重要课题之一。机器学习不仅在基于知

               识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许
               多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一
               个标志。机器学习的研究主要分为两类研究方向:第一类是传统机器学习的研究,该
               类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机

               器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏
               的、有效的、可理解的知识。
                   机器学习历经70年的曲折发展,以深度学习为代表借鉴人脑的多分层结构、神经

               元的连接交互信息的逐层分析处理机制,自适应、自学习的强大并行信息处理能力,
               在很多方面收获了突破性进展,其中最有代表性的是图像识别领域。
                   1.传统机器学习的发展现状
                   传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学
               习等方面的研究。

                   (1)决策树
                   决策树是机器学习常见的一种方法。20世纪末期,机器学习研究者J.Ross Quinlan
               将Shannon的信息论引入了决策树算法中,提出了ID3算法。1984年I.Kononenko、

               E.Roskar和I.Bratko在ID3算法的基础上提出了AS-SISTANT Algorithm,这种算法允
               许类别的取值之间有交集。同年,A.Hart提出了Chi-Squa统计算法,该算法采用了
               一种基于属性与类别关联程度的统计量。1984年L.Breiman、C.Ttone、R.Olshen和
               J.Freidman提出了决策树剪枝概念,极大地改善了决策树的性能。1993年,Quinlan在

               ID3算法的基础上提出了一种改进算法,即C4.5算法。C4.5算法克服了ID3算法属性偏
               向的问题增加了对连续属性的处理通过剪枝,在一定程度上避免了“过度适合”现
               象。但是该算法将连续属性离散化时,需要遍历该属性的所有值,降低了效率,并且
               要求训练样本集驻留在内存,不适合处理大规模数据集。2010年Xie提出一种CART

               算法,该算法是描述给定预测向量X条件分布变量Y的一个灵活方法,已经在许多领
               域得到了应用。CART算法可以处理无序的数据,采用基尼系数作为测试属性的选择


                                                                                         • 119 •
   126   127   128   129   130   131   132   133   134   135   136