Page 128 - 大数据背景下网络安全问题研究
P. 128

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


             贝叶斯算法允许我们使用概率给出一组特征来预测一个类。与其他常见的分类方法相
             比,朴素贝叶斯算法需要的训练很少。在进行预测之前必须完成的唯一工作是找到特
             征的个体概率分布的参数,这通常可以快速且确定地完成。这意味着即使对于高维数
             据点或大量数据点,朴素贝叶斯分类器也可以表现良好。
                 (三)支持向量机算法

                  基本思想可概括如下:要先利用一种变换将空间高维化,当然这种变换是非线性
             的,然后在新的复杂空间取最优线性分类表面。由此种方式获得的分类函数在形式上
             类似于神经网络算法。支持向量机是统计学习领域中一个代表性算法,但它与传统方

             式的思维方法很不同,输入空间、提高维度从而将问题简短化,使问题归结为线性可
             分的经典解问题。支持向量机应用于垃圾邮件识别,人脸识别等多种分类问题。
                 (四)随机森林算法
                  控制数据树生成的方式有多种,根据前人的经验,大多数时候更倾向选择分裂属

             性和剪枝,但这并不能解决所有问题,偶尔会遇到噪声或分裂属性过多的问题。基于
             这种情况,总结每次的结果可以得到袋外数据的估计误差,将它和测试样本的估计误
             差相结合可以评估组合树学习器的拟合及预测精度。此方法的优点有很多,可以产生

             高精度的分类器,并能够处理大量的变数,也可以平衡分类资料集之间的误差。
                 (五)人工神经网络算法
                  人工神经网络与神经元组成的异常复杂的网络此大体相似,是个体单元互相连接
             而成,每个单元有数值量的输入和输出,形式可以为实数或线性组合函数。它先要以
             一种学习准则去学习,然后才能进行工作。当网络判断错误时,通过学习使其减少犯

             同样错误的可能性。此方法有很强的泛化能力和非线性映射能力,可以对信息量少的
             系统进行模型处理。从功能模拟角度看具有并行性,且传递信息速度极快。
                 (六)Boosting 与 Bagging 算法

                  Boosting是一种通用的增强基础算法性能的回归分析算法。不需构造一个高精度
             的回归分析,只需一个粗糙的基础算法即可,再反复调整基础算法就可以得到较好的
             组合回归模型。它可以将弱学习算法提高为强学习算法,可以应用到其他基础回归算
             法,如线性回归、神经网络等,来提高精度。Bagging和前一种算法大体相似但又略

             有差别,主要想法是给出已知的弱学习算法和训练集,它需要经过多轮的计算,才可
             以得到预测函数列,最后采用投票方式对示例进行判别。
                 (七)关联规则算法
                  关联规则是用规则去描述两个变量或多个变量之间的关系,是客观反映数据本身

             性质的方法。它是机器学习的一大类任务,可分为两个阶段,先从资料集中找到高频
             项目组,再去研究它们的关联规则。其得到的分析结果是对变量间规律的总结。


             • 116 •
   123   124   125   126   127   128   129   130   131   132   133