Page 128 - 大数据背景下网络安全问题研究
P. 128
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
贝叶斯算法允许我们使用概率给出一组特征来预测一个类。与其他常见的分类方法相
比,朴素贝叶斯算法需要的训练很少。在进行预测之前必须完成的唯一工作是找到特
征的个体概率分布的参数,这通常可以快速且确定地完成。这意味着即使对于高维数
据点或大量数据点,朴素贝叶斯分类器也可以表现良好。
(三)支持向量机算法
基本思想可概括如下:要先利用一种变换将空间高维化,当然这种变换是非线性
的,然后在新的复杂空间取最优线性分类表面。由此种方式获得的分类函数在形式上
类似于神经网络算法。支持向量机是统计学习领域中一个代表性算法,但它与传统方
式的思维方法很不同,输入空间、提高维度从而将问题简短化,使问题归结为线性可
分的经典解问题。支持向量机应用于垃圾邮件识别,人脸识别等多种分类问题。
(四)随机森林算法
控制数据树生成的方式有多种,根据前人的经验,大多数时候更倾向选择分裂属
性和剪枝,但这并不能解决所有问题,偶尔会遇到噪声或分裂属性过多的问题。基于
这种情况,总结每次的结果可以得到袋外数据的估计误差,将它和测试样本的估计误
差相结合可以评估组合树学习器的拟合及预测精度。此方法的优点有很多,可以产生
高精度的分类器,并能够处理大量的变数,也可以平衡分类资料集之间的误差。
(五)人工神经网络算法
人工神经网络与神经元组成的异常复杂的网络此大体相似,是个体单元互相连接
而成,每个单元有数值量的输入和输出,形式可以为实数或线性组合函数。它先要以
一种学习准则去学习,然后才能进行工作。当网络判断错误时,通过学习使其减少犯
同样错误的可能性。此方法有很强的泛化能力和非线性映射能力,可以对信息量少的
系统进行模型处理。从功能模拟角度看具有并行性,且传递信息速度极快。
(六)Boosting 与 Bagging 算法
Boosting是一种通用的增强基础算法性能的回归分析算法。不需构造一个高精度
的回归分析,只需一个粗糙的基础算法即可,再反复调整基础算法就可以得到较好的
组合回归模型。它可以将弱学习算法提高为强学习算法,可以应用到其他基础回归算
法,如线性回归、神经网络等,来提高精度。Bagging和前一种算法大体相似但又略
有差别,主要想法是给出已知的弱学习算法和训练集,它需要经过多轮的计算,才可
以得到预测函数列,最后采用投票方式对示例进行判别。
(七)关联规则算法
关联规则是用规则去描述两个变量或多个变量之间的关系,是客观反映数据本身
性质的方法。它是机器学习的一大类任务,可分为两个阶段,先从资料集中找到高频
项目组,再去研究它们的关联规则。其得到的分析结果是对变量间规律的总结。
• 116 •

