Page 140 - 大数据背景下网络安全问题研究
P. 140
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
随机森林以决策树为基学习器构建Bagging集成,传统决策树在选择划分属性是在当
前节点的属性集合(d个)中选择一个最优属性;在RF中,先从决策树中的每个节点
的属性集合中随机选择一个包含k个属性的子集,再从子集中选择一个最优属性用于
划分,其中k控制了随机性的引入程度。随机森林由于其算法简单、容易实现、计算
量小、处理高维度数据以及分类速度快等特点,被用于故障检测中。
其他国家有学者提出了一种基于数据的电力电缆系统的故障诊断系统,利用小波
分析和倒谱分析得到特征变量,比较了k-近邻、k-NN,ANN、随机森林、分类回归
树(CART)以及增强型CART等6种方法;Sanghyuk Lee利用相似性度量和随机森林
算法对航空系统进行故障检测,使用距离信息设计了相似性度量,通过随机森林算法
技进行相似性度量权重计算,并提供数据优先级;Jong Oh等使用随机森林分析了神
经元数据集,并衡量了数据中每个输入变量之间的相对重要性,可以极大地减少变量
的数量,保留原始数据的可识别性;提出一种基于随机森林算法的LS-PMSM(直线
启动永磁同步电机)故障检测方法,基于随机森林算法得到电机的特征数据的特征重
要性排序,使得输入模型的特征数量降低,并将其与决策树、朴素贝叶斯分类器、逻
辑回归以及支持向量机等进行比较,随机森林的进度更高,可将该方法应用于工业生
产过程的状态监测。
随机森林方法可以对故障进行有效的检测,但是没有考虑到数据之间的自相关
和互相关关系,大量的耦合特性会影响随机森林模型的精确度,同时由于随机森林方
法至少需要两类数据进行训练,现有单类随机森林方法采用原始投票多数方法检测故
障,没有构建相应的统计量,因此当数据量有限,且变量之间存在耦合时,单类随机
森林方法无法很好实现及时、有效的故障检测,因此需要对随机森林算法进行改进和
优化。
3.机器学习算法在故障诊断领域的应用与发展
故障诊断技术发展至今,已经提出了较多的方法,从开始的基于解析模型方法到
现在的基于机器学习方法,在不需要太多的先验知识以及系统精确解析模型的情况下
完成系统的故障诊断,机器学习拥有很广泛的应用空间,其在故障诊断领域的应用主
要包括决策树、神经网络和支持向量机等。
(1)基于决策树的故障诊断方法
决策树是一种基本的分类与回归方法,一般的,一颗决策树包含根节点
(一个)、内部节点(N个)和叶节点(M个),叶节点对应于事件的决策结果
(M个),内部节点对应于一个属性测试(N个);根节点包含的样本全集根据属性
测试的结果被划分到节点中,从根节点至每个叶结点的路径对应了一个判定测试序
列,图5-3为决策树结构。
• 128 •

