Page 139 - 大数据背景下网络安全问题研究
P. 139
» 第五章 机器学习在网络信息安全中的应用
步,当前工业过程可以获得大量的状态数据,而机器学习正好能通过算法模型对这些
数据进行处理,从而实时检测整个过程中设备或系统的故障状态,并能够基于数据对
设备或系统进行故障诊断。故障检测是故障诊断的前提,前者用来确定系统是否发生
了故障以及发生故障的时间,而后者是在检测出故障之后,确定故障的类型或者位
置。机器学习在故障检测领域的应用主要包括主元分析(PCA)、随机森林等。
(1)主元分析法(PCA)
在实际故障检测中,通常会选择能够反映研究对象的变量来进行观测,而在系统
结构日益复杂变量信息过多时,会增加研究对象的复杂性。
PCA是将获得的待测对象到的高维历史数据组成一个矩阵,进行一系列矩阵运算
后确定若干正交向量(向量个数远小于维数),历史数据在这些正交向量上的投影
反映数据变化最大的几个方向,舍去数据变化较小的方向,由此可将高维数据降维表
示。主元分析用于故障检测的主要思想是把在正常过程中获得的数据,最大限度地保
持原有信息不受损失,将这些数据高度相关的过程变量投影到低维空间中,获得能够
表述系统内部关系的几个主要成分,即主元模型。即把多个不同的相关量换成少量几
个独立的变量,并对这几个独立变量进行统计检验分析,进而判断系统是否偏离正常
工况。用这些数据来判定实际研究对象中T2统计量、残差空间的SPE统计量等是否超
过已设定的过程监控指标,从而判断系统是否发生故障。
PCA已经成功应用于化工过程、半导体过程、机械过程、废水处理、核工业过
程、空气检测处理等;有学者提出了基于PCA模型的故障检测方法,根据平方预测误
差和其阈值大小的比较,利用该方法已成功建立了空调系统故障检测模型,用来判断
系统是否发生故障;基于PCA的故障检测方法通过分析检测数据和主元模型之间的差
异来判断系统是否出现故障。
PCA对数据降维处理有着绝佳的优势,但是仍存在两个问题:一是线性分解方法
压缩和提取不充分;二是线性方法的结果不可靠,在较小的主元中可能含有重要的非
线性信息,导致重要信息的丢失,因此可以结合其他方法进行优化。
(2)随机森林方法
美国科学院院士Breiman等人在2001年提出随机森林算法,这种算法将集成了分
类与回归决策树(CART)。随机森林是Bagging的一个扩展变体,而Bagging是并行
式集成学习方法最著名的代表,给定包含M个样本的数据集,随机抽取一个样本放入
采样集中,再将其放入初始数据集,使得下次采样仍能被选中,经M次取样后得到M
个采样集,初始训练集中有的在采样集中多次出现,有的从未出现,采样出T个含M
个训练样本的采样集,基于每个采样集训练一个基学习器,再结合这些基学习器,使
用简单投票法对分类任务进行预测输出,使用简单平均法对回归任务进行预测输出。
• 127 •

