Page 219 - 计算机技术与网络安全研究

P. 219

第九章人工智能技术

好的模型进行调参，最终生成人脸检测模型。自 2015 年之后，图像处理使用深
度学习进行分类的方法得到了广泛应用。神经网络通过神经元构建成网络，通过
激活函数使模型具有非线性拟合能力。只需要给模型设计好输入和输出，模型就
能自动学习特征提取和训练分类器的过程。深度学习的使用让图像分类过程中最
为费时费力的过程得以简化，提升了图像分类的效果和效率。VGG，ResNet（残

差神经网络），inception 这几种结构是工程中最常用的。工程上使用的模型必须
兼顾效率和效果，即在保证精度的同时也要保证速度。所以，在训练好模型之后
会对模型进行微调和缩减。FRCNN，Mask－RCNN，YOLO是现在常用的网络模型，

这几个模型拥有的共同点就是精度高、速度快。例如应用在人脸识别领域，这几
个模型都可以实时检测并得出结果。
2. 目标跟踪
目标跟踪主要有 3 类算法，相关滤波算法、检测与跟踪相结合的算法和基
于深度学习的算法。相关滤波（Correlation Filter，CF）是当前研究的一个重点，

最初它应用在信号领域，之后引入目标跟踪领域。它引入了快速傅里叶变换从而
使得算法效率得到有效提升。MOSSE 是目标检测算法中应用最早的算法。在研
究过程中在实时性应用方面做出突破的算法是 CSK。在 CSK 的基础上进行改进，

产生了 KCF 算法。之后还提出了 CN，DSST，SRDCF 等算法。检测与跟踪相结
合的算法，简单来说就是目标跟踪的判别式算法。算法的实现理念是先找出目标
的位置，然后再对目标进行跟踪。深度学习的推广也影响到目标跟踪研究。基于
深度学习的算法有分类和回归两类。R-CNN，Fast R-CNN，Faster R-CNN 是基
于分类的算法。3 种算法最大的不同在于检测窗口的选择，R-CNN 采用滑动窗口，

FastR-CNN 采用 Selective Search，FasterR-CNN 采用 RPN。
3. 语义分割
计算机视觉就是将图片分割成像素，然后对像素进行处理。语义分割的意

义是理解分割后像素的含义，例如图片中识别人、摩托、汽车及路灯等，它需
要对密集的像素进行判别。卷积神经网络推动了语义分割算法的发展。语义分
割中最基础的方法是通过滑动的窗口进行分类预测。2014 年，全卷积神经网络
（Fully Convolutional Networks，FCN）的出现替代了网络全连接层。基于 FCN 研
究出 Encoder － Decoder 架构。Encoder 是降低空间维度的操作，Decoder 是恢复

空间维度和细节信息的操作。之后空洞卷积（Dialated/Atrous）取代了 Pooling 操作。

21
211 1

214 215 216 217 218 219 220 221 222 223 224