Page 95 - 软件工程与项目管理

P. 95

第三章计算机视觉与大数据

3. 计算机视觉技术的主要研究内容
CVT 的主要研究内容和科技创新方向包括图像识别、图像目标检测、图像
语义分割和目标跟踪。深度学习和神经网络是促进 CVT 迅速发展的算法，与各
个研究方向都存在密切联系，可以协助系统从单个或系列复杂的图像中迅速提取、
分析和理解有效信息数据。

第一，计算机视觉技术最基础的功能就是图像识别，即通过计算机算法，
识别图像中呈现出物体的类别。该领域最突出的算法为神经网络算法，其运行机
制是通过 PCA 技术将待分类图像和样本图像的特征码提取并输入神经网络，神

经网络学习了不同类别的图像特征码，当未知图像特征码进入神经网络时，其能
够自动识别出图像的类型，并对其进行标记。目前，基于神经网络的图像识别技
术已经取得了一定的成就，在交通领域也得到了应用。
第二，图像目标检测围绕图像特定目标展开，需要计算机算法利用矩形框
出图像中的每个物体，并对其进行分类。与图像识别相比，图像目标检测增加了

检测目标定位功能，具有更高的难度。深度学习受到关注后，区域卷积神经网络
（Region-based CNN，简称 R-CNN）成了计算机视觉领域新的关注热点，首次
被用于图像目标检测，且与传统的可变形部件模型（Deformable Parts Model，简

称 DPM）和方向梯度直方图（Histogram of Oriented Gradient，简称 HOG）算法相比，
其检测准确率得到大幅提升。随着深度学习研究的不断深入，快速区域卷积神经
网络（Faster R-CNN）算法成为一种极为典型的算法，迅速发展为图像目标检测
方面性能最佳的算法之一。
第三，图像语义分割被认为是计算机视觉技术的核心之一，其主要作用是将

图像分成独立像素组，然后分别标记、分类。图像语义分割技术尝试在语义层面
分析和理解独立像素的类型，如道路、汽车、建筑、行人等类别。与图像识别不
同，系统设计人员必须设计合理的模型合理预测密集像素。随着神经网络的发展，

图像语义分割取得了较大的突破，当前的图像语义分割依赖于 R － CNN，即使
不存在任何全连接层也能对密集像素进行精准预测，典型算法包括 Refine Net、
Dilated Convolutions 和 Deep Lap。
第四，目标跟踪，顾名思义，就是在某个场景对一个或多个目标物体进行
跟踪，其传统应用就是真实环境和视频的交互，当前被广泛应用于视频监控、无

人驾驶等领域。根据建模方式的差异性，可以将视频目标跟踪分成判别类模型和

85
85

90 91 92 93 94 95 96 97 98 99 100