Page 49 - 基于深度学习的人工智能技术研究

P. 49

第二章人工智能核心技术

包围框（Bounding Box）的形式，把它框定出来，用于后续的识别。识别则是准
确地判断出这个物体是什么或者是什么意思，最典型的比如人脸的重识别（Re-
Identiﬁcation），行人的重识别等。最后是分割，其目的比检测更进一步，在像
素级别对图像本身进行区分，划分出像素来自不同的物体，以分割为基础，后续

做 AR/VR 互动的时候，可以让真实世界准确地与虚拟世界进行交互，模拟现实
世界的物理特性。
在深度神经网络被大范围应用之前，计算机视觉面临的最重要的门槛就是
特征工程。顾名思义，需要找到合适的特征来对你的研究对象进行表征（比如

经典的 Scale-invariant feature transform，SIFT 和 Histogram of Oriented Gradient，
HOG），好的特征需要对研究对象有足够的了解才能够获得，比如早期的人脸
识别，相关研究者通过提取出人脸上一些关键的部位和比例构成一个特征向量，
并以此来训练一组或者多组分类器，最终可以得到一个比较理想的人脸识别。但

是在寻找合适的特征，组合合适的分类器过程当中需要大量的试错，也需要实验
的人有很丰富的经验，因此这种做法很难推广到其他各个领域，每个领域都需要
很多专业知识来对特征进行选取，无疑需要很高的人力成本和时间成本。
深度卷积神经网络（Convolutional Neural Networks，CNN）的引入为研究者

们打开了新的大门，虽然 CNN 的概念早在 20 世纪 80 年代就有被提及，但是浅
层的 CNN 的效果并不如前面提到的特征工程 + 分类器的方式。直到数据和算力
的具备才使得深层的 CNN 成为可能。现今，业界的主流骨干架构（Backbone）
以CNN为主，算法工程师们通过对经典骨干架构改造和调优，可以快速适配业务，

将模型迁移到自身的垂域上去。而开发工程师则尝试从整个模型的训练，测试，
推理等各个阶段进行加速，继续降本提效。
2021 年，谷歌将之前自然语言处理领域（Natural Language Processing，
NLP）比较火热的 Transformer（变形模型）引入到计算机视觉领域，其核心是注

意力模型。在该领域，研究者们致力于寻找词与词之间的联系，给定一组输入的
词汇，可以找到与其有强关联的词汇输出，使得机器可以更好地理解人类的语义。
而将这个技术引入到视觉领域之后，将一幅图像，切割为多个方块，每个方块有
其自有的位置信息保留，然后一并输入到 Transformer 的架构中进行训练。在这

个过程当中，把这样的一个个图块，看作了一个个单词输入，而其输出亦可以是
一个单词或者是一组单词，不管什么样的训练任务，最终都能抽象为一些“词”

44 45 46 47 48 49 50 51 52 53 54