Page 50 - 基于深度学习的人工智能技术研究

P. 50

Research on Artificial Intelligence Technology Based on Deep Learning
基于深度学习的人工智能技术研究

的输入，得到另一些“词”的输出。因为在 NLP 领域取得的成功，以及在 CV

领域的许多任务中取得了不亚于甚至超过 CNN 框架的准确率，Transformer 目前
大有取代 CNN 成为新的行业标杆的趋势，正吸引着越来越多的研究者进行探索。
（二）技术领域应用

1. 视频分析领域
随着 5G 时代的来临，人们获取信息的主要方式已经从文字和图像过渡到视
频和语音，其携带的信息量成倍地提升，为了能够更好地存储，管理以及使用这
些海量视频，视频分析成为一个必备的手段。视频分析主要是通过计算机视觉的

技术手段，将视频当中的内容进行分析，转换成一些结构化，半结构化的信息。
这些信息会更有利于使用数据库进行存储，同时帮助计算机像人类一样去理解一
个视频。
一般常见的视频分析流程如下，首先，对一个视频进行解封装和解码，得

到逐帧的图像。之后对得到的帧进行下采样，这样做的原因，一方面是视频当
中图像的变化，一般不足以快到只持续几帧，目前通过网络传输的视频的帧率在
20fps 到 30fps，适当地采样不会影响算法精度；另一方面，通过下采样，也能提
升系统的处理吞吐速度，节省成本。之后视觉算法会对帧图像进行诸如分类，检

测，识别，分割等任务的执行，这里主要看实际应用的需求场景以及所预计的计
算成本，收益如何。
经过视频分析得到的结果主要分成两部分：整个视频级维度的部分和片段
（clip）维度的部分。视频级维度一般是一整个视频给出一个或者几个概括性的

分类的结果，称之为标签，如“体育—足球”“影视剧—故事剧”。标签的存在，
帮助分析者对视频有整体的把握，实际应用场景下可以通过视频标签做后续的视
频归档，视频推荐甚至简单的检索。片段维度的视频分析结果则复杂一些，每个
片段结果由起止时间戳和分析结果构成，最常见的如人脸的标签，一般需要分析

出一个人脸何时出现在视频的什么位置，这个人是谁，置信度有多少，如果无法
在底库中命中已知的人脸，也可以在整个视频中标记出来为陌生脸 X，以便进行
后续的更新。再比如现在流行的直播带货视频，需要分析出每个商品出现的时间
段，以及展示的是什么样的商品。有了这样的信息，便于研究者更精准地了解视

频的内容，也可以很方便地进行视频片段的划分和精准投放，必要时也可以进行
敏感人物，敏感场景的过滤删减。这对于当前的各个视频内容生产平台而言，是

45 46 47 48 49 50 51 52 53 54 55