Page 51 - 基于人工智能的图像识别技术研究
P. 51
第一章 人工智能概述
模极其庞大,如采用卷积神经网络基于ImageNet数据集训练模型,统计扫描100
遍样本即达到E级计算规模,即使提供充足的计算资源,仍需几天甚至几周的训
练时长。
3.深度学习算法对芯片技术创新提出新需求
深度学习算法区别于传统算法特征,既是计算密集型也是存储密集型运算,
对芯片的专用计算能力和内存存取能效等提出新的升级需求。一方面,具备复杂
的深度神经网络结构对卷积、矩阵乘加等线性代数类运算任务密集又频繁,因而
集成矩阵乘加等专用运算单元的计算芯片能显著加速深度学习处理效率;另一方
面,深度学习需要处理海量数据样本,强调芯片高并行计算能力,同时大量数据
搬运操作对内存存取带宽等要求更高,而内存存取尤其是片外内存访问消耗的功
耗要远大于计算功耗,因而高能效的内存访存架构设计对芯片应用尤其是端侧部
署至关重要。
(二)人工智能芯片技术路径百花齐放
1.人工智能芯片处于多技术路径竞相发展阶段
深度学习处理任务应用主要分为训练和推理两个阶段,实现高精度模型提取
的训练阶段需快速处理海量数据,现阶段集中在云端执行,对芯片计算能力、通
用性、扩展性有较高要求;实现模型最终应用部署的推理阶段既可以在云端执
行,也可在智能手机、智能摄像头、智能汽车等终端操作,多样化细分场景对人
工智能芯片性能、功耗、延时以及成本等标准需求各异。诸多差异化的应用阶段
和细分场景导致人工智能芯片处于多种技术方案竞争发展起步阶段。
2.不同类型人工智能芯片各有所长
现阶段,常见的人工智能芯片类型包括GPU、FPGA、ASIC等芯片。其中,
GPU芯片集成大量计算单元和高速内存,通用性较强且适合大规模并行计算任
务,能显著缩减数据的训练时长,但高能耗引发散热问题以及高售价限制,使
其多应用于数据中心或自动驾驶场景。FPGA硬件配置灵活,能快速适应算法迭
代更新,且能效优于GPU,但开发复杂度较高,开发者生态建设仍需增强。针
对特定算法定制的专用ASIC芯片量产后性能、功耗、成本相对于FPGA具备更强
优势,但人工智能算法仍处于快速演进阶段,定制化ASIC开发周期长、面临风
险高。目前,深度学习训练任务多集中在云端执行,以GPU和ASIC芯片居多;
推理芯片根据云端、终端场景区别,FPGA、ASIC和GPU芯片均有涉及。此外,
43

