Page 202 - 电子工程中智能化技术运用

P. 202

Application of Intelligent Technology in Electronic Engineering
电子工程中智能化技术运用

域应用比较广泛，构成“语言模型 + 声学模型”的语音识别架构。
2014 年以来，随着生成式任务（图像生成和文本生成等）的发展，生成对
抗网络（Generative Adversarial Network，GAN）逐渐受到研究人员的青睐，它

由生成器（Generator）和判别器（Discriminator）构成，两者基于对抗式学习来
互相提升能力。训练完成后的 GAN 网络，一般使用其生成器来完成生成式任
务，比如生成一张自然图像，或者按要求写作一段文字。自从 2017 年谷歌公司
的研究人员提出 Transformer 结构以来，基于 Transformer 的神经网络已经成为大

语言模型的核心架构。Transformer 模型由多个 Trans ？ formerBlock 堆叠而成，
每个 Block 中的核心结构为注意力（Attention）层和前馈神经网络（Feed-forward
Network）层。

2. 大语言模型
以 BERT 和 GPT 模型的出现作为大语言模型诞生的标志，目前大语言模型
架构发展出 3 种主流的构架：仅编码器（Encoder-only）、仅解码器（Decoder-
only）和编码器 - 解码器（Encoder-decoder）架构，主流的大语言模型的数量目
前已多达数百个。其中，最著名的大语言模型是 OpenAI 公司的 GPT 系列模型，

其基础版本包括 GPT-1、GPT-2、GPT-3，以及进阶版 GPT-3.5 和 InstructGPT 等，
ChatGPT 和 GPT-4 模型即是以 GPT-3.5 为基础进行开发。
（二）大语言模型研究进展

1. 大语言模型结构
2023 年以来，OpenAI 相继发布 ChatGPT 升级版模型 GPT-4、GPT-4V 和
GPT-4turbo 等，聚焦增强多模态能力和长文本输入能力。谷歌公司先后发布
Bard、PaLM 2 和 Gemini 系列模型，其中 Gemini 系列在多模态、推理和代码等
方面的能力表现出众，Gemini 1.5 Pro 可支持超过 100 万长度的上下文输入，是

一种混合专家模型（Mixture of Experts，MoE），也是谷歌目前发布的能力最强
的大语言模型。总体来看，2023 年以来新推出的大语言模型主要围绕增强多模
态能力、推理及拓展上下文窗口等方面进行优化。
开源大模型快速发展。2023 年 3 月 Meta 公司开源 LLaMA 模型以来，以

LLaMA 为基础的开源生态圈已非常庞大，吸引了斯坦福、普林斯顿、清华、复旦
等国内外研究机构的广泛参与，涌现出 Alpaca、Chinese-LLaMA-Alpaca、LLaMA-
Factory 等一？批优秀的开源项目。同年 7 月，Meta 更是发布了免费可商用版本

190

197 198 199 200 201 202 203 204 205 206 207