Page 202 - 电子工程中智能化技术运用
P. 202
Application of Intelligent Technology in Electronic Engineering
电子工程中智能化技术运用
域应用比较广泛,构成“语言模型 + 声学模型”的语音识别架构。
2014 年以来,随着生成式任务(图像生成和文本生成等)的发展,生成对
抗网络(Generative Adversarial Network,GAN)逐渐受到研究人员的青睐,它
由生成器(Generator)和判别器(Discriminator)构成,两者基于对抗式学习来
互相提升能力。训练完成后的 GAN 网络,一般使用其生成器来完成生成式任
务,比如生成一张自然图像,或者按要求写作一段文字。自从 2017 年谷歌公司
的研究人员提出 Transformer 结构以来,基于 Transformer 的神经网络已经成为大
语言模型的核心架构。Transformer 模型由多个 Trans ? formerBlock 堆叠而成,
每个 Block 中的核心结构为注意力(Attention)层和前馈神经网络(Feed-forward
Network)层。
2. 大语言模型
以 BERT 和 GPT 模型的出现作为大语言模型诞生的标志,目前大语言模型
架构发展出 3 种主流的构架:仅编码器(Encoder-only)、仅解码器(Decoder-
only)和编码器 - 解码器(Encoder-decoder)架构,主流的大语言模型的数量目
前已多达数百个。其中,最著名的大语言模型是 OpenAI 公司的 GPT 系列模型,
其基础版本包括 GPT-1、GPT-2、GPT-3,以及进阶版 GPT-3.5 和 InstructGPT 等,
ChatGPT 和 GPT-4 模型即是以 GPT-3.5 为基础进行开发。
(二)大语言模型研究进展
1. 大语言模型结构
2023 年以来,OpenAI 相继发布 ChatGPT 升级版模型 GPT-4、GPT-4V 和
GPT-4turbo 等,聚焦增强多模态能力和长文本输入能力。谷歌公司先后发布
Bard、PaLM 2 和 Gemini 系列模型,其中 Gemini 系列在多模态、推理和代码等
方面的能力表现出众,Gemini 1.5 Pro 可支持超过 100 万长度的上下文输入,是
一种混合专家模型(Mixture of Experts,MoE),也是谷歌目前发布的能力最强
的大语言模型。总体来看,2023 年以来新推出的大语言模型主要围绕增强多模
态能力、推理及拓展上下文窗口等方面进行优化。
开源大模型快速发展。2023 年 3 月 Meta 公司开源 LLaMA 模型以来,以
LLaMA 为基础的开源生态圈已非常庞大,吸引了斯坦福、普林斯顿、清华、复旦
等国内外研究机构的广泛参与,涌现出 Alpaca、Chinese-LLaMA-Alpaca、LLaMA-
Factory 等一?批优秀的开源项目。同年 7 月,Meta 更是发布了免费可商用版本
190

