Page 202 - 电子工程中智能化技术运用
P. 202

Application of Intelligent Technology in Electronic Engineering
                  电子工程中智能化技术运用


             域应用比较广泛,构成“语言模型 + 声学模型”的语音识别架构。
                  2014 年以来,随着生成式任务(图像生成和文本生成等)的发展,生成对
             抗网络(Generative Adversarial Network,GAN)逐渐受到研究人员的青睐,它

             由生成器(Generator)和判别器(Discriminator)构成,两者基于对抗式学习来
             互相提升能力。训练完成后的 GAN 网络,一般使用其生成器来完成生成式任
             务,比如生成一张自然图像,或者按要求写作一段文字。自从 2017 年谷歌公司
             的研究人员提出 Transformer 结构以来,基于 Transformer 的神经网络已经成为大

             语言模型的核心架构。Transformer 模型由多个 Trans ? formerBlock 堆叠而成,
             每个 Block 中的核心结构为注意力(Attention)层和前馈神经网络(Feed-forward
             Network)层。

                  2. 大语言模型
                  以 BERT 和 GPT 模型的出现作为大语言模型诞生的标志,目前大语言模型
             架构发展出 3 种主流的构架:仅编码器(Encoder-only)、仅解码器(Decoder-
             only)和编码器 - 解码器(Encoder-decoder)架构,主流的大语言模型的数量目
             前已多达数百个。其中,最著名的大语言模型是 OpenAI 公司的 GPT 系列模型,

             其基础版本包括 GPT-1、GPT-2、GPT-3,以及进阶版 GPT-3.5 和 InstructGPT 等,
             ChatGPT 和 GPT-4 模型即是以 GPT-3.5 为基础进行开发。
                 (二)大语言模型研究进展

                  1. 大语言模型结构
                  2023 年以来,OpenAI 相继发布 ChatGPT 升级版模型 GPT-4、GPT-4V 和
             GPT-4turbo 等,聚焦增强多模态能力和长文本输入能力。谷歌公司先后发布
             Bard、PaLM 2 和 Gemini 系列模型,其中 Gemini 系列在多模态、推理和代码等
             方面的能力表现出众,Gemini 1.5 Pro 可支持超过 100 万长度的上下文输入,是

             一种混合专家模型(Mixture of Experts,MoE),也是谷歌目前发布的能力最强
             的大语言模型。总体来看,2023 年以来新推出的大语言模型主要围绕增强多模
             态能力、推理及拓展上下文窗口等方面进行优化。
                  开源大模型快速发展。2023 年 3 月 Meta 公司开源 LLaMA 模型以来,以

             LLaMA 为基础的开源生态圈已非常庞大,吸引了斯坦福、普林斯顿、清华、复旦
             等国内外研究机构的广泛参与,涌现出 Alpaca、Chinese-LLaMA-Alpaca、LLaMA-
             Factory 等一?批优秀的开源项目。同年 7 月,Meta 更是发布了免费可商用版本



             190
   197   198   199   200   201   202   203   204   205   206   207