Page 201 - 电子工程中智能化技术运用

P. 201

第五章电子工程技术与应用

第一节大语言模型的应用展望

一、ChatGPT 以来大语言模型研究进展

自从 2022 年 11 月 OpenAI 公司发布人工智能对话模型 ChatGPT 以来，大语
言模型（Large Language Model，LLM）相关研究吸引了大量研究机构和学者的
关注和参与，成为近一年多来人工智能领域最前沿的技术方向。业界普遍认为，

以 ChatGPT 为代表的大语言模型技术是人工智能 2.0 时代到来的标志性事件。在
新的发展阶段，大语言模型将作为人工智能领域的技术基石，统一各子领域和子
任务的微调和应用流程，引领人工智能技术的发展范式变革。ChatGPT 诞生一年
多来，大语言模型相关理论与技术进一步发展，在模型结构、训练与微调、模型
应用等方面出现许多新技术和新趋势。同时，由于大语言模型所表现出的涌现能

力，也出现了一些其他有趣的研究，比如，将大语言模型作为心理学个体进行测
试，以及大模型辅助指挥控制等新兴应用。
（一）大语言模型相关概念
1.Transformer

新一代人工智能浪潮早期（2010—2016 年），卷积神经网络（Convolutional
Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN）分
别是图像识别和自然语言处理领域应用最广泛的深度神经网络模型，主要用于自
动特征提取，提升图像和文本向量中的语义信息。这一时期，应用于机器翻译、

自动摘要和信息抽取等自然语言处理任务的模型一般是以 RNN 作为基础模型，
通过结构改进和训练方法变换以适配目标任务建模，典型的比如用于完成序列到
序列（Seq2Seq）任务的 Encoder-Decoder 模型。每种任务相应地训练一个神经网

络模型，这种模型具有任务针对性，只能完成单一任务而无法用于其他任务。这
一时期，语言模型仅作为辅助工具，一般用于计算文本序列属于一个自然语句的
概率。代表性语言模型如 n-gmm 语言模型和 RNN 语言模型，它们在语言识别领

189

196 197 198 199 200 201 202 203 204 205 206