Page 201 - 电子工程中智能化技术运用
P. 201
第五章 电子工程技术与应用
第五章 电子工程技术与应用
第一节 大语言模型的应用展望
一、ChatGPT 以来大语言模型研究进展
自从 2022 年 11 月 OpenAI 公司发布人工智能对话模型 ChatGPT 以来,大语
言模型(Large Language Model,LLM)相关研究吸引了大量研究机构和学者的
关注和参与,成为近一年多来人工智能领域最前沿的技术方向。业界普遍认为,
以 ChatGPT 为代表的大语言模型技术是人工智能 2.0 时代到来的标志性事件。在
新的发展阶段,大语言模型将作为人工智能领域的技术基石,统一各子领域和子
任务的微调和应用流程,引领人工智能技术的发展范式变革。ChatGPT 诞生一年
多来,大语言模型相关理论与技术进一步发展,在模型结构、训练与微调、模型
应用等方面出现许多新技术和新趋势。同时,由于大语言模型所表现出的涌现能
力,也出现了一些其他有趣的研究,比如,将大语言模型作为心理学个体进行测
试,以及大模型辅助指挥控制等新兴应用。
(一)大语言模型相关概念
1.Transformer
新一代人工智能浪潮早期(2010—2016 年),卷积神经网络(Convolutional
Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)分
别是图像识别和自然语言处理领域应用最广泛的深度神经网络模型,主要用于自
动特征提取,提升图像和文本向量中的语义信息。这一时期,应用于机器翻译、
自动摘要和信息抽取等自然语言处理任务的模型一般是以 RNN 作为基础模型,
通过结构改进和训练方法变换以适配目标任务建模,典型的比如用于完成序列到
序列(Seq2Seq)任务的 Encoder-Decoder 模型。每种任务相应地训练一个神经网
络模型,这种模型具有任务针对性,只能完成单一任务而无法用于其他任务。这
一时期,语言模型仅作为辅助工具,一般用于计算文本序列属于一个自然语句的
概率。代表性语言模型如 n-gmm 语言模型和 RNN 语言模型,它们在语言识别领
189

