Page 203 - 电子工程中智能化技术运用
P. 203
第五章 电子工程技术与应用
Llama-2 系列模型,包含 70 亿、130 亿和 700 亿 3 种参数变体。众多优秀的开源大
模型项目极大促进了该领域的发展,使得普通研究人员也能在有限的资源条件下
体验完整的模型训练流程。
国产大模型百花齐放。国内研究机构紧跟大语言模型的发展潮流,比较有代
表性的包括清华 - 智源 ChatGLM 系列模型、科大讯飞“星火大模型”、阿里“通
义千问”、百度“文心一言”、华为“盘古”系列模型等。据统计,国产大模型
目前已有近百种,聚焦提升中文能力以支撑中文用户环境。截至 2023 年底,百
度“文心一言”用户规模已超过 1 亿,应用场景包括办公、文案、绘图和代码等,
表明国产大语言模型逐步受到市场认可。
领域大模型大量涌现。领域大模型是指针对特定领域数据进行训练开发的
大语言模型,不仅具有通用大模型的基础知识,还具有特定领域的专业知识,
这些特定领域包括医疗、金融、政务和教育等。领域大模型典型如医疗领域
HuatuoGPT、MedGPT 和 XmyGLM 等。ZHANG Q 等综述了应用于科学人工智
能领域的大语言模型(Sci-LLMs),包括分子大模型、蛋白质大模型和基因组大
模型等。
2. 训练和微调方法
训练和微调大语言模型的流程包括预训练、指令精调和人类反馈强化学习,
其中除预训练外,指令精调和人类反馈强化学习均是针对大模型的理解、推理和
对齐能力进行优化。该领域内,训练和微调方法也发展迅速,出现了大量优化效
果更好且效率更高的训练和微调方法,本节分别针对参数高效微调、对齐优化和
推理优化 3 个方面展开介绍。
(1)参数高效微调
参数高效微调(Parameter-efficient Fine-tuning)算法是 2023 年以来大模型
比较受关注的研究方向,其出发点是尽可能少地微调模型参数,以降低对设备显
存的消耗,提升模型遵循用户指令的能力。据统计,目前已提出的参数高效微调
方法已多达几十余种,这些参数高效微调算法可以大致归为:第一,全参数微
调。在有限的计算资源下微调模型的全部参数,典型如 LOMO 和 AdaLOMO。
第二,部分参数微调。只微调模型的极少部分参数,冻结绝大部分参数,以尽
可能少地改变模型的现有知识,典型如 BitFit 和 DifFit。第三,新增参数微调。
给模型新增加一部分额外参数,在冻结模型主体参数的同时仅微调新增加的参
191

