Page 203 - 电子工程中智能化技术运用
P. 203

第五章  电子工程技术与应用



               Llama-2 系列模型,包含 70 亿、130 亿和 700 亿 3 种参数变体。众多优秀的开源大
               模型项目极大促进了该领域的发展,使得普通研究人员也能在有限的资源条件下
               体验完整的模型训练流程。

                   国产大模型百花齐放。国内研究机构紧跟大语言模型的发展潮流,比较有代
               表性的包括清华 - 智源 ChatGLM 系列模型、科大讯飞“星火大模型”、阿里“通
               义千问”、百度“文心一言”、华为“盘古”系列模型等。据统计,国产大模型
               目前已有近百种,聚焦提升中文能力以支撑中文用户环境。截至 2023 年底,百

               度“文心一言”用户规模已超过 1 亿,应用场景包括办公、文案、绘图和代码等,
               表明国产大语言模型逐步受到市场认可。
                   领域大模型大量涌现。领域大模型是指针对特定领域数据进行训练开发的
               大语言模型,不仅具有通用大模型的基础知识,还具有特定领域的专业知识,

               这些特定领域包括医疗、金融、政务和教育等。领域大模型典型如医疗领域
               HuatuoGPT、MedGPT 和 XmyGLM 等。ZHANG Q 等综述了应用于科学人工智
               能领域的大语言模型(Sci-LLMs),包括分子大模型、蛋白质大模型和基因组大
               模型等。

                   2. 训练和微调方法
                   训练和微调大语言模型的流程包括预训练、指令精调和人类反馈强化学习,
               其中除预训练外,指令精调和人类反馈强化学习均是针对大模型的理解、推理和
               对齐能力进行优化。该领域内,训练和微调方法也发展迅速,出现了大量优化效

               果更好且效率更高的训练和微调方法,本节分别针对参数高效微调、对齐优化和
               推理优化 3 个方面展开介绍。
                   (1)参数高效微调
                   参数高效微调(Parameter-efficient Fine-tuning)算法是 2023 年以来大模型

               比较受关注的研究方向,其出发点是尽可能少地微调模型参数,以降低对设备显
               存的消耗,提升模型遵循用户指令的能力。据统计,目前已提出的参数高效微调
               方法已多达几十余种,这些参数高效微调算法可以大致归为:第一,全参数微
               调。在有限的计算资源下微调模型的全部参数,典型如 LOMO 和 AdaLOMO。

               第二,部分参数微调。只微调模型的极少部分参数,冻结绝大部分参数,以尽
               可能少地改变模型的现有知识,典型如 BitFit 和 DifFit。第三,新增参数微调。
               给模型新增加一部分额外参数,在冻结模型主体参数的同时仅微调新增加的参



                                                                                      191
   198   199   200   201   202   203   204   205   206   207   208