Page 116 - 软件工程与项目管理
P. 116
软件工程与项目管理
Software Engineering & Project Management
类型的智力和理解的机制。理解、智能和意识有 3 个不同层次的内涵,有理解能
力未必有自我意识。所谓“对齐”和“微调”是人类认知和机器“认知”的接口。
即使机器有意识,源头还是人类,应当能找到人类影响机器的接口。因此,我们
对机器的认知不必过于恐慌。
4. 大模型的本质是“压缩”
20 世纪 90 年代,Hinton 就提出,深度学习的本质可能就是压缩。Open AI
首席科学家Ilya Sutskever 提出,压缩可能就是学习的本质!马毅团队提出“白盒”。
Transformer 也指出,智能的本质就是压缩。著名计算机科学家李明教授采用第一
性原理和 Kolmogorov 复杂性理论证明了“理解就是压缩,大模型就是压缩”。
大语言模型的本质是一个性能强大的近似无损的数据压缩器,即将输入文件的知
识“压缩”后,以权重矩阵的形式存储在神经网络模型中。ChatGPT 原始训练数
据集的大小是 900TB,训练完成后,模型参数文件大约是 64TB,整体的压缩比
约为 1 ∶ 14,而传统语言模型(如 Bert、RNN)的压缩比大约是 1 ∶ 10~1 ∶ 8。
组合搜索的关键是压缩搜索空间。AlphaGo 只搜索了一个很小比例的空间(约
1/10150),就能找到相当准确的满意解。中国科学院计算技术研究所(以下简
称中科院计算所)做的“启蒙 1 号”也是将几乎无穷大的搜索空间压缩到 106。
为什么搜索空间可以被大幅度地压缩?因为许多理论上的解空间对实际求解没有
意义,解分布也不是随机的。必须有效地识别和利用数据中的关键模式和结构,
在巨大搜索空间中快速找到最有价值的区域。
5. 大模型的“幻觉”
LLM 的主要功能是预测(猜),不是搜索正确答案。搜索是没有创造性
的,猜测可能有创造性,这种猜测可以看成人类智能的补充而不是替代。向
LLM 提问其实不是人类在测试计算机的智能,而是 LLM 在测试提问者对机器智
能的了解程度,因此,这可以看成一种反向的图灵测试。Open AI 科学家 Andrej
Karpathy 指出:从某种意义上说,大语言模型的全部工作恰恰就是制造“幻觉”,
大模型就是“造梦机”。提问者是否能够让“幻觉”和自己的现实一致,很大程
度取决于提问者对产生内容的检查能力。图灵停机问题的不可判定性说明复杂系
统具有不可预测性,不存在一个通用的程序能够预测所有复杂系统的运行结果。
也就是说,不确定性是复杂系统的本质特征,要想弄清楚某个复杂系统的运行结
果,唯一的办法就是让这个系统实际运行。长期的计算思维教育使我们习惯了用
106
106

