Page 110 - 软件工程与项目管理

P. 110

软件工程与项目管理
Software Engineering & Project Management

第三节大数据原理及实践

一、大数据与计算模型

如今，大数据在降温，而大模型还在持续升温，AI for Science 的惊艳成果正
吸引着人们的眼球。如今，科技界对 AI 的认识和如何选择 AI 的技术发展路线还
存在不少争议，以下是争议较多的几个问题：以数据为中心，还是以模型为中心；
大语言模型（large language model，LLM）能否成为通用智能模型；以模拟人类

智能为目标，还是发展可能与人类不同的机器智能；连接主义 AI 与符号主义 AI
的结合是否必要和可行；机器有没有理解能力；神经元计算模型是否不同于图灵
计算模型。人工智能还处在“伽利略时代”，或者说“牛顿时代的前夜”，面临
着诸多未知和挑战。我们要看到现有技术路径的局限性，不能只追求增量式改进；

要提倡百家争鸣，过早地锁定技术路线会阻碍人工智能的发展。
（一）数据的基础作用和发展趋势
1. 数据是人类认识复杂世界的基本途径
大量的科学和工程实践表明：只要找到足够多具有代表性的样本（数据），

就可以运用数据找到一个模型或者一组模型的组合，使得它和真实情况非常接近。
在更高质量数据集上训练的模型，可能只需要较少的训练或较少的模型参数。近
几年，人工智能的重大突破已经凸显出数据的巨大作用。近年来，人工智能取得
重大突破，得益于大数据、大模型和大算力，三者缺一不可。大数据和大算力是

大模型发挥作用的前提条件。20 世纪，算力和数据都是短板，无法释放大模型
的潜力。如今，GPU 弥补了算力短板，互联网提供了海量数据，如此才凸显出大
模型的威力。目前，最受关注的是算力。NVIDIA 公司的市值超过万亿美元，这
显示出投资界对算力的高度重视。但从实际应用来看，数据可能要排在第一位。

现阶段人工智能的主流是数据智能，从某种意义上讲，没有数据就没有智能，没
有数据就没有解释。单纯提高算力不是万能药，野蛮地提高算力对于扩大复杂问
题的求解规模没有实际意义。例如，若围棋棋盘扩大到 20×20（只增加一行一列），
野蛮搜索的算力需要提高 1018 倍。

牛顿力学、相对论、量子力学的成功，使很多科学家相信靠人类的抽象思
维能力就可以了解宇宙中任何事物的奥秘，几个简单的公式就可以解释万事万物。

100
100

105 106 107 108 109 110 111 112 113 114 115