Page 112 - 软件工程与项目管理

P. 112

软件工程与项目管理
Software Engineering & Project Management

题还没有结论。有学者在研究少样本学习理论，降低模型成本还有很大的研究空
间。大语言模型可能不是实现通用人工智能的最佳道路，只是人工智能发展过程
中的一个阶段性成果，但它比前两波人工智能采用的技术具有更大的使用价值。
大语言模型也不是万能的，尽管其泛化能力超出人们的预期，但本质上还是封闭
范围的 AI，学到的是互联网上的书本知识，还没有学到与人类实践活动有关的

大量隐性知识。目前，关于神经元计算模型的计算复杂性的研究成果还不多，
这个课题值得深入研究。在人工智能界独占鳌头的技术一般红火十年左右，如
Transformer 已经流行 6 年多了，可能几年后会被新的模型和算法取代。

3. 合成数据将是未来数据的主要来源
数据并不是取之不尽的资源，数据消费的速度远远高于数据自然产生的速
度。有预测认为，到 2026 年文本数据将被训练完，图像数据将在 2040 年左右用完。
自然语言处理将实现从对已有数据的消费（自然语言理解）到全新数据的生产（自
然语言生成）的跃迁，这将是一次巨大变革。合成数据将是未来数据的主要来源。

以自动驾驶为例，自动驾驶汽车在道路上可能遇到的每个场景，是无法通过收集
真实世界的驾驶数据来覆盖的。Waymo 公司（Google 母公司旗下研发自动驾驶汽
车的子公司）从现实世界收集的驾驶数据仅为 300 万英里（约 483km）的数据，

而到 2019 年，自动生成的模拟驾驶数据已达到 100 亿英里（约 161 亿 km）的数
据。合成数据不是完全随机产生的，首先要收集真实的数据子集，分析和识别其
中的规律和趋势，然后使用这些数据来生成新的数据，这些新数据有可能弥补没
有收集到的数据。合成数据不可避免地依赖一部分真实数据用于自身的创建。因
此，合成数据永远不会完全取代它所依赖的初始数据。合成数据可以用来验证或

扩展已知规律，加速科研的进程，但不大可能直接揭示在原始数据集中不存在的
全新规律。
算力网现在很红火，但算力网传送的是数据、模型和任务，算力本身是不

能被传送的。在互联网服务中，音视频数据是用户消费的产品，按流量计费，传
送越多，公司收入越多。而在算力网中，数据传送是计算成本的一部分，应尽可
能减少数据传送。算力网首先要考虑数据在地理分布上的合理性，让同行业的数
据相对集中并靠近计算资源。如果大部分数据是合成数据，有算力的地方可以在
当地产生需要的大部分数据，从而大大减轻数据传送的压力。到那时，算力网的

主要作用转变为广域分布式计算的任务分配和模型的传送。此外，构建算力网应

102
102

107 108 109 110 111 112 113 114 115 116 117