Page 112 - 软件工程与项目管理
P. 112
软件工程与项目管理
Software Engineering & Project Management
题还没有结论。有学者在研究少样本学习理论,降低模型成本还有很大的研究空
间。大语言模型可能不是实现通用人工智能的最佳道路,只是人工智能发展过程
中的一个阶段性成果,但它比前两波人工智能采用的技术具有更大的使用价值。
大语言模型也不是万能的,尽管其泛化能力超出人们的预期,但本质上还是封闭
范围的 AI,学到的是互联网上的书本知识,还没有学到与人类实践活动有关的
大量隐性知识。目前,关于神经元计算模型的计算复杂性的研究成果还不多,
这个课题值得深入研究。在人工智能界独占鳌头的技术一般红火十年左右,如
Transformer 已经流行 6 年多了,可能几年后会被新的模型和算法取代。
3. 合成数据将是未来数据的主要来源
数据并不是取之不尽的资源,数据消费的速度远远高于数据自然产生的速
度。有预测认为,到 2026 年文本数据将被训练完,图像数据将在 2040 年左右用完。
自然语言处理将实现从对已有数据的消费(自然语言理解)到全新数据的生产(自
然语言生成)的跃迁,这将是一次巨大变革。合成数据将是未来数据的主要来源。
以自动驾驶为例,自动驾驶汽车在道路上可能遇到的每个场景,是无法通过收集
真实世界的驾驶数据来覆盖的。Waymo 公司(Google 母公司旗下研发自动驾驶汽
车的子公司)从现实世界收集的驾驶数据仅为 300 万英里(约 483km)的数据,
而到 2019 年,自动生成的模拟驾驶数据已达到 100 亿英里(约 161 亿 km)的数
据。合成数据不是完全随机产生的,首先要收集真实的数据子集,分析和识别其
中的规律和趋势,然后使用这些数据来生成新的数据,这些新数据有可能弥补没
有收集到的数据。合成数据不可避免地依赖一部分真实数据用于自身的创建。因
此,合成数据永远不会完全取代它所依赖的初始数据。合成数据可以用来验证或
扩展已知规律,加速科研的进程,但不大可能直接揭示在原始数据集中不存在的
全新规律。
算力网现在很红火,但算力网传送的是数据、模型和任务,算力本身是不
能被传送的。在互联网服务中,音视频数据是用户消费的产品,按流量计费,传
送越多,公司收入越多。而在算力网中,数据传送是计算成本的一部分,应尽可
能减少数据传送。算力网首先要考虑数据在地理分布上的合理性,让同行业的数
据相对集中并靠近计算资源。如果大部分数据是合成数据,有算力的地方可以在
当地产生需要的大部分数据,从而大大减轻数据传送的压力。到那时,算力网的
主要作用转变为广域分布式计算的任务分配和模型的传送。此外,构建算力网应
102
102

