推理模型,被誉为大型语言模型 (LLMs) 演进的下一个重大飞跃,已展现出显著的进步,尤其是在需要复杂问题解决的领域,如数学和计算机编程。这些复杂的系统,以额外的“推理训练”阶段为特色,利用强化学习来微调其解决复杂挑战的能力。 OpenAI 的 o3 是一个开创性的例子,根据基准评估,与它的前身 o1 相比,性能有了显著的提高。现在笼罩在该领域的核心问题是这种进步的可持续性。这些模型能否仅仅通过增加计算能力来继续以相同的速度前进?
Epoch AI,一个专注于人工智能社会影响的研究组织,承担了揭开这个问题的任务。 Epoch AI 的数据分析师 Josh You 进行了全面的分析,以确定推理训练中当前的计算投资水平,并评估剩余的扩展潜力。
推理模型背后的计算浪潮
OpenAI 公开表示,与 o1 相比,o3 的训练使用了十倍的计算资源用于推理——这是在短短四个月内实现的巨大增长。 OpenAI 制作的图表生动地说明了计算能力与 AIME 数学基准测试性能之间的密切相关性。 Epoch AI 假设这些数字专门指训练的第二阶段,即推理训练,而不是完整的模型训练过程。
为了更好地理解这些数字,Epoch AI 检查了类似的模型。例如,据报道,DeepSeek-R1 使用约 6e23 FLOP(每秒浮点运算次数)进行训练,估计成本为 100 万美元,其基准测试结果与 o1 相似。
科技巨头 Nvidia 和微软也为推理模型的发展做出了贡献,提供了公开可用的训练数据。 Nvidia 的 Llama-Nemotron Ultra 253B 在其推理训练阶段使用了大约 140,000 个 H100 GPU 小时,相当于大约 1e23 FLOP。微软的 Phi-4-reasoning 使用的计算能力甚至更少,低于 1e20 FLOP。区分这些模型的关键因素是它们严重依赖其他 AI 系统生成的合成训练数据。 Epoch AI 强调,由于真实数据和合成数据之间的内在差异及其对模型学习和泛化的影响,这种依赖使得与 o3 等模型进行直接比较更加困难。
定义“推理训练”:一个模糊的领域
另一个复杂之处在于缺乏对“推理训练”的普遍接受的定义。除了强化学习,一些模型还结合了有监督微调等技术。围绕计算估计中包含的组件的模糊性引入了不一致性,使得准确比较不同模型之间的资源变得具有挑战性。
截至目前,推理模型消耗的计算能力仍然远低于最大规模的 AI 训练运行,例如超过 1e26 FLOP 的 Grok 3。当代推理训练阶段通常在 1e23 到 1e24 FLOP 之间运行,留下了相当大的扩展潜力——至少乍一看是这样。
Anthropic 的 CEO Dario Amodei 持有类似的观点。他认为,在推理训练中投资 100 万美元可以产生显着进展。然而,各公司正在积极探索将这一二级训练阶段的预算增加到数亿美元甚至更多的方法,这表明未来的训练经济将发生巨大变化。
如果目前大约每三到五个月计算能力增加十倍的趋势继续下去,推理训练计算能力最早可能在明年赶上领先模型的总训练计算能力。然而,Josh You 预计增长最终将减速至每年约 4 倍的增长,与更广泛的行业趋势保持一致。这种减速可能会受到多种因素的驱动,包括训练投资的回报递减,计算资源成本的增加以及可用训练数据的限制。
超越算力:地平线上的瓶颈
Epoch AI 强调,计算能力并非唯一的限制因素。推理训练需要大量高质量、具有挑战性的任务。获取此类数据很困难;以合成方式生成它就更难了。合成数据的问题不仅仅是真实性;许多人认为质量很差。此外,这种方法在数学和计算机编程等高度结构化领域之外的有效性仍然不确定。尽管如此,ChatGPT 中的“Deep Research”等项目(使用自定义调整的 o3 版本)表明了更广泛适用性的潜力。
劳动密集型的幕后任务,例如选择合适的任务、设计奖励函数和开发训练策略,也构成了挑战。这些开发成本通常不包括在计算估计中,但对推理训练的总体费用贡献很大。
尽管存在这些挑战,OpenAI 和其他开发人员仍然保持乐观。正如 Epoch AI 指出的那样,推理训练的扩展曲线目前类似于在预训练中观察到的经典对数线性进展。此外,o3 不仅在数学方面,而且在基于代理的软件任务中也表现出显着的提升,这表明了这种新方法的多功能潜力。
这一进展的未来取决于推理训练的可扩展性——在技术上、经济上以及内容方面。以下几点探讨了将决定这些模型未来的几个关键因素:
- 技术可扩展性: 指在不遇到难以克服的技术障碍的情况下,增加训练中使用的计算资源的能力。这包括硬件、软件和算法的进步,以有效地利用更大的数据集和更强大的计算基础设施。随着模型的大小和复杂性不断增长,技术可扩展性对于持续进步变得越来越重要。底层架构需要不断发展,以跟上模型庞大规模的步伐。
- 经济可扩展性: 需要在合理的预算范围内增加计算资源的可行性。如果训练成本随着模型大小线性或指数级增长,那么追求进一步的收益可能会变得过于昂贵。因此,可能需要更便宜、更高效的训练。降低每个 FLOP 成本的硬件创新和优化技术对于经济可扩展性至关重要。趋势是关注更大的模型,但在有限的预算下,激励措施将转向训练最高效的模型。
- 内容可扩展性: 强调高质量训练数据的可用性,这些数据可以有效地推动推理能力的提升。随着模型变得越来越复杂,需要更困难和多样化的数据集来挑战它们并防止过度拟合。此类数据集的可用性有限,尤其是在需要复杂推理的领域。合成数据生成技术可以帮助缓解这种瓶颈,但必须仔细设计以避免可能降低模型性能的偏差或不准确性。
计算的未来
作为外行人,我们很容易认为我们正走在无限计算的道路上。然而,在现实中,它是有限的,并且在未来,这种限制可能会变得更加明显。在本节中,我们将探讨计算在未来可能演变的几种方式,以及这些变化将如何影响 LLM 行业。
量子计算
量子计算代表了计算领域的一次范式转变,它利用量子力学的原理来解决传统计算机难以处理的问题。虽然仍处于起步阶段,但量子计算在加速 AI 工作负载(包括推理模型训练)方面具有巨大的潜力。量子算法(如量子退火和变分量子本征求解器 (VQE))可能比经典优化方法更有效地优化模型参数,从而减少训练所需的计算资源。例如,量子机器学习算法可以增强复杂神经网络的优化,从而缩短训练时间并可能提高模型性能。
然而,在扩展量子计算机和开发强大的量子算法方面仍然存在重大挑战。这项技术在很大程度上仍处于实验阶段,具有足够量子比特(量子位)和相干时间的实用量子计算机尚未准备就绪。此外,开发针对特定 AI 任务量身定制的量子算法需要专门的专业知识,并且是一个正在进行的研究领域。在 AI 中广泛采用量子计算还需要几年时间,并且只有在计算机可用后才可能实用。
神经形态计算
神经形态计算模仿人脑的结构和功能来执行计算。与依赖二进制逻辑和顺序处理的传统计算机不同,神经形态芯片利用人工神经元和突触以并行且节能的方式处理信息。这种架构非常适合于涉及模式识别、学习和适应的 AI 任务,例如推理模型训练。神经形态芯片可以潜在地减少与训练大型 AI 模型相关的能耗和延迟,从而使其在经济上更可行且在环境上更可持续。
英特尔的 Loihi 和 IBM 的 TrueNorth 是神经形态芯片的示例,它们在 AI 应用中展示了有希望的结果。与传统的 CPU 和 GPU 相比,这些芯片能够以显着更低的功耗执行复杂的 AI 任务。然而,神经形态计算仍然是一个相对较新的领域,在开发强大的编程工具和优化神经形态架构算法方面仍然存在挑战。此外,神经形态硬件的可用性有限以及神经形态计算领域缺乏广泛的专业知识阻碍了这项技术在主流 AI 应用中的采用。
模拟计算
模拟计算利用连续的物理量(例如电压或电流)来表示和处理信息,而不是离散的数字信号。模拟计算机可以比数字计算机更快、更高效地执行某些数学运算,例如微分方程和线性代数,尤其是在可能对推理有用的任务中。模拟计算可用于训练模型或在需要时运行推理。
然而,模拟计算在精度、可扩展性和可编程性方面面临挑战。模拟电路容易受到噪声和漂移的影响,这会降低计算的准确性。扩大模拟计算机的规模以处理大型且复杂的 AI 模型也是一个技术挑战。此外,模拟计算机的编程通常需要专门的专业知识,并且比数字计算机的编程更困难。尽管存在这些挑战,但人们对模拟计算作为数字计算的一种潜在替代方案越来越感兴趣,尤其是在那些需要高速和高能效的特定 AI 应用中。
分布式计算
分布式计算涉及将 AI 工作负载分布在连接到网络的多个机器或设备上。这种方法允许组织利用大量资源的集体计算能力来加速 AI 训练和推理。分布式计算对于训练大型语言模型 (LLM) 和其他需要大量数据集和计算资源的复杂 AI 模型至关重要。
TensorFlow、PyTorch 和 Apache Spark 等框架提供了工具和 API,用于将 AI 工作负载分布在机器集群中。这些框架允许组织通过根据需要添加更多计算资源来扩展其 AI 功能。然而,分布式计算引入了数据管理、通信开销和同步方面的挑战。在多个机器上高效地分发数据并最大限度地减少通信延迟对于最大化分布式 AI 系统的性能至关重要。此外,确保正确地同步和协调不同的机器或设备对于获得准确和可靠的结果至关重要。
结论
推理模型的轨迹无疑与计算资源的可用性和可扩展性息息相关。虽然目前由计算能力提升所驱动的进展速度令人印象深刻,但包括高质量训练数据的稀缺、计算成本的增加以及替代计算范式的出现等多种因素表明,不受约束的计算扩展时代可能正在接近极限。推理模型的未来可能取决于我们克服这些限制并探索增强 AI 能力的新方法的能力。有了所有这些信息,我们可以假设推理模型能力的提升可能很快就会因为讨论的众多约束之一而开始放缓。