OpenAI GPT-4.5训练揭秘：10万GPU与难题攻克 | zh-CN

GPT-4.5的诞生：为期两年的奥德赛

OpenAI最近罕见地分享了关于其迄今为止最具雄心的模型 GPT-4.5 的开发细节。这次披露是在该模型发布一个多月后进行的，OpenAI 的联合创始人兼 CEO Sam Altman 与 GPT-4.5 项目的三位关键技术人物进行了一次坦诚的 45 分钟对话。讨论揭示了许多以前不为人知的挑战，包括严重的时间表延误、计算集群中频繁发生的故障以及不可预测的性能增强途径。

GPT-4.5 计划在启动前两年构思，是 OpenAI 迄今为止最精心策划的行动。它需要数百人的共同努力，Altman 指出，该项目有效地吸引了 OpenAI “几乎所有人”。这种广泛的参与突显了 GPT-4.5 在该组织更广泛使命中的战略重要性。

在开发阶段，OpenAI 团队遇到了他们所谓的“灾难性问题”。部署一个拥有 100,000 个 GPU 的集群暴露了潜在的基础设施漏洞，这些漏洞表现为不频繁但影响深远的故障。为了在权宜之计和最佳性能之间取得平衡，系统工程师采用了一种迭代方法，基本上是“构建和修复”同时进行。一个特别难以捉摸的错误困扰着集群，导致频繁出现错误，直到训练过程完成大约 40% 时才被发现。

矛盾的是，这些试验有助于加强 OpenAI 的技术基础。获得的专业知识现在使一个只有 5-10 人的精干团队能够复制 GPT-4 规模的模型。从 GPT-4 到 GPT-4.5 的性能飞跃估计约为十倍，其特点是“难以量化但全面增强的智能”，甚至令 OpenAI 内部人士感到惊讶。这种质的飞跃表明，除了单纯的扩展之外，在模型推理和理解能力方面还有根本性的改进。

展望未来，OpenAI 认识到，在性能上实现下一个数量级的提升，不仅取决于计算能力，还取决于数据效率。重点正在转向开发可以从现有数据集中提取更多知识的算法，从而最大限度地提高可用计算资源的效用。

此外，该架构正在从单集群演变为多集群设计，设想未来涉及多达 1000 万个 GPU 协同学习的训练场景。这种转变需要显着提高容错能力，以确保此类大规模分布式系统的稳定性和可靠性。

对话还深入探讨了数据的“长尾”与缩放定律之间的关系、机器学习和系统团队之间密切协作的优势（协同设计）、无监督学习的本质以及一丝不苟的解决问题的文化。

GPT-4.5 背后的关键人物

除了 Altman 之外，参与本次对话的其他三位 OpenAI 团队成员是：

Alex Paino： 负责 GPT-4.5 的预训练机器学习算法。
Amin Tootoonchian： OpenAI 的首席系统架构师。
Daniel Selsam： 研究数据效率和算法。

GPT-4.5的起源与演变

Sam Altman： 构建像 GPT-4.5 这样大的模型真正需要什么？

Alex Paino： 我们大约两年前启动了这个项目。当时，OpenAI 即将启动一个新的大型计算集群，我们的团队看到了这个机会，并进行了一系列任务来确定模型需要包含的功能，并进行了大量的风险降低操作测试。

我们为此制定了一个长期计划，涉及从系统到机器学习的整个技术堆栈。降低风险和为训练做准备是一个漫长的执行过程，而训练本身也是一个非常大的项目。

Amin Tootoonchian： 我认为这个过程需要机器学习团队和系统团队从一开始就密切合作，直到我们清楚地知道我们想要训练什么模型，然后开始训练。

我们已经在机器学习和系统中做出了预测，试图最大限度地减少期望与现实之间的差距。然而，由于我们的工作节奏非常快，而且我们必须使用最新的计算资源，模型训练已成为难以提前完美计划的事情。

我们几乎总是带着许多未解决的问题开始训练，并尝试在过程中克服挑战并取得进展。主要的解决方案是增加更多的计算资源。

最后阶段是执行，这需要很多人投入大量的精力和动力，长时间才能完成训练过程。

Sam Altman： 您认为我们的期望与现实之间的差距有多大？

Amin Tootoonchian： 就系统而言，一开始，我们通常远未达到预期的状态。我们总是面临一个选择：是推迟发布并等待问题解决，还是尽早开始并在过程中解决问题。这总是需要权衡，以避免过程中出现不合理的延误。

但几乎总是会出现意想不到的问题，而我们要做的是尽可能多地处理这些节点，处理未知的因素，并制定模型训练计划。

Alex Paino： 在这个项目中，我们的目标是制作 GPT-4.5，这意味着它的能力应该比 GPT-4 聪明 10 倍。这是我们大约 2 年前设定的最初目标。

这个过程中发生了很多事情。我们一直在思考，我们是否可以做得比预期更好或更差？这是一个非常复杂的过程，但最终，就我们投入的有效计算而言，我们得到了一个我们认为比 GPT-4 聪明 10 倍的模型。

Amin Tootoonchian： 在执行方面，在 GPT-4.5 项目上花费的时间远未达到我们最初的预期。

精干团队的革命：以最少的资源训练 GPT-4

Sam Altman： 当集群从 10,000 张卡扩展到 100,000 张卡时，为什么会遇到这么多问题？

Amin Tootoonchian： 我认为如果系统开发人员足够敏感，大多数问题都可以在小规模阶段观察到。

还有一些问题并非大型训练阶段独有，而是最初发生频繁，但在规模扩大后会成为灾难性问题，特别是当团队没有预料到这些问题会提前恶化到如此程度时。

Sam Altman： 什么事情造成了灾难性的后果？

Amin Tootoonchian： 我认为基础设施问题是众所周知的。故障率、故障类型和故障总数都非常高。 100,000 张卡集群是一个大型样本池，因此我们也发现了计算能力供应商没有观察到的问题。

网络是其中的一部分，单个加速器也可能存在问题。但这也是该系统的美妙之处——几乎所有组件都需要按预期工作才能产生预期的结果。我们的工作是尽可能减少这个问题。

Sam Altman： 在集群规模的极限下工作确实很困难，但我也注意到，做那些不再处于技术前沿的事情变得容易多了。训练 GPT-4.5 需要数百人，而且 OpenAI 几乎每个人都参与其中。

但是今天，如果您让您从 OpenAI 中挑选一个最小的团队，并利用我们所知道的所有知识和所有系统工作从头开始重新训练 GPT-4，需要多少人？

Alex Paino： 我认为现在制作一个 GPT-4 级别的模型可能需要大约 5 到 10 个人。在完成 GPT-4.5 的过程中，技术堆栈得到了极大的改进。

事实上，我们在训练 GPT-4.5 的过程中也做了类似的事情——我们训练了 GPT-4o，这是一个 GPT-4 级别的模型，并使用来自 GPT-4.5 研究项目的许多相同内容重新训练了它。用于该训练的人员较少。

数据效率：解锁下一代模型的关键

Sam Altman： 从您的角度来看，Dan？为什么很难训练大型模型？

Daniel Selsam： 我认为做任何新的事情都很困难。我认为仅仅是发现其他人已经做过某件事会容易得多，因为最困难的部分是首先相信你可以做某件事。 我认为仅仅知道某件事是可行的就是一个超级秘籍，让事情变得容易得多。

Alex Paino： 我们正在将 GPT 预训练操作扩展到之前的 10 倍，而且我们总是会发现一些你无法预测的有趣的新事物。

Sam Altman： 为了实现预训练规模的下一个 10 倍或 100 倍的增长，需要什么？

Daniel Selsam： 数据效率。 Transformer 架构（即 GPT）在使用数据方面非常高效。它可以很好地吸收和压缩信息并实现泛化。它最大的特点是它可以利用计算资源高效地吸收信息。

然而，它从数据中获得的洞察力深度有限。当计算能力快速增长而数据增长相对缓慢时，数据就成为这个标准模型的瓶颈。这需要算法创新，开发可以使用更多计算能力从相同数量的数据中学习更多知识的方法。

Sam Altman： 除了这个之外，您认为我们还需要什么来维持扩展？

Amin Tootoonchian： 我的回答是关于系统。我认为 GPT-4.5 所需的巨大工作量本质上是模型规范的必然结果。我们无法使用与 GPT-4 完全相同的技术架构来训练 GPT-4.5。

在状态管理方面，由于所需的计算资源已经超过了单个集群的承载能力，我们必须切换到多集群训练架构。为了实现这个目标，我们必须在短时间内整合多个不同的工作流程。

虽然这确实帮助我们实现了阶段性的突破，但为了实现下一个数量级的性能提升，我们仍然需要解决几个已知但暂时搁置的技术问题——这些问题是无法避免的。正是这种技术权衡不断延长完美系统的开发周期。我们总是在追求最佳实施方案的过程中做出战略性的权衡。

需要明确的是，系统本身并不是最终目标。它的实际输出值是核心考虑因素。对于下一个 10 倍的性能提升，我认为容错方面的突破至关重要。我们需要构建一个与工作负载深度协作的容错机制，以显着降低运维焦虑。当前超大型系统的运维复杂性与之前的系统本质上不同。

Sam Altman： 您知道在 GPT-4.5 训练期间，有多少百分比的故障是由某些组件引起的？

Amin Tootoonchian： 我没有具体的数字可以分享，但总的来说，新一代硬件的首次部署常常面临许多尚未完全理解的技术挑战。我们选择在问题完全明确之前推进项目，这导致了较高的初始故障率。

但经验表明，随着根本原因的识别和解决，故障率将显着降低。这种现象本质上反映了我们对基础设施的深化理解——有些人称之为清理基础设施或理解基础设施的基本问题。

执行的早期阶段几乎总是非常痛苦。在我们推进项目的过程中，我们也在不断发现和解决新的故障模式，但最终故障率会逐渐降低，正常运行时间会增加。

这本质上是一个优先级权衡问题：在基础设施生命周期的早期阶段，其故障风险通常难以准确估计；如果我们过度追求最终的理想状态（原文是“城市地产”，理想的城邦设计），可能会导致系统的初始可用性性能极差。

超越计算：算法创新和数据未开发的潜力

Sam Altman： 虽然推理模型是我们未来技术堆栈的关键组成部分，但让我们暂时关注传统预训练模型的开发边界。假设我们拥有无限的 GPU 计算能力、无限的网络带宽和无限的电源供应，但仍然受到现有技术瓶颈的限制——包括系统可靠性问题、缺乏容错训练方法以及现有数据集的限制。

根据我们为每个主要 GPT 版本号实现 100 倍规模增长的演化规则，基于当前的技术边界，预训练模型的发展可以达到什么水平？具体来说，对于 GPT 系列模型，基于我们现有的知识体系，理论上可以训练什么样的模型？我们可以制作 GPT-5.5 吗？

Alex Paino： 从机器学习和算法开发的角度来看，我们尚未达到明确的理论极限。事实上，我们才刚刚开始探索数据效率更高的算法，以及如何更充分地利用现有的数据资源。这种情况非常有趣——即使像 GPT-4 这样的模型，也主要是在计算资源有限的条件下开发的，这决定了之前大多数研究的方向。

但现在情况完全不同了。自 GPT-4.5 以来，在一些关键维度上，数据而不是计算正在成为主要的约束。这种转变使得相关的研究不那么令人兴奋。

Sam Altman： 但这确实是一个了不起的进步，而且世界可能没有完全意识到计算资源不再是我们能够构建的最佳模型的主要瓶颈。这种转变非常有意义，毕竟，我们在计算受限的环境中生活了太久。

揭示惊喜：可预测性与无法预见的智能

Sam Altman： 在 GPT-4.5 的训练过程中，我们学到了什么最有趣的机器学习经验？说说您想分享的内容即可。

Amin Tootoonchian： 总的来说，最发人深省的事情是那些偏离我们预测的事情——特别是当我们试图理解为什么实际性能偏离预期曲线时。

Alex Paino： 对我们来说，最令人惊讶的发现之一是，不同的机器学习组件具有非常不同的可扩展性性能。有些部分可以扩展得很好，而另一些则不能。这是我们在实际训练过程中真正意识到的。这种体验给了我们很多启发。

Daniel Selsam： 我认为 GPT 范式的两个核心特征是：首先，测试损失（一种衡量模型在新测试数据上表现如何的指标）可以准确预测；其次，模型性能随着规模的增加而呈现可预测的改善。更令人惊奇的是，测试损失的减少将转化为各种难以量化但令人惊叹和神秘的全方位增强的智能水平。

Sam Altman： 您对此绝对乐观吗？您完全同意这个观点吗？

Daniel Selsam： 实际上，我想说的是，我们在 GPT-4.5 测试中发现了一个特别有趣的现象——在重新测试后，模型所表现出的许多复杂的能力完全超出了所有人的预期。

我们确信它会在各种难以提前定义的方式变得更聪明，并且这些细微的改进可以从实际部署后用户的满意度中观察到：更强的常识储备、更准确的上下文理解能力以及更微妙的语义掌握——这是那些额外测试损失带来的魔力。在我看来，缩放定律已在这个维度得到了完美的验证。

协同的力量：机器学习和系统团队的和谐合作

Sam Altman： 在整个训练过程中，最积极的时刻是什么？您最喜欢的回忆是什么？显然有很多痛苦，但我希望这种痛苦已经减轻。

Alex Paino： 我确实有这样一个时刻。我们在训练期间做了很多机器学习工作，我认为我们在过程中所做的一些改变产生了相当好的影响，甚至可能比预期的更好，这对我们来说是一个非常激动人心的时刻。

Amin Tootoonchian： 对我来说，在训练的同时，我们也在建设基础设施。我们坚信我们可以跨越这个性能悬崖，而且我们有一个计划，每个人都在执行它，但这需要很长时间。这是艰苦的工作，而且绝对比我想象的要困难。我的预测是错误的，我低估了解决这些问题所需的时间。

团队最终克服了那些关键问题并且性能显着提高的那一刻仍然历历在目。您可以清楚地感受到整个团队的能量转变——每个人都突然充满了能量，并以新的动力冲向最终目标。

最令人惊奇的是，我们的状态跟踪器上显示的估计完成时间从最初的两年持续缩短，并最终锁定在一个明确的时间节点上。这种可见的进展对团队士气的提升是不可估量的。我认为这就是它的美妙之处。

我想强调的是，机器学习工作从未停止。即使在训练开始后，这种机器学习协同设计过程仍在进行中。机器学习团队不仅积极跟进已标记为“后续处理”的问题，而且还不断交付真正优化训练时间的改进。

这完美地体现了我们的团队精神——这里没有“各人自扫门前雪”的工作界限，而是真正的无缝协作。这种凝聚力是我们最大的优势。

GPT-4.5 预训练中一丝不苟的规划和对异常的执着追求

Daniel Selsam： 外界已经讨论了很多关于这次训练本身的挑战和预测准确性。但事实上，这一切都建立在极其周密的规划之上——您可以详细谈谈这一点吗？

Alex Paino： 这绝对是我们迄今为止制定的最周密的计划。正如我所说，我们早在正式启动训练前一年就开始为这个项目做准备。在此期间，我们进行了多次大规模的风险控制测试运行。

我们特别注意逐步引入所有改进：从高置信度的基本配置开始——可以理解为类似于 GPT-4 的成熟架构，我们已经在机器学习层面上完全掌握了这种配置——然后像积木一样分层添加新功能。

关键在于严格验证每个改进在不同规模上的可扩展性：不仅要查看性能改进，还要确保这些改进可以随着模型大小的增加而继续有效。许多改进在小规模测试中表现良好，但在大规模应用中会失败。

因此，我们在整个过程中都保持着高度的警惕，并继续迭代和改进我们的缩放定律方法论。通过这种风险控制实践，我们积累了大量宝贵的经验，这将继续指导未来 GPT 系列模型的发展。

Amin Tootoonchian： 我记得一个特别有趣的时刻，我非常怀念。你知道，我们几乎每次启动训练任务时都不可避免地会遇到各种错误，这已经司空见惯了。但关键在于确保进度不会受到阻碍，而且我们必须始终确认当前的进度确实在正确的轨道上，以及这些错误是否会对训练的健康状况产生致命的影响。

虽然我们最初非常确定存在重大缺陷，但通过我们构建的整个监控系统，我们能够准确地区分问题的根本原因：是硬件故障吗？是什么类型的硬件故障？是数据损坏吗？还是机器学习模型本身存在错误？还是代码中存在竞争条件？

当时，我们同时开设了多个问题讨论区，症状千差万别。在进行了一系列错误修复后，我们陷入了僵局：多个未解决的问题堆积在我们面前，每个人都在绞尽脑汁——这些是由不同的错误引起的吗？还是一个错误在捣乱？

后来，我们进行了一次投票，要求团队成员投票选出最有可能的根本原因。结果，最不乐观的选项击中了真相：原来是 PyTorch 上游的 torch.sum 函数存在问题，一个简单的求和运算。

这个错误非常有趣。你知道我们主要使用 Triton 内核，只有在一些微不足道的边缘场景中才会回退到 torch 操作。由我们的特定代码路径触发的 torch.sum 函数错误会偶尔由于数据分布特征而导致非法内存访问——它在计算内存偏移时犯了一个错误。

最戏剧性的是，当一位工程师最终找到问题并提交修复程序时，所有具有不同症状的错误都消失了。每个人都兴奋地将 Slack 频道从“多错误理论”更改为“单错误理论”，现场非常高兴。

这个错误潜伏了多久？它从训练的早期阶段就存在了，直到进度条通过大约 40% 时才被发现。发现过程也充满了戏剧性：当时，一个复杂的内核连续调用一个序列，而第二次调用触发了非法内存访问。

虽然这种崩溃的频率极低（每隔几百甚至几千个训练步骤才会发生一次），但很容易被忽略为偶尔的故障，但我们的团队原则是：永远不要放过任何异常。这个故事中最精彩的部分在于这种坚持不懈的精神。

寻求理想的系统：遥远的视野

Sam Altman： GPT-4.5 预训练开始后，您还需要做什么？

Alex Paino： 我们所有人都需要经常观察损失曲线。此外，我们需要不断优化系统并改进在训练开始之前未完成的协同设计。我们密切监控训练过程中的各种统计指标，以确保不会出现意想不到的异常趋势。同时，我们从机器学习的角度探索可能的改进计划。虽然数据级别的工作在预训练开始后会暂时减少，但仍有大量的任务需要处理。

Amin Tootoonchian： 我认为机器学习很大程度上取决于判断的正确性。预训练开始后，面对大量的噪声信号，我们就像解译茶叶的算命先生一样，我们需要判断系统是否健康。这是我们的责任。

Sam Altman： 在系统层面，是什么限制了我们进行模型训练？是芯片、处理器、内存、网络还是电源？

Amin Tootoonchian： 系统之美在于，在进行协同设计时，工作负载可以适应您构建的基础设施。这里没有通用的说法，即网络是瓶颈，或者内存带宽是瓶颈，等等。即使对于相同规范的模型，我们也可以选择转移资源需求，而且我们可以选择创建一个更平衡的系统，但是拥有更多的内存带宽总是有益的。如果没有限制条件，很难回答这个问题。

在设计 GPT-4.5 时，我们可能需要系统具有某种属性，这需要在人为指导下生成。因此，协同设计对于形成模型架构和架构元素非常重要，并且在一定程度上连接了系统和机器学习方面。如果系统具有我们非常不希望拥有的属性，我理想的情况是，一切都应该解耦，以便彼此提供最大的空间。

有时事情是联系在一起的，我们需要满足基础设施的要求，或者事情应该这样。大多数时候，我们需要一个平衡的系统和平衡的通信。而我们拥有的最佳调整手段就是所有这些协同设计。

Sam Altman： 我们离这个理想的系统目标还有多远？

Amin Tootoonchian： 离那个目标还很远。构建系统的过程总是这样：首先有一个关于事物应该如何运作的理想化观点，然后将这些差异与现有资源进行协调。

我认为我们不是为了理论而做理论，而是只是讨论我们希望它变成什么，去实现它，并尽可能接近那个理想。这可能是系统领域最激动人心的部分。人们过去常说这是一种优雅的系统设计，而最终历史会告诉我们这种选择是正确还是错误。

Sam Altman： 如果您可以在下一次大型训练之前获得一个机器学习问题的答案，您最想知道什么？

Alex Paino： 我想知道在有限的数据和特定领域下，我们应该使用什么算法。虽然这是一个宽泛的问题，但它确实是最关键的问题。

Sam Altman： 您将来会使用 1000 万个或更多 GPU 进行同步预训练吗？

Alex Paino： 我认为会有，但它可能不是传统的预训练模型。它的形式可能与现有技术非常不同，但它仍然会保留无监督学习的核心。

Amin Tootoonchian： 我更喜欢半同步模式。由于物理定律，完全同步是不现实的。

Daniel Selsam： 我认为更有可能是去中心化的。肯定会有 1000 万个 GPU 在 AI 系统中协同工作以进行学习和执行任务，但是就像大脑的各个部分一样，它们可能不一定彼此通信。

算法改进和数据效率的协同力量

Sam Altman： 最先进的算法与人类数据效率之间的差距有多大？我们能否希望在未来赶上？

Daniel Selsam： 很难直接比较两者。在语言学习方面的差距肯定很大。关键是如何定义人类视觉神经接收到的信息量。我认为算法通常比人类的数据效率低得多。

几十年来，深度学习一直专注于计算能力效率。除了数据和计算能力的增长之外，真正令人惊讶的是算法改进所产生的协同效应。每次算法性能提高 10% 或 20%，叠加在数据效率上都会产生显着的效果。到目前为止，还没有围绕数据效率的动员，因为当数据不流通且计算能力有限时，这种方法是不值得的。

现在，我们正在进入 AI 研究的新阶段，我们将开始在数据效率方面积累胜利。我认为现在预测我们会遇到无法克服的障碍有点傻。人脑的工作方式肯定与我们的算法改进不同，我们应该在这方面保持谨慎。但我认为我们应该对算法的未来发展保持乐观。

Sam Altman： 更大规模的预训练与模型更强的学习和推理能力之间有什么相关性？

Alex Paino： 我们观察到的是，更好的预训练和无监督学习通常会提高模型的整体智能，并且对泛化有很大的帮助。这与推理能力是互补的，而推理可能在提高智能方面比较迟缓。我认为它们是互补的。

Sam Altman： 预训练似乎在很多事情上都是通用的，而训练一个模型只能让它擅长做一件事，是这样吗？

Alex Paino： 这非常有趣，但是当您看到训练它们的数据时，您不会对此感到惊讶。预训练数据集范围非常大，我们追求的是广度和多样性。当涉及到模型强化学习并使其清楚地获得良好的奖励信号和良好的训练环境时，我认为很难平衡数据集的广度。

Daniel Selsam： 我同意，但我认为还有另一个因素。预训练本质上是压缩数据，从而发现不同事物之间的联系。这是关于类比和更抽象的。推理是一种需要仔细思考特定问题并且还可以获得许多类型问题解决方案的技能。然而，在预训练过程中，当跨不同领域压缩数据时，可以学习到更抽象的知识。

智能的本质：压缩和长尾效应

Sam Altman： 为什么无监督学习有效？

Daniel Selsam： 关键是压缩。智能的理想形式是所罗门诺夫归纳法。总的来说，机器学习会考虑所有可能性，但倾向于从测试更简单的程序开始。

当前预训练的本质是一个压缩过程，它通过找到解释迄今为止人类产生的所有数据的最简单的程序来实现近似表达。

Sam Altman： 下一个 Token 预测如何帮助实现压缩？

Daniel Selsam： 统计学中存在一个悖论——为什么深度网络即使看起来无法压缩也能实现泛化？通常，当您有大量数据和一些小型模型时，这些模型必须经过压缩才能学习到某些东西。

在预训练中，数据和模型的规模非常大。有些人认为这种训练只是记忆和插值学习。事实上，他们忽略了压缩的另一个理解角度——pre-quential compression。它就像一个压缩器。即使数据权重非常大，二进制也不需要存储此信息。下一个 Token 预测的结果可以快速检索有用的信息并提高压缩效率。

Sam Altman： 训练 GPT-4.5 的过程花费了大量的人力、时间和金钱，这实际上可以被视为验证缩放定律的实验，结果证明它是有效的并且会持续很长时间。为什么缩放定律可以被称为宇宙法则？

Daniel Selsam： 压缩程度越高，智能越强。这具有深刻的哲学内涵。为什么训练更大的模型需要更长的时间并且压缩率更高？这涉及许多理论，其中我喜欢稀疏表示。

现实中的关键概念遵循幂律分布。例如，第 100 个重要的概念可能只会在每 100 个文档中出现一次，并且存在明显的长尾效应。 这种分布特征导致需要大规模的数据和计算能力才能有效地捕获所有关键概念，并且还决定了缩放定律将继续长期有效地存在。

更新于 2025-04-15

# OpenAI # GPT # AGI