GPT-4.5失败了吗?深入OpenAI最新模型

GPT-4.5的规模和范围

OpenAI于2月27日发布的GPT-4.5引发了一波讨论,而这种讨论未必是该公司所期望的。作为GPT-4o的继任者,GPT-4.5虽然规模巨大,但许多人却感到失望。让我们深入探讨这次发布的细节,分析它的优点、缺点以及对大型语言模型未来的更广泛影响。

GPT-4.5代表了OpenAI迄今为止在规模方面最雄心勃勃的项目。尽管关于其架构和训练数据的确切细节仍然很少,但众所周知,它的训练过程计算量非常大,以至于需要在多个数据中心之间进行分布式处理。仅此一点就暗示了投入其开发的巨大资源。

该模型的定价结构进一步强调了其作为高端产品的定位。其成本明显高于其前代产品,比GPT-4o高出15-30倍,比o1高出3-5倍,比Claude 3.7 Sonnet高出10-25倍。目前,只有ChatGPT Pro订阅者(每月200美元的高昂费用)和愿意按token付费的API客户才能访问。

然而,至少在某些方面,性能提升并没有完全与价格标签相匹配。初步基准测试显示,与GPT-4o相比,GPT-4.5的改进幅度不大,甚至在推理任务中落后于o1和o3-mini等模型。

理解GPT-4.5的预期用途

重要的是要承认,OpenAI从未明确将GPT-4.5作为其旗舰的、通用的模型进行推广。事实上,他们博客文章的早期版本澄清说,它并不打算成为一个推动绝对能力边界的“前沿模型”。此外,它主要不是作为推理模型设计的,因此与针对该目的优化的模型(如o3和DeepSeek-R1)进行直接比较有些误导。

OpenAI已经表示,GPT-4.5将是其最后一个非思维链模型。这意味着它的训练重点在于嵌入大量的世界知识并与用户偏好保持一致,而不是发展复杂的推理能力。

GPT-4.5可能擅长的领域:知识和细微差别

大型模型的核心优势通常在于其扩展的知识获取能力。GPT-4.5符合这一原则,与较小的模型相比,它表现出更低的产生幻觉的倾向。这使得它在严格遵守事实和上下文信息至关重要的场景中具有潜在价值。

此外,GPT-4.5表现出更强的遵循用户指令和偏好的能力。OpenAI的各种演示以及在线分享的用户体验都展示了这一点。该模型似乎更有效地掌握了用户意图的细微差别,从而产生更具针对性和相关性的输出。

关于散文质量的争论:主观性和潜力

关于GPT-4.5生成优质散文的能力,出现了一场激烈的讨论。一些OpenAI高管称赞了该模型的输出质量,首席执行官Sam Altman甚至表示,与它的互动让一些有洞察力的测试者看到了“AGI”(通用人工智能)的曙光。

然而,更广泛的反应明显褒贬不一。OpenAI联合创始人Andrej Karpathy预计,在不太依赖纯粹推理的任务中会有所改进,他强调了“EQ”(情商)、创造力、类比和幽默等领域——这些方面通常受到世界知识和一般理解的限制。

有趣的是,Karpathy随后进行的一项调查显示,在写作质量方面,用户普遍更喜欢GPT-4o的回复,而不是GPT-4.5的回复。这突出了评估散文的内在主观性,并表明熟练的提示工程可能会从更小、更高效的模型中引出类似的质量。

Karpathy本人承认结果的模糊性,提出了各种可能的解释:’高品位’测试者可能感知到了其他人错过的微妙结构改进,测试的例子可能并不理想,或者差异可能太微妙,无法在小样本中辨别出来。

规模化的局限性和LLM的未来

GPT-4.5的发布,在某些方面,强调了仅仅扩大在海量数据集上训练的模型的潜在局限性。OpenAI的另一位联合创始人兼前首席科学家Ilya Sutskever在NeurIPS 2024上发表了著名的言论:“我们所知的预训练无疑将结束……我们已经达到了数据的顶峰,不会再有了。我们必须处理我们拥有的数据。只有一个互联网。”

在GPT-4.5上观察到的收益递减证明了扩展主要在互联网数据上训练并通过人类反馈强化学习(RLHF)进行微调以实现对齐的通用模型的挑战。

大型语言模型的下一个前沿似乎是测试时扩展(或推理时扩展)。这涉及训练模型通过生成思维链(CoT)token来“思考”更长的时间。测试时扩展增强了模型处理复杂推理问题的能力,并且一直是o1和R1等模型成功的关键因素。

不是失败,而是基础

虽然GPT-4.5可能不是每项任务的最佳选择,但认识到它作为未来进步的基础元素的潜在作用至关重要。强大的知识库对于开发更复杂的推理模型至关重要。

即使GPT-4.5本身没有成为大多数应用程序的首选模型,它也可以作为后续推理模型的关键构建块。甚至有可能它已经被用于o3等模型中。

正如OpenAI首席研究官Mark Chen解释的那样,“你需要知识来构建推理。模型不能盲目地从头开始学习推理。因此,我们发现这两种范式是相当互补的,我们认为它们之间存在反馈循环。”

因此,GPT-4.5的开发并不代表一个死胡同,而是大型语言模型持续发展中的一个战略步骤。这证明了人工智能研究的迭代性质,其中每一步,即使单独看起来不那么令人印象深刻,也有助于朝着更强大和多功能的AI系统取得更广泛的进展。现在的重点正在转向利用这个强大的知识基础来构建模型,这些模型不仅可以回忆信息,还可以以前所未有的效率进行推理和解决问题。通往真正智能AI的旅程仍在继续,GPT-4.5尽管褒贬不一,但在这段旅程中发挥着重要作用。
现在的重点不仅仅在于模型知道多少,还在于它能多好地使用这些知识。这是人工智能社区正在努力解决的核心挑战,而GPT-4.5虽然不是一个完美的解决方案,但为未来的突破提供了宝贵的见解和坚实的基础。前进的道路涉及多种方法的结合:改进现有技术,探索新的架构,以及开发更复杂的训练和评估方法。最终目标保持不变:创建不仅可以理解和生成人类语言,还可以以曾经被认为是人类智能专属领域的方式进行推理、学习和适应的AI系统。