性能提升:仔细观察
OpenAI 的内部基准测试表明,GPT-4.5 在几个关键领域确实优于 GPT-4o。一个显著的改进是它在多语言 MMMLU(常识)测试中的表现。GPT-4.5 获得了 85.1% 的分数,超过了 GPT-4o 的 81.5%。这表明对各种语言的常识有了更广泛和更深入的理解。
除了标准化测试之外,OpenAI 声称 GPT-4.5 减少了’虚构’,更常见的说法是幻觉。这意味着该模型不太容易产生虚假或误导性信息,这对于需要事实准确性的应用程序来说是一项至关重要的进步。更少的虚构回应实例标志着朝着更高可靠性迈出了一步。
用户体验也有所提升,尽管幅度不大。OpenAI 的评估表明,在大约 57% 的交互中,用户更喜欢 GPT-4.5 的响应而不是 GPT-4o 的响应。虽然不是压倒性的胜利,但这种偏好表明模型输出的整体质量和相关性有了明显的提高。交互感觉更自然,更符合用户期望。
另一个显著的飞跃体现在简单问答准确率上。在这里,GPT-4.5 的得分为 62.5%,比 GPT-4o 的 38.2% 大幅提高。这表明该模型为简单问题提供准确答案的能力显著提高,展示了增强的理解和检索能力。
情商:更像人类的互动
GPT-4.5 的独特之处不仅在于原始性能指标,还在于其增强的情商 (EQ)。该模型旨在采用更自然和更具同理心的语气,使交互感觉不那么机械化,更具吸引力。这是朝着创建在沟通中感觉更像人类的 AI 迈出的重要一步。
- 自然语气: 对话更流畅,回应更好地模仿人类对话模式。
- 同理心回应: 该模型表现出更强的理解和回应对话情感基调的能力。
- 参与性互动: 整体体验旨在更具吸引力,吸引用户的注意力并促进更积极的互动。
这种增强的情商使 GPT-4.5 特别适合于类人交互至关重要的应用。客户服务、虚拟助理,甚至治疗应用都可以从这种更细致、更具情感智能的方法中受益。
此外,GPT-4.5 在’可操纵性’方面表现出色。这是指模型以更高的精度解释和响应细微提示的能力。用户观察到 GPT-4.5 对微妙之处有更强的把握,使其能够更有效地处理复杂或模棱两可的查询。它可以更好地辨别问题的潜在意图,从而产生更相关和更有帮助的回答。
房间里的大象:定价问题
尽管取得了进步,但 GPT-4.5 的定价已成为一个主要的争论点。虽然它提供了优于 GPT-4o 的改进,但成本差异很大。对于输入处理,GPT-4.5 的价格大约贵 30 倍,对于输出生成,它的价格贵 15 倍。这种定价模型引发了关于新模型价值主张的严重问题。
核心问题是收益递减。虽然 GPT-4.5 无疑比其前身更大、更复杂,但性能改进似乎并没有与成本的增加成比例。这种差异导致 AI 社区的许多人质疑边际收益是否证明指数级的价格上涨是合理的。
过高的定价对可访问性有重大影响。许多开发人员,特别是那些独立工作或为小型企业工作的开发人员,可能会发现 GPT-4.5 根本无法企及。这造成了进入壁垒,可能会扼杀创新并限制该技术的广泛采用。
考虑一个实际例子:总结一本 300,000 字的小说(大约 450,000 个 token)并生成一份 50,000 个 token 的分析报告。使用 GPT-4.5,此任务将花费大约 41.25 美元。使用 GPT-4 完成相同的任务只需 1.6 美元。这种鲜明的对比凸显了 GPT-4.5 给用户带来的财务负担,特别是对于大型项目。
这种定价策略引发了人们对 AI 开发领域内的可负担性和包容性的担忧。较小的实体和个人研究人员可能被迫选择较便宜但功能较弱的替代方案,这可能会阻碍他们与能够负担得起高昂成本的大型组织竞争的能力。
推理能力:一项正在进行中的工作
虽然 GPT-4.5 在多个领域展示了进步,但重要的是要承认其局限性。该模型是使用预训练、监督微调和来自人类反馈的强化学习 (RLHF) 开发的。但是,它尚未针对高级推理任务进行优化。
这意味着当前版本在严重依赖强大推理技能的领域(例如数学和编码)并没有带来显著的改进。这些领域需要更深层次的逻辑演绎和问题解决能力,而 GPT-4.5 目前还不完全具备这些能力。
对于需要强大推理能力的任务,GPT-4o 仍然是领先的模型。看来 OpenAI 的策略涉及一个分阶段的方法,GPT-4.5 的初始版本侧重于常识、用户体验和情商等领域。该公司可能会将重点转移到专门对 GPT-4.5 应用额外的 RL 训练,以在后续迭代中增强其推理能力。这表明了对持续改进的承诺,未来的更新可能会解决当前在推理密集型任务中的局限性。
预计未来的增强将缩小差距,最终将 GPT-4.5 定位为基于推理的应用程序的领导者。
总结:
GPT-4.5 的发布呈现出一幅复杂的图景。它展示了某些领域的进步,特别是在用户体验和情商方面。然而,定价模型引发了人们对可访问性和整体价值主张的重大担忧。虽然该模型代表着向前迈出了一步,但其成本效益仍然是 AI 社区内争论的话题。推理能力的局限性也突出了正在进行的开发过程,预计未来的更新将解决这些缺点。GPT-4.5 的发展轨迹将取决于 OpenAI 如何在性能、成本和可访问性之间取得平衡,最终决定其对更广泛的 AI 领域的影响。