渐进式升级,而非巨大飞跃
OpenAI 正在向 ChatGPT Pro 用户推出其最新的主要 AI 模型,内部称为 Orion。虽然官方名称为 GPT-4.5,但该公司并未将其归类为“前沿”模型。GPT-4.5 作为研究预览版提供给 ChatGPT Pro 用户。OpenAI 称其为“目前知识最渊博的模型”,但最初的沟通表明,它的性能可能无法与 o1 或 o3-mini 等模型相媲美。这表明其重点在于改进和效率,而不是突破性的进步。
增强的功能,改进的交互
用户可以从 GPT-4.5 中期待什么?OpenAI 强调了几个关键领域的改进:
- 写作能力: 该模型旨在成为一个更强大的写作助手。
- 扩展的世界知识: GPT-4.5 对现实世界的概念和信息有更广泛的理解。
- “改进的个性”: OpenAI 声称与该模型的交互将感觉更自然、更直观。
该公司强调 GPT-4.5 能够识别模式并建立联系,使其特别适合写作、编程和解决实际问题等任务。
并非前沿模型:理解其区别
尽管有这些增强功能,OpenAI 明确表示 GPT-4.5 并不代表进入全新功能的飞跃。一份后来被修改的泄露文件提供了更多背景信息:
“GPT-4.5 不是一个前沿模型,但它是 OpenAI 最大的 LLM,将 GPT-4 的计算效率提高了 10 倍以上,”该文件指出。“与之前的推理版本相比,它没有引入 7 个净新的前沿功能,并且在大多数准备评估中,它的性能低于 o1、o3-mini 和深度研究。”
这种区别很重要。这表明,虽然 GPT-4.5 在规模和效率方面是一个重大升级,但它并没有像“前沿”模型那样推动 AI 能力的边界。
训练和开发
报告表明,OpenAI 利用其 o1 推理模型(代号 Strawberry)和合成数据来训练 GPT-4.5。该公司确认结合了新颖的监督技术和既定方法:
- 监督微调 (SFT)
- 来自人类反馈的强化学习 (RLHF)
这些方法类似于开发 GPT-4o 中使用的方法。
解决幻觉并改善协作
一个显著的改进是减少了幻觉。根据 OpenAI 的说法,GPT-4.5 产生幻觉的频率低于 GPT-4o,甚至略低于 o1 模型。
OpenAI 研究员 Raphael Gontijo Lopes 强调了对协作的关注:“我们调整了 GPT-4.5,使其成为一个更好的合作者,让对话感觉更温暖、更直观、情感更细腻。”他指出,人类测试人员在各个类别中对 GPT-4.5 的评价都高于 GPT-4o。
CEO 的观点:承认局限性
OpenAI 首席执行官 Sam Altman 在 X 上的一篇帖子中承认了 GPT-4.5 的性质:“巨大、昂贵的模型”,“不会打破基准”。这种坦率的评估强化了这样一种观点,即此次发布是关于渐进式进步,而不是革命性的突破。
发布计划
GPT-4.5 的推出遵循分层方法:
- Pro 用户: 作为研究预览立即访问。
- Plus 和 Team 用户: 预计下周可用。
- Enterprise 和 Edu 用户: 在 Plus 和 Team 用户之后访问。
该模型也可通过 Microsoft 的 Azure AI Foundry 平台获得,以及 Stability、Cohere 和 Microsoft 自身的产品。
准确性和减少幻觉
OpenAI 强调了 GPT-4.5 改进的准确性,声称它比其他模型生成更准确的响应并减少幻觉。这是向前迈出的关键一步,因为幻觉(生成虚假或无意义的信息)一直是大型语言模型中持续存在的挑战。
展望未来:GPT-5 和通往 AGI 的道路
之前的报告表明了 OpenAI 发布的时间表:GPT-4.5 在 2 月底之前发布,GPT-5 最早在 5 月底发布。Altman 将 GPT-5 描述为“一个集成了我们许多技术的系统”。预计它将整合 OpenAI 新的 o3 推理模型,该模型在公司 12 月份的“圣诞节 12 天”公告中被提及。
虽然 o3-mini 已经发布,但完整的 o3 模型将保留给 GPT-5 系统。这与 OpenAI 更广泛的愿景相一致,即将其大型语言模型结合起来,创建一个更强大的系统,可能接近通用人工智能 (AGI) 领域。
深入研究 GPT-4.5 的架构
虽然 OpenAI 尚未发布详尽的技术细节,但可以根据现有信息推断出 GPT-4.5 架构的几个方面:
更大的参数数量: 被描述为 OpenAI 的“最大 LLM”,可以合理地假设 GPT-4.5 的参数数量比其前身要多得多。这种增加的容量可能有助于其改进的知识库和推理能力。
优化的计算效率: 泄露的文件提到与 GPT-4 相比,计算效率提高了“超过 10 倍”。这表明架构的改进使模型能够更有效地处理信息,从而可能缩短响应时间并降低能耗。
增强的注意力机制: 鉴于对模式识别和建立联系的强调,GPT-4.5 很可能结合了注意力机制的进步。这些机制允许模型专注于输入文本中最相关的部分,从而产生更连贯和上下文相关的响应。
改进的训练数据: 使用“新的监督技术”暗示了训练数据的质量和多样性的改进。这可能涉及合并更多专业数据集、利用合成数据生成或采用更复杂的方法来过滤和清理现有数据。
合成数据的作用
据报道,在训练 GPT-4.5 中使用合成数据尤其值得注意。由 AI 模型本身生成的合成数据具有几个潜在优势:
克服数据稀缺性: 它可以用于扩充现有数据集,特别是在现实世界数据有限或难以获得的领域。
解决偏差: 可以精心制作合成数据以减轻现实世界数据集中存在的偏差,从而产生更公平和公正的 AI 模型。
探索假设情景: 它允许研究人员在现实世界中可能很少见或不可能观察到的情景上训练模型,从而增强他们处理意外情况的能力。
然而,合成数据的使用也引起了人们的担忧:
放大偏差的可能性: 如果不仔细控制,合成数据可能会无意中放大现有偏差或引入新的偏差。
过度拟合的风险: 主要在合成数据上训练的模型可能在类似的合成数据上表现良好,但难以推广到真实世界的输入。
OpenAI 使用合成数据的方法可能涉及仔细的验证和测试,以减轻这些风险。
“改进的个性”:更深入的了解
OpenAI 声称 GPT-4.5 具有“改进的个性”,这很有趣。这表明努力使模型的交互更具吸引力、更自然、更具情感智能。这可能涉及多种技术:
在对话数据上进行微调: 在大量人类对话数据集上训练模型,以更好地理解语言、语气和社会线索的细微差别。
结合情感智能模型: 集成专门设计用于识别和响应人类情感的模型,使 GPT-4.5 能够相应地调整其沟通方式。
通过人类反馈进行强化学习: 使用人类反馈来奖励那些被认为更自然、更具吸引力和更具同理心的反应。
目标是创造更像人类的对话体验,超越纯粹的功能性互动,培养一种联系感和融洽关系。
对不同用户群体的影响
GPT-4.5 的分层推出表明对不同用户群体的影响不同:
Pro 用户: 作为早期采用者,Pro 用户将有机会试验模型的功能并向 OpenAI 提供反馈。这些反馈对于塑造模型的进一步发展至关重要。
Plus 和 Team 用户: 这些用户可能会在日常任务中受益于 GPT-4.5 改进的性能和改进的交互方式,例如写作、编码和研究。
Enterprise 和 Edu 用户: 对于这些用户而言,提高的准确性和减少的幻觉可能特别有价值,从而确保在专业和教育环境中获得更可靠和可信的结果。
Microsoft Azure AI Foundry 用户: 该模型在该平台上的可用性扩大了开发人员和研究人员对该模型的访问权限,从而促进创新和创建新的 AI 驱动的应用程序。
更广泛的背景:OpenAI 的战略
GPT-4.5 的发布虽然不是一个前沿模型,但符合 OpenAI 迭代开发和逐步迈向 AGI 的更广泛战略。通过发布增量改进,OpenAI 可以:
收集用户反馈: 根据实际使用情况和反馈不断改进其模型。
管理期望: 避免过度炒作,并为每个版本设定切合实际的期望。
保持竞争优势: 在快速发展的 AI 领域保持领先地位。
为未来的突破做好准备: 为更重大的进步奠定基础,例如 GPT-5。
这种方法与其他一些 AI 公司的“大爆炸”发布形成对比,表明在开发和部署日益强大的 AI 系统方面采取了更谨慎和有节制的方法。重点不仅在于突破可能的界限,还在于确保安全性、可靠性和用户满意度。
像 GPT-4.5 这样的模型的开发和部署提出了很多问题:
- 我们如何衡量模型是否具有“改进的个性”?
- 减少幻觉的模型有什么影响?
- 发布非前沿模型的重要性是什么?
这些都是很好的问题,但没有明确的答案。