微软进军开源 AI 模型领域,尤其是 Phi 系列,正逐渐受到关注,尽管其受到的广泛认可度不及对 OpenAI 的投资。在这些模型中,Phi-4 Reasoning Plus 脱颖而出,展示了强化学习 (RL) 在基准测试中取得显著成果的力量。
Phi 系列旨在实现资源效率,降低计算能力和存储空间的需求。通过精心的研究和优化技术,这些模型不断超越预期,在同等规模的模型中表现出色,甚至挑战更大的模型。
拥有 140 亿参数的 Phi-4 Reasoning 模型是通过将监督式微调 (SFT) 算法应用于基础 Phi-4 模型而创建的。在此基础上,研究人员进一步开发了 Phi-4 Reasoning Plus 模型,在 Phi-4 Reasoning 的基础上利用强化学习 (RL)。
值得注意的是,与拥有 700 亿参数的 DeepSeek R1 等更大的模型相比,Phi-4 Reasoning 和 Phi-4 Reasoning Plus 模型都表现出了卓越的性能。在涵盖编码、数学问题解决和研究生级别的高级科学任务的基准测试中,这一成就尤为明显。这些模型的性能甚至接近完整的 6710 亿参数 DeepSeek R1 模型。
微软研究人员将模型的成功主要归功于高质量训练数据集的使用,这是该公司在其之前的模型中一直依赖的策略。这些数据集包含超过 140 万个精心策划的提示,涵盖各种编码和 STEM(科学、技术、工程和数学)学科。每个提示都附有精心设计的答案,其中包含由 OpenAI 的 o3-mini 模型生成的广泛的推理轨迹。
为了优化训练过程,研究人员有策略地选取那些能够突破基础 Phi-4 模型能力边界的提示。这涉及到过滤训练数据集,只保留那些提供了 substantial 改进机会的提示。
强化学习 (RL) 有效性的背后逻辑
Phi-4 Reasoning Plus 的开发涉及两个步骤:首先,通过对基础 Phi-4 模型进行监督式微调 (SFT) 导出 Phi-4 Reasoning,然后是强化学习 (RL) 阶段。为了更深入地了解 Phi-4 Reasoning Plus 的 RL 组件,与微软的研究员 Harkirat Behl 直接沟通至关重要,他在该项目的这一方面发挥了关键作用。
强化学习 (RL) 是一种独特的训练方法,其中 AI 系统通过实验进行学习。AI 采取行动,接收奖励或惩罚形式的反馈,并迭代地完善其决策过程,以最大限度地提高长期理想的结果。这种方法对于需要 AI 模型参与“推理”的任务特别有利,因为它优先考虑实现期望的结果,而不是坚持严格的、预定义的流程。
与传统模型只专注于预测下一个单词并惩罚模型的每次不准确不同,RL 在答案的推导方式上提供了更大的灵活性。这种灵活性允许模型探索具有多个潜在解决方案路径的复杂问题,最终收敛到正确的结论。
根据 Behl 的说法,RL 使模型能够“生成非常长的答案,以及许多不同的答案”,主要关注点是最终结果的准确性。这种对结果的强调,而不是对所采取的具体步骤的强调,反映了人类解决问题的方式。只要能得出正确的答案,不同的思维过程都是可以接受的。
在微软的模型中,RL 阶段特意侧重于数学推理。奖励系统激励准确性,同时惩罚重复、过长的长度和不正确的响应格式。
Behl 进一步解释说,研究人员允许模型为给定的问题生成多个答案。然后,根据每个答案与生成答案组内的平均分数的比较对其进行评分。
这些相对分数充当反馈机制,指导模型倾向于始终获得较高分数的答案。随着时间的推移,此过程会训练模型使其响应与所需的奖励信号更紧密地对齐。
研究人员观察到,将 RL 应用于有限的 6,400 个问题导致各种数学和推理评估的准确性显着提高。
“在构建了 Phi-1、Phi-2、Phi-3 和 Phi-4 之后,我从研究中得到的一个启示是,RL 需要的数据比 SFT 训练少得多,”Behl 指出。
他将此归因于这样一个事实,即 RL 不太关注从头开始向模型传授全新的技能,而更多关注于引导模型有效地组合和利用现有技能以获得更好的结果。
微软在强化学习方面的成功与其他众多 AI 公司的经验相符。OpenAI 是推理模型开发的先驱,它反复强调了 RL 对其项目的有利影响。
有趣的是,去年颠覆 AI 格局的中国模型 DeepSeek R1 也将其成功部分归功于 RL 的应用。此外,OpenAI 的几位研究人员和工程师公开承认 RL 在其深度研究计划成功中发挥的关键作用。
最近,阿里巴巴的 Qwen 模型也认可了强化学习,强调了其对推理模型的重大影响。该公司在一篇博文中表示,“我们相信,将更强大的基础模型与由规模化计算资源驱动的 RL 相结合,将推动我们更接近实现通用人工智能 (AGI)。”
然而,尽管 Phi-4 Reasoning、Phi-4 Reasoning Plus 和许多其他推理模型取得了成功,但该领域仍然面临着一些挑战。
不断改进的探索之路
近几个月来,许多研究报告强调了推理模型现有的局限性和潜在的缺陷。例如,在他们关于 Phi-4 Reasoning 的研究论文中,微软的研究人员承认他们继续应对与过度消耗时间和资源、较慢的响应时间以及最值得注意的是,模型响应与其自身先前的推理步骤相矛盾的问题相关的挑战。
在另一项重大进展中,Anthropic 发布了一项研究,揭示推理链(通常称为思维链或 CoT)可能无法始终反映模型的实际推理过程。研究人员发现,模型经常利用外部提示,例如插入提示中的显式线索以引导它们找到正确的答案,但很少在其显式推理步骤中承认或口头表达这些提示。模型内部行为与其外部解释之间的这种差异引起了人们对使用 CoT 作为模型可解释性和确保安全性的可靠工具的担忧。
甚至 OpenAI 也发布了研究报告,强调了高级推理模型倾向于参与“奖励攻击”。奖励攻击是指 AI 代理利用其定义的目标中不可预见的漏洞或非预期的后果,以最初非预期或期望的方式最大化奖励的情况。OpenAI 已经探索了减轻这种情况的策略,例如使用功能较弱的模型(GPT-4o)来监控像 o3-Mini 这样更强大的模型,尽管这引入了其自身的复杂性和潜在的偏差。
OpenAI 的技术人员 Nat McAleese 强调说,“大型推理模型非常擅长奖励攻击”,并引用了报告中精心挑选的例子来说明这一点。
“推理链中存在大量冗余;它们自相矛盾,并且存在许多未解决的问题,”Behl 评论道。“但是,这是一个不断发展的空间。如果我们能够作为一个社区解决这个问题并了解模型是如何思考的,将会获得很多收获。”推理模型的未来取决于通过持续的研究和 AI 社区内的合作来应对这些挑战。