Phi-4 推理模型的崛起
人工智能领域目前正被推理模型所吸引,而微软最近推出了 Phi-4 系列推理模型,包括 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。特别值得注意的是,即使是这些模型中最大的一个,仅拥有 140 亿参数,也能在高性能笔记本电脑上流畅运行。此外,拥有 38 亿参数的 Phi-4-mini-reasoning 在数学推理方面超越了 80 亿参数的 DeepSeek-R1 精馏模型,突显了较小模型在推理任务中的强大能力。
微软并没有等待 4 月份发布的第二代 DeepSeek-R2 推理模型,而是发布了一系列新的 Phi-4 推理模型。这些模型在数学推理方面表现出卓越的性能,超越了 DeepSeek-R1 精馏模型,尽管 Phi-4-Mini-Reasoning 的参数规模更小。
微软人工智能前沿实验室的合作研究经理 Ahmed Awadallah 描述了 Phi-4-reasoning 并总结了新模型的特性。
- 该模型通过监督式微调(使用精心挑选的推理示例数据集)和强化学习进行训练。
- 它在推理基准测试中表现良好,可以与 DeepSeek R1 等更大的顶级模型相媲美。
- 它在新的测试(例如 AIME 2025、HMMT)中继续表现强劲。
- 推理能力具有很强的可迁移性/泛化能力,即使仅经过监督式微调,它也可以适应新的任务(例如 k-SAT、数学方程求解、调度等)。
- 保留并大大提高了通用能力(例如指令理解和执行)。
他表示,Phi-4 仍然有几个方面需要改进,尤其是在上下文长度、编码能力和工具集成方面。
除了模型本身,微软还分享了一份详细的技术报告,其中深入分析了模型的训练和评估过程。
在 X 上,微软研究院人工智能前沿实验室的首席研究员兼威斯康星大学副教授 Dimitris Papailiopoulos 介绍了有关 Phi-4 推理模型的更多信息。
他认为 Phi-4-reasoning 已经完全达到了研究生水平,并且可以在本地 PC 上运行。
这超出了他对人工智能发展的预期。
新模型参数少,但性能强。
性能强劲
尽管规模不大,但该模型在 AIME、HMMT 和 OmniMath 等数学基准测试中表现出色。它的表现与 QwQ-32B、R1-70B 和 R1 等更大的开源权重模型,以及 o1-mini 和 sonnet 3.7 等封闭模型相当或超过了它们。
该模型体积小,适合在高性能笔记本电脑上流畅运行。
同时,它能够解决许多即使更大的非推理模型和一些推理模型也无法解决的难题。
它还通过了 DimitrisEval 测试!
令人惊讶的是,推理似乎是一种真正可转移的 ‘元技能’,即使通过监督式微调 SFT 也可以学习!
证据 1:即使没有接受过专门针对非推理任务的训练,研究人员仍然观察到 IFEval、FlenQA 和内部 PhiBench 上的性能显着提高(增加了 10 多个百分点!)。
此外,在 SFT 阶段(以及在 RL 阶段根本没有)与编码相关的数据非常少,但该模型在这方面仍然表现良好。
此外,Dimitris Papailiopoulos 透露编程是后续版本的重点。
证据 2:对于一些未明确训练的问题(无论是 SFT 还是 RL 阶段),例如旅行商问题、迷宫求解、k-SAT、约束规划等,该模型在这些任务中表现非常好!
而 Phi-4(甚至 GPT-4)都无法做到这一点。
这充分说明了推理能力确实可以作为一种技能进行转移!
经过非常短的一轮强化学习(仅使用 6,000 个样本,而 SFT 为 140 万个示例)后,该模型的推理机制似乎被 ‘锁定’。
这让 Dimitris Papailiopoulos 特别震惊。
他觉得这就像强化学习教会了模型以 ‘自己的语言’ 进行推理,在 AIME 和 HMMT 上的准确率提高了约 10%,并在难题中将平均答案长度增加了 50%。
强化学习真的有效!!
推理机制被 ‘锁定’ 的现象通常会使模型的输出分布更加集中,并且准确性也更高。
强化学习可以显着提高模型能力这一事实也反映在微软之前的研究中。
在强化学习阶段,新模型甚至没有专门针对数据进行优化:6,000 个问题只是从更大的数据集中随机选择的。
那么为什么微软没有进行更多的强化学习训练?
因为该模型生成的答案超过了 32k 上下文长度(该模型未在该长度上进行训练),他们只能截断它。
此外,借助并行推理计算(例如 Maj@N),新的推理模型几乎达到了 AIME 2025 的性能极限,甚至超过了其教师模型(o3-mini)的 pass@1 性能。
并且在 2025 年 2 月之前完成了所有数据收集,HMMT 也是如此。
在其他任务中,研究人员还观察到了 ‘超越教师’ 的现象,例如 OmniMath 和日历规划任务。
SFT 阶段的提示设计,加上随后的强化学习过程,似乎赋予了模型 ‘自我改进’ 的能力,超出了教师模型提供的知识范围。
在下图中,洋红色代表 o3-mini,绿色代表 Phi。
一个有趣的现象是:响应长度位于前 25% 的长文本通常与错误答案密切相关!
但是,另一方面,在大多数评估中,总体平均答案长度更长,准确性更高。
换句话说,在测试期间增加计算资源确实有帮助,但该模型在 ‘卡住’ 时也容易 ‘漫谈’。
关于模型的局限性,还有一些需要注意的事项:
- 处理超过 32k 的上下文长度的能力尚未完全扩展或测试。
- 该模型在处理简单问题时容易 ‘过度思考’,并且在自我评估中可能显得过于冗长。
- 多轮对话的能力尚未得到广泛测试。
当然,还有更多的 ‘盲点’ 有待发现,但总的来说,研究团队感觉他们走在正确的轨道上!
训练惊喜
微软研究院的首席研究经理 Suriya Gunasekar,隶属于负责开发 Phi 系列模型的 ‘AGI 物理’ 团队,重点介绍了这项工作的核心原则。
这次,微软 Phi 团队专注于后期训练阶段,并推出了 Phi-4-reasoning(仅使用 SFT)和 Phi-4-reasoning-plus(SFT+ 少量 RL)。
两者都是 14B 模型,在推理和通用任务基准测试中都表现出了强大的能力。
这项工作的核心在于提示选择以及对可转移、自我改进的推理技能的实验探索。
在训练过程中有两个令人惊讶的发现:
首先,只要使用少量领域训练的长链推理 (CoT) 轨迹,Phi-4 就可以在调度、迷宫求解(没有视觉输入)、IFEva、FlenQA、KITAB(基于查找的问答)和内部 PhiBench 等多个任务中实现显着的性能提升;
其次,即使仅使用 6,000 个数学示例进行最少的 RL 训练,该模型在某些基准测试中的性能也会显着提高,最高提高 10%(但 token 使用量增加了约 1.5 倍),并且在 RL 阶段也观察到了技能的跨领域转移。
换句话说,与 OpenAI 和 Google 等主要竞争对手相比,微软 Phi-4 推理系列展示了新的可能性:小型模型可以通过使用高质量的数据和精细的训练策略,在特定任务中匹配甚至超越大型模型。
核心方法
推理模型 Phi-4-reasoning 具有 140 亿个参数,并在复杂的推理任务中表现出色。
该模型基于 Phi-4 进行监督式微调训练,使用一组精心挑选的 ‘可教授’ 提示,这些提示既具有适当的复杂性又具有多样性;在训练过程中,o3-mini 生成的推理示例用作参考。
Phi-4-reasoning 可以生成详细的推理链,并在推理过程中充分利用计算资源。
在此基础上,微软进一步开发了 Phi-4-reasoning-plus。
它在原始模型的基础上通过一小阶段基于结果的强化学习进行增强,并生成更长、更强大的推理链。
研究表明,精心设计的 SFT 数据集 可以显着提高推理语言模型的效果,并且强化学习 (RL) 可以在此基础上进一步放大这种改进。
在 SFT 实验中,即使在这种相对简单的生成设置中,仔细选择和严格过滤种子问题 仍然是模型成功的关键。
他们对整个训练数据集进行了严格的去污过程,以确保它不包含与广泛使用的推理或通用基准问题高度重叠的数据,包括本报告中未提及的一些基准。
已去污的基准测试的完整列表如下:
- 数学与推理: AIME-2024、MATH、GPQA、OmniMATH、GSM8k
- 编程: LiveCodeBench、Codeforces、HumanEval、MBPP
- 问答与常识: SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、OpenBookQA、PIQA、WinoGrande
- 其他评估任务: SWE-Bench Verified、ArenaHard、MT-Bench、PhiBench
通过使用 140 亿参数的 Phi-4 模型进行监督式微调 (SFT),研究人员获得了 Phi-4-reasoning,在此之前没有任何强化学习。
SFT 的目标是提炼基础模型中包含的结构化推理能力。
Phi-4-reasoning 的架构与 Phi-4 模型的架构相同,但有两个关键修改:
- 推理 tokens: 基础模型中的两个占位符 tokens 被重用为 和 tokens,用于标记推理(’思考’)过程的开始和结束。
- 增加 Token 长度: 基础模型 (Phi-4) 最初支持的最大 token 长度为 16K。为了容纳额外的推理 tokens,RoPE 的基本频率翻了一番,并且该模型在最大 token 长度为 32K 的情况下进行了训练。
他们使用合成方法生成了大量的链式思考推理示例。
使用的 SFT 数据集包含超过 140 万个提示-响应对,总计 83 亿个独特的 tokens,涵盖数学和编程等推理领域,以及用于安全和负责任 AI 的对齐数据。
图 4a 显示了整个 SFT 迭代过程中关键指标的变化。
在训练的早期,该模型开始使用显式的 ‘思考’ tokens,这表明该模型迅速学习了这种浅层结构化格式。
然而,如图 4a 所示,链式思考模块的有效性和模型的推理能力在整个训练过程中都在提高,这表明该模型不仅仅是复制格式,而实际上是在学习推理技能。
有趣的是,与强化学习不同,研究人员没有看到在 SFT 过程中响应长度的增加。
事实上,如图 4b 所示,平均响应长度略有下降。
这表明随着训练的进行,该模型正在学习更有效地利用其 token 预算。
为了系统地评估不同的训练策略,他们使用了一个固定的基准 - AIME 2024 和 GPQA diamond - 作为进展的指标。
总的来说,实验方法可以分为两个阶段:探索和扩展。
在探索阶段,研究人员使用较短的训练周期和有限的数据源和领域来快速迭代和提取稳健的训练方法。
在随后的扩展阶段,研究人员总结了早期风险降低实验的结果,并最终确定了 SFT 设置。
图 5 总结了这一进展,重点介绍了几个关键设计选择的消融实验。
图 5 显示了 Phi-4-reasoning 监督式微调 (SFT) 实验周期的高级概述,包括探索和扩展阶段,使用一些示例实验来表示。每个点簇代表特定训练设计选择的实验结果。
图 7 显示了 GRPO 训练过程中 Phi-4-reasoning-plus 模型的关键发现。
从监督式微调 (SFT) 基础模型 Phi-4-reasoning 开始,仅 90 步的 GRPO 训练就使 AIME 性能提高了 10% 以上(图 7a)。
继续增加训练步骤并没有带来额外的好处,这表明强大的 SFT 模型的潜力接近性能上限。应该注意的是,GRPO 训练中的输出被限制在 31k tokens 内,这客观上限制了 GRPO 的优化空间。
如图 7c 所示,响应长度与 AIME 性能密切相关,而奖励分数与 AIME 分数之间的相关性较弱。这种响应长度增长效应是 GRPO 训练的预期效果 - 该模型通过增加 ‘思考时间’ 来提高其推理能力。
图 7d 进一步揭示了由于奖励模型的设计,错误答案的生成长度比正确答案的生成长度增长得更快(当模型当前答案错误时,系统会鼓励它思考更长的时间)。
事实上,仅基于响应长度(尤其是显着超过中位数的长响应)执行拒绝采样可能会进一步提高 GRPO 性能。
如图 7d 所示,训练过程中较短响应(长度位于底部 25% 分位数)的增长趋势与正确答案的平均长度相似,而错误答案的长度更接近整体响应长度的 75% 分位数。
这种差异化现象表明,基于长度的拒绝采样可以通过抑制过长的不正确输出来提高模型效率。