微软Phi-4-Reasoning:小模型也能像巨人一样推理!

微软Phi-4 Reasoning 推出紧凑、开放权重(MIT许可)、快速、高效的SLM,能够进行高级推理。

微软虽然是OpenAI的特权合作伙伴,并与大多数参与者合作将他们的AI模型集成到 Azure AI Foundry 中,但并没有回避追求自己的技术途径。这包括在神经网络核心方面的创新,例如基于Trit的有趣的BitNet b1.58模型、其自身的开源SLM,甚至是被严密封锁的前沿模型(Project MAI-1)。

在推出其小型AI模型(SLM)Phi-3一年后,以及在推出第四代多模态SLM(Phi-4-Multimodal)和微型模型(Phi-4-mini)两个月后,微软宣布了其最新一代SLM的三个新变体:Phi-4-reasoningPhi-4-reasoning-plusPhi-4-mini-reasoning

这些“推理集成”版本于2025年4月30日发布,扩展了紧凑型模型的开放权重产品,适用于需要保持低延迟同时又需要复杂推理的开发人员。

微软工程师制造“推理” SLM 的核心方法是:依赖 OpenAI 的推理链 o3-mini 进行细粒度监督 (SFT),并利用强化学习 (RL) 来实现“plus”版本。“通过提炼、强化学习和高质量数据,这些模型协调了尺寸和性能,”微软解释说。

小而 gifted

市场上各种领先基准测试的结果足以让竞争对手黯然失色:通常只有140亿个参数的 Phi-4-reasoning 在 AIME 2025、MMLU-Pro 或 HumanEval-Plus 系列上优于 DeepSeek-R1-Distill-Llama-70B(700亿个参数),并且接近完整的 DeepSeek-R1 模型(6710亿个参数)!Phi-4-reasoning-plus 变体在相同的140亿个参数上对齐,但使用1.5倍以上的token进行训练,几乎与 OpenAI 的 o3-mini 在 OmniMath 上的得分相匹配!作为参考,Phi-4-reasoning 受益于经典的128,000 token上下文窗口,该窗口已扩展到 Phi-4-reasoning-plus 版本的256,000 token。

Phi-4-mini-reasoning 专为嵌入式系统而设计,显示出38亿个参数,一组由 DeepSeek-R1 生成的100万个数学问题的合成数据集,并在 Math-500 上实现了 o1-mini 性能,同时超越了几个具有7到80亿个参数的模型。凭借其超小的尺寸,该模型非常适合本地执行,包括在移动设备上,并且可以满足对近乎即时响应的需求。它特别适合教育用途和本地聊天机器人。

适用于各种用途的开放模型

在部署方面,CISOs 会发现这些模型已经针对 Copilot+ PC 进行了优化:NPU 变体“Phi Silica”已预加载到内存中,并提供近乎即时的响应时间,从而保证了与业务应用程序的节能共存。Windows API 允许将离线生成集成到 Outlook 或内部工具中。

在安全性方面,微软声明其管道与其责任原则(问责制、公平性、可靠性、安全性和包容性)保持一致。这些模型经过后训练,结合了来自公共和内部“有益性/无害性”导向集的 SFT、直接偏好优化和 RLHF。微软还发布了其模型的“卡片”,其中详细说明了剩余的局限性和缓解措施。

这三个模型现在可在 Azure AI Foundry、Hugging Face 和 GitHub Models 上使用,并以非常宽松的 MIT 许可发布,从而为本地推理以及混合云部署开辟了道路。对于安全和架构团队而言,这种新一代 SLM 为大型 LLM 提供了一种可靠的替代方案,降低了 TCO,可以在本地以及边缘执行,并增加了对数据的控制。这些模型证明了 SLM 在一年内取得的令人难以置信的进步,以及它们在寻求更便宜、更节能和资源节约型 AI 的领域中的惊人潜力。

深入了解 Phi-4 的推理能力

Phi-4 系列模型的问世代表了小型语言模型 (SLM) 发展的一个重要进步。这些模型与众不同之处在于其增强的推理能力,这是通过创新的训练技术和对高质量数据的关注来实现的。微软对开源原则的承诺进一步民主化了对这些强大工具的访问,使开发人员能够将高级 AI 功能集成到各种应用程序中。

理解架构

Phi-4 模型建立在transformer架构之上,这是一种经过验证的自然语言处理框架。然而,微软实施了几项关键创新来优化模型以执行推理任务。

  • 细粒度监督 (SFT): 这些模型使用一种称为细粒度监督 (SFT) 的技术进行训练,该技术涉及从 OpenAI 的 o3-mini 模型生成的详细推理链中学习。这使 Phi-4 模型能够学习复杂推理过程所涉及的步骤。
  • 强化学习 (RL): Phi-4 模型的“plus”变体 Phi-4-reasoning-plus 利用强化学习 (RL) 来进一步增强其推理能力。RL 涉及训练模型以最大化奖励信号,在这种情况下,奖励信号基于其推理的准确性和效率。
  • 提炼: 采用提炼技术将知识从更大、更复杂的模型转移到更小的 Phi-4 模型。这使 SLM 能够实现与更大模型相当的性能水平,同时保持其紧凑的尺寸和效率。

性能基准

Phi-4 模型在各种推理基准测试中表现出了令人印象深刻的性能,在某些情况下甚至超过了更大的模型。例如,只有 140 亿个参数的 Phi-4-reasoning 在几个具有挑战性的数据集上优于 DeepSeek-R1-Distill-Llama-70B(700 亿个参数),包括 AIME 2025、MMLU-Pro 和 HumanEval-Plus。这突出了 Phi-4 的架构和训练技术的效率和有效性。

经过 1.5 倍以上 token 训练的 Phi-4-reasoning-plus 变体在 OmniMath 基准测试中取得了接近 OpenAI o3-mini 的分数,证明了它能够解决复杂的数学推理问题。

应用和用例

Phi-4 模型非常适合各种需要高级推理能力的应用。

  • 教育工具: Phi-4-mini-reasoning 模型具有体积小、性能高等特点,非常适合教育应用。它可用于创建交互式学习工具,为学生提供个性化的反馈和支持。
  • 本地聊天机器人: Phi-4 模型可用于构建本地聊天机器人,为用户提供对信息和支持的即时访问。它们的体积小,可以部署在移动设备和其他资源受限的环境中。
  • Copilot+ PC: Phi-4 模型针对 Copilot+ PC 进行了优化,为用户提供无缝的 AI 体验。“Phi Silica”变体已预加载到内存中,并提供近乎即时的响应时间。
  • 离线生成: Windows API 允许将离线生成集成到 Outlook 或内部工具中,使用户即使在未连接到 Internet 的情况下也可以访问 AI 功能。

安全与责任

微软致力于以负责任和合乎道德的方式开发和部署 AI 模型。Phi-4 模型也不例外。

  • 责任原则: 微软的 AI 开发管道与其责任原则保持一致,其中包括问责制、公平性、可靠性、安全性和包容性。
  • 后训练: Phi-4 模型使用 SFT、直接偏好优化和来自公共和内部“有益性/无害性”导向数据集的 RLHF 进行后训练。这有助于确保模型安全可靠。
  • 模型卡片: 微软发布其模型的“卡片”,其中详细说明了剩余的局限性和缓解措施。这为用户提供了透明度,并允许他们就如何使用这些模型做出明智的决定。

SLM 的未来

Phi-4 模型代表了小型语言模型 (SLM) 发展的一个重要进步。它们增强的推理能力,加上它们的体积小和效率,使它们成为许多应用中大型语言模型 (LLM) 的引人注目的替代方案。

随着 SLM 的不断改进,它们可能会在 AI 格局中发挥越来越重要的作用。它们能够在资源受限的设备上运行并提供快速、高效的性能,这使得它们非常适合各种应用,从教育工具到本地聊天机器人到边缘计算设备。

微软对开源原则和负责任的 AI 开发的承诺进一步将 Phi-4 模型定位为 AI 社区的宝贵资源。通过民主化对这些强大工具的访问,微软正在使开发人员能够创建创新且具有影响力的应用程序,从而使整个社会受益。

深入了解技术方面

深入研究 Phi-4 架构和训练的细节,揭示了使这些 SLM 能够实现如此令人印象深刻的推理能力的创新技术。精心策划的数据集、复杂的训练算法以及对效率的关注相结合,产生了一系列既强大又实用的模型。

数据整理和准备

任何机器学习模型的成功都取决于训练数据的质量和相关性。微软投入了大量精力来整理和准备用于训练 Phi-4 模型的数据集。

  • 来自 OpenAI 的 o3-mini 的推理链: 这些模型利用 OpenAI 的 o3-mini 模型生成的推理链来学习复杂推理过程所涉及的步骤。这些链为 SLM 提供了详细的路线图,使它们能够更深入地了解底层逻辑。
  • 合成数学问题: Phi-4-mini-reasoning 模型在由 DeepSeek-R1 生成的 100 万个数学问题的合成数据集上进行训练。此数据集提供了各种各样的数学挑战,使模型能够培养强大的解决问题的能力。
  • 有益性/无害性数据集: 这些模型使用旨在促进有益性和无害性的数据集进行后训练。这有助于确保模型生成安全且负责任的输出。

训练算法

Phi-4 模型使用监督学习、强化学习和提炼相结合的方式进行训练。这些技术协同工作,以优化模型以执行推理任务,并确保它们既准确又高效。

  • 监督微调 (SFT): SFT 用于在 OpenAI 的 o3-mini 模型生成的推理链上微调模型。这使模型能够学习复杂推理过程特有的特定模式和关系。
  • 强化学习 (RL): RL 用于训练 Phi-4-reasoning-plus 模型,以最大化基于其推理的准确性和效率的奖励信号。这鼓励模型制定有效且计算高效的解决问题策略。
  • 提炼: 提炼用于将知识从更大、更复杂的模型转移到更小的 Phi-4 模型。这使 SLM 能够实现与更大模型相当的性能水平,同时保持其紧凑的尺寸和效率。

效率优化

开发 Phi-4 模型的一个关键目标是优化它们的效率。这反映在其设计和训练的几个方面。

  • 紧凑架构: Phi-4 模型采用紧凑架构设计,最大限度地减少了所需的参数数量。这降低了运行模型的计算成本,并使其非常适合部署在资源受限的设备上。
  • 量化: 量化用于减少模型的内存占用并提高其推理速度。这涉及使用更少的位来表示模型的参数,这可以显着降低运行模型的计算成本。
  • 硬件加速: Phi-4 模型针对各种平台(包括 CPU、GPU 和 NPU)上的硬件加速进行了优化。这使它们能够在各种设备上实现最佳性能。

对 AI 未来的影响

Phi-4 模型代表了 AI 发展的一个重要进步,其影响远远超出了为其设计的特定应用。它们能够以相对较小的尺寸和计算资源实现高性能,这为在各种环境中部署 AI 开辟了新的可能性。

AI 的民主化

Phi-4 模型证明了可以在不需要大量计算资源或访问专有数据集的情况下实现强大的 AI 功能。这使 AI 的访问民主化,使开发人员和研究人员即使在资源有限的情况下也能创建创新应用。

边缘计算

Phi-4 模型的体积小和效率使其非常适合边缘计算应用。这允许将 AI 部署在更靠近数据源的位置,从而减少延迟并提高响应能力。边缘计算有可能彻底改变各个行业,从制造业到医疗保健到运输业。

个性化 AI

Phi-4 模型可以进行定制和调整,以满足个人用户或组织的特定需求。这允许创建根据每个用户的独特需求量身定制的个性化 AI 体验。个性化 AI 有可能提高生产力、增强学习并改善整体福祉。

可持续 AI

Phi-4 模型是大型语言模型的更可持续替代方案,需要更少的能量和计算资源。这对于减少 AI 的环境影响并确保以负责任和可持续的方式部署 AI 至关重要。

微软 Phi-4-Reasoning 模型不仅仅是不断发展的 AI 世界中的又一次迭代;它们是一种范式转变。它们表明,智能不仅仅是尺寸和计算能力的函数,而且可以通过巧妙的设计、对数据的精心策划和创新的训练技术来实现。随着这些模型的不断发展,它们将有望为 AI 开辟新的可能性,并改变我们与技术交互的方式。