在推出基于 Azure AI Foundry 的 Phi-3 系列小型语言模型 (SLM) 一年后,微软发布了其下一代模型:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些创新标志着 SLM 的一个转折点,重新定义了紧凑和高效 AI 所能达到的目标。
Phi-Reasoning 模型时代来临
新的 Phi-reasoning 模型旨在利用推理时扩展来处理需要多步骤分解和内部反思的复杂任务。这些模型在数学推理方面表现出卓越的能力,将自己确立为类似代理应用程序的基础,这些应用程序可以处理复杂和多方面的任务。从历史上看,这种能力是大型模型独有的。Phi-reasoning 模型引入了一类新的 SLM,它们利用蒸馏、强化学习和高质量数据来平衡大小和性能。它们紧凑的尺寸使它们适用于低延迟环境,而其强大的推理能力可与大型模型相媲美。这种效率和能力的结合使资源受限的设备也能有效地执行复杂的推理任务。
Phi-4-Reasoning 和 Phi-4-Reasoning-Plus:深入了解
Phi-4-Reasoning:开放权重推理模型
Phi-4-reasoning 作为一个拥有 140 亿参数的开放权重推理模型脱颖而出。它旨在与大型模型在复杂推理任务中竞争。该模型通过在从 OpenAI 的 o3-mini 中精心策划的推理示例上对 Phi-4 进行监督微调来训练。Phi-4-reasoning 生成详细的推理链,有效地利用推理期间的额外计算时间。这一成就强调了精确的数据管理和高质量的合成数据集如何使较小的模型能够与较大的模型相媲美。
Phi-4-Reasoning-Plus:利用强化学习增强推理
在 Phi-4-reasoning 的基础上,Phi-4-reasoning-plus 通过强化学习进行进一步训练,以利用推理期间的额外计算时间。它处理的 token 数量是 Phi-4-reasoning 的 1.5 倍,从而提高了准确性。
性能基准
尽管尺寸明显较小,但 Phi-4-reasoning 和 Phi-4-reasoning-plus 在各种基准测试中均优于 OpenAI 的 o1-mini 和 DeepSeek-R1-Distill-Llama-70B,包括数学推理和博士级别的科学探究。令人印象深刻的是,它们甚至在 AIME 2025 测试中超过了完整的 DeepSeek-R1 模型(拥有 6710 亿个参数),该测试是 2025 年美国数学奥林匹克竞赛的资格赛。这两个模型都可以在 Azure AI Foundry 和 Hugging Face 上轻松访问。
Phi-4-Mini-Reasoning:适用于有限环境的紧凑型动力源
Phi-4-mini-reasoning 专门设计用于满足对紧凑型推理模型的需求。这种基于 Transformer 的语言模型针对数学推理进行了优化,并在计算能力或延迟受到限制的环境中提供高质量的逐步问题解决能力。它使用由 Deepseek-R1 模型生成的合成数据进行微调,有效地平衡了效率和高级推理能力。这使其成为教育应用、嵌入式辅导系统以及边缘或移动系统上的轻量级部署的理想选择。该模型接受了超过一百万个不同的数学问题的训练,难度范围从中等到博士级别,确保了其在各种教育环境中的多功能性和有效性。
Phi 的实际应用:拓展视野
在过去的一年中,Phi 的发展不断突破质量相对于尺寸的界限,该系列不断扩展,以涵盖针对各种需求量身定制的新功能。这些模型可以在各种 Windows 11 设备上的 CPU 和 GPU 上本地运行,从而为具有不同硬件配置的用户提供灵活性和可访问性。
与 Copilot+ PC 集成:AI 赋能计算的新时代
Phi 模型是 Copilot+ PC 的组成部分,利用了 NPU 优化的 Phi Silica 变体。这个由操作系统管理的高效 Phi 版本旨在预加载到内存中,提供快速响应时间和节能的 token 吞吐量。这使其能够与 PC 上的其他应用程序同时调用,从而增强多任务处理能力和整体系统性能。
实际应用
Phi 模型已应用于核心体验,例如 Click to Do,它为所有屏幕内容提供智能文本工具。它们也可作为开发人员 API 使用,以便无缝集成到应用程序中。这些模型目前正在 Outlook 等各种生产力应用程序中使用,在这些应用程序中,它们提供离线 Copilot 摘要功能。Phi-4-reasoning 和 Phi-4-mini-reasoning 模型利用 Phi Silica 的低位优化,并将很快可在 Copilot+ PC NPU 上运行。
微软对负责任的 AI 和安全的承诺
在微软,负责任的 AI 是一项基本原则,它指导着 AI 系统的开发和部署,包括 Phi 模型。Phi 模型的开发符合微软 AI 原则:问责制、透明度、公平性、可靠性和安全性、隐私和安全以及包容性。Phi 系列模型采用强大的训练后安全方法,利用有监督的微调 (SFT)、直接偏好优化 (DPO) 和来自人类反馈的强化学习 (RLHF) 技术相结合的方式,以确保其负责任和合乎道德的使用。
Phi 模型的技术基础:详细剖析
微软的 Phi 模型代表了小型语言模型领域的一项重大进步,尤其是在它们能够以相对较少的参数执行复杂推理任务的能力方面。本节深入探讨了使这些模型能够实现如此令人印象深刻的性能的技术细节。
架构创新
Phi 模型基于 Transformer 架构,这是一种深度学习模型,彻底改变了自然语言处理。Transformer 擅长捕捉文本中的长程依赖关系,使模型能够理解语言的上下文和细微差别。
注意力机制: Transformer 架构的核心是注意力机制,它允许模型在生成输出时专注于输入中最相关的部分。这对于推理任务尤为重要,在推理任务中,模型需要识别关键信息和关系才能得出正确的结论。
缩放点积注意力: Phi 模型使用缩放点积注意力,这是注意力机制的改进版本,它包括一个缩放因子,以防止点积变得太大,这可能会导致训练期间的不稳定性。
多头注意力: 为了捕捉输入的不同方面,Phi 模型采用多头注意力,其中多个注意力机制并行运行。每个头专注于输入的不同子集,允许模型学习更复杂的表示。
前馈网络: 在注意力层之后,Transformer 架构包括进一步处理信息的前馈网络。这些网络由多层神经元组成,这些神经元学习从注意力输出中提取特征。
训练方法:多方面的方法
Phi 模型的训练涉及多种技术的结合,包括有监督的微调、强化学习和数据蒸馏。
有监督的微调 (SFT): 有监督的微调涉及在标记数据集上训练模型,其中输入是一个问题,输出是正确的答案。这有助于模型学习将特定输入与相应的输出相关联。
强化学习 (RL): 强化学习是一种技术,模型通过与环境交互并因其行为而获得奖励或惩罚来学习做出决策。在语言模型的上下文中,环境可以是一组规则或约束,奖励可以基于模型响应的准确性。
数据蒸馏: 数据蒸馏是一种技术,通过训练较小的模型来模仿较大、更复杂的模型的行为。这使得较小的模型能够实现与较大模型相当的性能,同时需要更少的资源。
数据管理:性能的基石
Phi 模型的性能在很大程度上依赖于用于训练的数据的质量。微软投入了大量精力来管理专门为推理任务设计的高质量数据集。
合成数据生成: 为了扩充可用数据,微软开发了生成模仿真实世界数据特征的合成数据的技术。这使得模型可以在更大、更多样化的数据集上进行训练,从而提高了它们的泛化能力。
数据过滤: 微软采用严格的数据过滤技术,以从训练数据集中删除嘈杂或不相关的数据。这确保了模型在干净准确的数据上进行训练,从而带来更好的性能。
数据增强: 数据增强技术用于通过对现有数据应用转换来增加训练数据集的多样性。这有助于模型更能适应输入中的变化。
优化技术:平衡效率和准确性
Phi 模型针对效率和准确性进行了优化,使其能够在资源受限的设备上运行而不会牺牲性能。
量化: 量化是一种减少模型参数精度的技术,从而减少模型的内存占用和计算要求。
剪枝: 剪枝是一种删除模型中不太重要的连接的技术,从而减少模型的大小和复杂性。
知识蒸馏: 知识蒸馏涉及将知识从较大、更复杂的模型转移到较小的模型。这使得较小的模型能够实现与较大模型相当的性能,同时需要更少的资源。
Phi Silica NPU:硬件-软件协同方法
微软的 Phi 模型旨在与 Phi Silica NPU(神经处理单元)紧密集成,这是一种专门的硬件加速器,针对深度学习工作负载进行了优化。
低位优化: Phi Silica NPU 支持低位优化,这允许模型以降低的精度运行,从而进一步减少其内存占用和计算要求。
预加载到内存中: Phi 模型旨在预加载到内存中,这使它们能够快速有效地调用。
操作系统管理: Phi Silica NPU 由操作系统管理,这使其能够无缝集成到用户体验中。
总而言之,微软的 Phi 模型代表了小型语言模型领域的一项重大成就。通过结合创新的架构设计、严格的训练方法、精心的数据管理以及硬件-软件协同设计,微软创建了一系列既强大又高效的模型,从而实现了广泛的 AI 赋能应用程序。