微软发布Phi-4-multimodal:设备端AI的紧凑型引擎

Phi系列扩展:引入多模态功能

微软推出了一个专为在设备上直接处理语音、视觉和文本而设计的全新AI模型,与之前的模型相比,该模型显著降低了计算需求。这一进展标志着生成式AI领域的持续转变,创新不再仅仅集中于部署在庞大数据中心的大型语言模型(LLMs)。一场并行且同样重要的演进正在进行,其核心是打造能够在资源有限的设备上高效运行的小型语言模型(SLMs)。这些设备包括移动电话、笔记本电脑以及各种边缘计算硬件。

微软对这一新兴的SLM领域的贡献是Phi系列,这是一套紧凑型模型。Phi的第四代最初于12月推出,现在,微软正在通过两个重要的新增功能来扩充产品线:Phi-4-multimodalPhi-4-mini。与其同系列产品一致,这些新模型将通过Azure AI Foundry、Hugging Face和Nvidia API Catalog轻松获取,所有这些都遵循宽松的MIT许可。

Phi-4-multimodal尤其引人注目。它是一个56亿参数的模型,利用了一种称为“mixture-of-LoRAs”(低秩自适应)的复杂技术。这种方法使模型能够同时处理语音、视觉输入和文本数据。LoRAs代表了一种新颖的方法,用于提高大型语言模型在特定任务中的性能,从而避免了在所有参数上进行广泛的微调。相反,使用LoRA的开发人员策略性地将少量新权重插入模型中。只有这些新引入的权重才会进行训练,从而实现更快、更节省内存的过程。结果是得到一系列更轻量级的模型,这些模型更易于存储、共享和部署。

这种效率的意义是重大的。Phi-4-multimodal实现了低延迟推理——这意味着它可以非常快速地处理信息并提供响应——同时针对设备端执行进行了优化。这转化为计算开销的显著降低,使得在以前缺乏必要处理能力的设备上运行复杂的AI应用程序成为可能。

潜在用例:从智能手机到金融服务

Phi-4-multimodal的潜在应用是多样化且影响深远的。想象一下,该模型可以在智能手机上无缝运行,为车辆中的高级功能提供支持,或驱动轻量级企业应用程序。一个引人注目的例子是多语言金融服务应用程序,它能够理解和响应各种语言的用户查询,处理文档等视觉数据,并且所有这些都在用户的设备上高效运行。

行业分析师认识到Phi-4-multimodal的变革潜力。它被认为是开发人员向前迈出的重要一步,特别是那些专注于为移动设备或计算资源受限的环境创建AI驱动应用程序的开发人员。

Forrester副总裁兼首席分析师Charlie Dai强调了该模型将文本、图像和音频处理与强大的推理能力相结合的能力。他强调,这种组合增强了AI应用程序,为开发人员和企业提供了“多功能、高效和可扩展的解决方案”。

Everest Group的合伙人Yugal Joshi承认该模型适用于在计算受限的环境中部署。虽然他指出移动设备可能不是所有生成式AI用例的理想平台,但他认为新的SLM反映了微软从DeepSeek中汲取灵感,DeepSeek是另一项旨在最大限度地减少对大规模计算基础设施依赖的计划。

基准测试性能:优势和增长领域

在基准测试性能方面,与Gemini-2.0-Flash和GPT-4o-realtime-preview等模型相比,Phi-4-multimodal在语音问答(QA)任务中表现出性能差距。微软承认,Phi-4模型的较小尺寸本身限制了它们保留用于问答的事实知识的能力。然而,该公司强调正在努力在模型的未来迭代中增强此功能。

尽管如此,Phi-4-multimodal在其他领域表现出令人印象深刻的优势。值得注意的是,它在涉及数学和科学推理、光学字符识别(OCR)和视觉科学推理的任务中优于几个流行的LLM,包括Gemini-2.0-Flash Lite和Claude-3.5-Sonnet。这些是广泛应用的关键能力,从教育软件到科学研究工具。

Phi-4-mini:紧凑的尺寸,令人印象深刻的性能

除了Phi-4-multimodal,微软还推出了Phi-4-mini。这个模型更加紧凑,拥有38亿个参数。它基于密集的仅解码器transformer架构,并支持高达128,000个token的序列。

微软生成式AI副总裁Weizhu Chen强调了Phi-4-mini尽管尺寸小但性能卓越。在一篇详细介绍新模型的博客文章中,他指出Phi-4-mini“在基于文本的任务中继续优于较大的模型,包括推理、数学、编码、指令跟随和函数调用”。这突出了即使是更小的模型也能在特定应用领域提供重要价值的潜力。

IBM的Granite更新:增强推理能力

SLM的进步不仅限于微软。IBM还发布了对其Granite基础模型系列的更新,推出了Granite 3.2 2B和8B模型。这些新模型具有改进的“思维链”能力,这是增强推理能力的一个关键方面。这种改进使模型能够实现优于其前身的性能。

此外,IBM还推出了一种新的视觉语言模型(VLM),专门为文档理解任务而设计。该VLM在DocVQA、ChartQA、AI2D和OCRBench1等基准测试中表现出与Llama 3.2 11B和Pixtral 12B等更大的模型相当或更优的性能。这突出了小型、专用模型在特定领域提供有竞争力性能的日益增长的趋势。

设备端AI的未来:范式转变

Phi-4-multimodal和Phi-4-mini的推出,以及IBM的Granite更新,代表着朝着强大AI功能在各种设备上广泛可用的未来迈出了重要一步。这种转变对各个行业和应用具有深远的影响:

  • AI的民主化: 更小、更高效的模型使AI能够被更广泛的开发人员和用户使用,而不仅仅是那些能够访问大量计算资源的人。
  • 增强的隐私和安全性: 设备端处理减少了将敏感数据传输到云端的需求,从而增强了隐私和安全性。
  • 改进的响应能力和延迟: 本地处理消除了与基于云的AI相关的延迟,从而实现更快的响应时间和更无缝的用户体验。
  • 离线功能: 设备端AI即使在没有互联网连接的情况下也可以运行,为远程或低连接环境中的应用程序开辟了新的可能性。
  • 降低能耗: 较小的模型需要较少的能量来运行,有助于延长移动设备的电池寿命并减少对环境的影响。
  • 边缘计算应用: 这包括自动驾驶、智能制造和远程医疗等领域。

SLM的进步正在推动AI领域的范式转变。虽然大型语言模型继续发挥着至关重要的作用,但像Phi系列中那样紧凑、高效的模型的兴起正在为AI更加普及、可访问和融入我们日常生活的未来铺平道路。重点正在从单纯的规模转向效率、专业化以及直接在我们每天使用的设备上提供强大AI功能的能力。这种趋势可能会加速,从而导致更多创新应用和AI在各个领域的更广泛采用。在资源受限的设备上执行复杂任务(如理解多模态输入)的能力开启了人工智能发展的新篇章。
创建越来越智能和强大的SLM的竞赛正在进行中,微软的新产品是向前迈出的一大步。