微軟推出Phi-4-multimodal:裝置端AI的精巧巨擘

Phi 家族擴展:引入多模態功能

Microsoft 在這個蓬勃發展的 SLM 領域的貢獻是 Phi 家族,這是一套精巧的模型。Phi 的第四代最初於 12 月推出,現在,Microsoft 正在增加兩個重要的新成員:Phi-4-multimodalPhi-4-mini。與其同系列產品一致,這些新模型將可在 Azure AI Foundry、Hugging Face 和 Nvidia API Catalog 上輕鬆取得,並且都採用寬鬆的 MIT 授權。

Phi-4-multimodal 尤其突出。它是一個 56 億參數的模型,利用一種稱為 ‘mixture-of-LoRAs’ (Low-Rank Adaptations) 的複雜技術。這種方法使模型能夠同時處理語音、視覺輸入和文本數據。LoRAs 代表了一種新穎的方法,用於提高大型語言模型在特定任務中的性能,而無需在所有參數上進行廣泛的微調。相反,使用 LoRA 的開發人員策略性地將少量新權重插入模型中。只有這些新引入的權重會進行訓練,從而實現更快、更節省記憶體的過程。結果是產生一系列更輕量級的模型,這些模型更容易儲存、共享和部署。

這種效率的影響是巨大的。Phi-4-multimodal 實現了低延遲推理 – 意味著它可以非常快速地處理信息並提供響應 – 同時針對裝置端執行進行了優化。這意味著計算開銷大幅減少,使得在以前缺乏必要處理能力的設備上運行複雜的 AI 應用程式成為可能。

潛在應用案例:從智慧型手機到金融服務

Phi-4-multimodal 的潛在應用廣泛且深遠。想像一下,該模型可以在智慧型手機上無縫運行,為車輛中的進階功能提供支援,或驅動輕量級企業應用程式。一個引人注目的例子是多語言金融服務應用程式,它能夠理解和回應各種語言的用戶查詢,處理文件等視覺數據,並且所有這些都在用戶的設備上高效運行。

產業分析師正在認識到 Phi-4-multimodal 的變革潛力。它被認為是開發人員向前邁出的重要一步,特別是那些專注於為行動裝置或計算資源受限的環境創建 AI 驅動應用程式的開發人員。

Forrester 副總裁兼首席分析師 Charlie Dai 強調了該模型整合文本、圖像和音訊處理以及強大推理能力的能力。他強調,這種組合增強了 AI 應用程式,為開發人員和企業提供了「多功能、高效且可擴展的解決方案」。

Everest Group 的合夥人 Yugal Joshi 承認該模型適合在計算受限的環境中部署。雖然他指出行動裝置可能不是所有生成式 AI 使用案例的理想平台,但他認為新的 SLM 反映了 Microsoft 從 DeepSeek 中汲取靈感,DeepSeek 是另一項旨在最大限度減少對大規模計算基礎設施依賴的計劃。

基準測試性能:優勢和成長領域

在基準測試性能方面,Phi-4-multimodal 與 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等模型相比存在性能差距,特別是在語音問答 (QA) 任務中。Microsoft 承認 Phi-4 模型的較小尺寸本身限制了它們保留事實知識以進行問答的能力。然而,該公司強調正在持續努力,以增強該模型未來迭代中的這項能力。

儘管如此,Phi-4-multimodal 在其他領域展現出令人印象深刻的優勢。值得注意的是,它在涉及數學和科學推理、光學字符識別 (OCR) 和視覺科學推理的任務中優於多個流行的 LLM,包括 Gemini-2.0-Flash Lite 和 Claude-3.5-Sonnet。這些是廣泛應用程式的關鍵功能,從教育軟體到科學研究工具。

Phi-4-mini:精巧尺寸,令人印象深刻的性能

除了 Phi-4-multimodal,Microsoft 還推出了 Phi-4-mini。這個模型更加精巧,擁有 38 億個參數。它基於密集的僅解碼器 transformer 架構,並支持長達 128,000 個 token 的序列。

Microsoft 生成式 AI 副總裁 Weizhu Chen 強調了 Phi-4-mini 儘管尺寸小,但性能卻非常出色。在一篇詳細介紹新模型的部落格文章中,他指出 Phi-4-mini「在基於文本的任務中繼續優於較大的模型,包括推理、數學、編碼、指令遵循和函數調用。」這強調了即使是更小的模型也能在特定應用領域提供重要價值的潛力。

IBM 的 Granite 更新:增強推理能力

SLM 的進步不僅限於 Microsoft。IBM 還發布了其 Granite 基礎模型系列的更新,推出了 Granite 3.2 2B 和 8B 模型。這些新模型具有改進的「思維鏈」能力,這是增強推理能力的關鍵方面。這種改進使模型能夠實現優於其前身的性能。

此外,IBM 還推出了一種專為文件理解任務設計的新視覺語言模型 (VLM)。在 DocVQA、ChartQA、AI2D 和 OCRBench1 等基準測試中,此 VLM 展現出的性能與 Llama 3.2 11B 和 Pixtral 12B 等更大的模型相當或更優。這突顯了小型、專業化模型在特定領域提供具有競爭力性能的日益增長的趨勢。

裝置端 AI 的未來:範式轉移

Phi-4-multimodal 和 Phi-4-mini 的推出,以及 IBM 的 Granite 更新,代表著朝著強大 AI 功能在各種裝置上隨手可得的未來邁出了重要一步。這種轉變對各個行業和應用具有深遠的影響:

  • AI 的民主化: 更小、更高效的模型使更廣泛的開發人員和用戶可以使用 AI,而不僅僅是那些可以使用大量計算資源的人。
  • 增強的隱私和安全: 裝置端處理減少了將敏感數據傳輸到雲端的需求,從而增強了隱私和安全性。
  • 改進的響應能力和延遲: 本地處理消除了與基於雲端的 AI 相關的延遲,從而縮短了響應時間並提供了更無縫的用戶體驗。
  • 離線功能: 裝置端 AI 即使在沒有互聯網連接的情況下也能運行,為偏遠或低連接環境中的應用開闢了新的可能性。
  • 降低能耗: 較小的模型運行所需的能量更少,有助於延長行動裝置的電池壽命並減少對環境的影響。
  • 邊緣計算應用: 這包括自動駕駛、智慧製造和遠端醫療等領域。

SLM 的進步正在推動 AI 領域的範式轉移。雖然大型語言模型繼續發揮著至關重要的作用,但像 Phi 家族中那樣精巧、高效的模型的興起正在為 AI 更加普及、可訪問和融入我們日常生活的未來鋪平道路。重點正在從單純的規模轉向效率、專業化以及直接在我們每天使用的設備上提供強大 AI 功能的能力。這種趨勢可能會加速,從而在各個領域帶來更多創新的應用和更廣泛的 AI 採用。在資源受限的設備上執行複雜任務(如理解多模態輸入)的能力開啟了人工智慧發展的新篇章。
創建越來越智慧和強大的 SLM 的競賽正在進行中,而 Microsoft 的新產品是向前邁出的一大步。