Meta反擊:Llama 4以多模態與長文本進軍AI競技場

AI霸權的流沙

2025年初,人工智能領域經歷了一場劇烈的震盪。強大的開源語言推理模型 DeepSeek R1 的公開發布,不僅引入了一個新的參與者,更從根本上挑戰了既有的階層結構。報告指出,DeepSeek R1 的性能指標足以媲美,甚至在某些方面超越了包括 Meta Platforms 在內的美國科技巨頭投入巨資的研究實驗室所產出的成果。更令人震驚的是,這種強大的能力是以顯著較低的訓練成本實現的,這一消息在 Silicon Valley 引發了軒然大波,尤其是在 Meta 的內部。

對 Meta 而言,這樣一個強大且具成本效益的開源競爭者的出現,直接衝擊了其生成式 AI 策略的核心。該公司一直以 Llama 品牌發布日益強大的模型,力圖引領開源運動。其核心理念是為全球研發社群提供最先進的工具,促進創新,並期望將 Llama 建立為開源 AI 開發的事實標準。DeepSeek R1 的到來顯著提高了標準,迫使 Meta 進入一段密集的策略重新評估和加速開發時期。

Meta的回應:Llama 4家族登場

Meta 回應的高潮,伴隨著創辦人暨執行長 Mark Zuckerberg 的一項重大宣布而到來。該公司揭曉了其下一代 Llama 4 系列,這是一個模型家族,其設計不僅是為了追趕,更是為了推動開源 AI 能力的界限。即日起,此新家族的兩個成員已向全球開發者開放:

  • Llama 4 Maverick: 一個龐大的 4000 億參數模型。
  • Llama 4 Scout: 一個更敏捷,但仍然強大的 1090 億參數模型。

這些模型已開放直接下載,使研究人員和公司能夠立即開始使用、微調,並將它們整合到自己的應用程式中。

除了這些立即可用的模型,Meta 還透過預覽 Llama 4 Behemoth,讓人們得以一窺未來。顧名思義,這個模型代表了規模上的巨大飛躍,擁有驚人的 2 兆參數。然而,Meta 的官方通訊澄清,Behemoth 仍在進行密集的訓練過程,尚未提供公開發布的具體時間表。其目前的角色似乎是作為內部基準設定者,並可能作為「教師」模型,用於改進較小的架構。

定義性特徵:多模態與廣闊的上下文

Llama 4 系列引入了幾項使其脫穎而出的突破性功能。其中最重要的是固有的多模態能力。與先前可能附加了多模態功能的世代不同,Llama 4 模型是從頭開始在包含文本、影片和圖像的多樣化數據集上進行訓練的。因此,它們天生具備理解包含這些不同數據類型提示的能力,並能生成同樣橫跨文本、影片和圖像的回應。值得注意的是,初步的公告中並未提及音訊處理能力。

另一個引人注目的能力是新模型提供的顯著擴展的上下文窗口(context window)。上下文窗口指的是模型在單次互動中(包括輸入和輸出)可以處理的資訊量。Llama 4 大幅推升了這些限制:

  • Llama 4 Maverick: 具備 100 萬 token 的上下文窗口。這大約相當於同時處理約 1,500 個標準頁面的文本內容。
  • Llama 4 Scout: 擁有更令人印象深刻的 1000 萬 token 上下文窗口,能夠一次處理相當於約 15,000 頁文本的資訊。

這些巨大的上下文窗口為涉及長文件、龐大程式碼庫、冗長對話或詳細多輪分析的複雜任務開啟了新的可能性,而這些領域是先前模型常因記憶體限制而難以應對的。

架構基礎:專家混合(Mixture-of-Experts)方法

驅動所有三款 Llama 4 模型的是先進的**「專家混合」(Mixture-of-Experts, MoE)**架構。這種設計範式在開發大規模 AI 模型方面已獲得顯著關注。MoE 並非創建單一、龐大的神經網路,而是在一個更大的框架內結合了多個較小、專業化的網路——即「專家」。每個專家都被訓練來擅長特定的任務、主題,甚至是不同的數據模態(例如文本分析與圖像識別)。

MoE 架構內部的路由機制會將傳入的數據或查詢導向最相關的專家進行處理。這種方法提供了幾個優勢:

  1. 效率: 對於給定任務,僅需啟動必要的專家,使得推理(生成回應的過程)可能比啟動整個龐大模型更快且計算成本更低。
  2. 可擴展性: 理論上,透過增加更多專家或進一步訓練現有專家來擴展模型的能力更容易,而不必從頭重新訓練整個系統。
  3. 專業化: 允許在各個領域進行深度專業化,可能為特定類型的任務帶來更高品質的輸出。

Meta 為 Llama 4 家族採用 MoE 架構,符合行業趨勢,並強調了在尖端性能與計算效率之間取得平衡的重點,這對於旨在廣泛開源分發的模型尤其重要。

分發策略與開發重點

Meta 透過 Llama 4 的發布,再次強調其對開放取用的承諾。Llama 4 Scout 和 Llama 4 Maverick 均可立即用於自我託管(self-hosting),允許擁有必要計算資源的組織在自己的基礎設施上運行這些模型。這種方法提供了最大程度的控制權、客製化能力和數據隱私。

有趣的是,Meta 尚未宣布在其自有基礎設施上運行這些模型的官方託管 API 存取權或相關定價層級,這是 OpenAI 和 Anthropic 等競爭對手常用的營利策略。相反地,其初步重點完全放在:

  1. 開放下載: 免費提供模型權重。
  2. 平台整合: 將新的 Llama 4 功能無縫整合到 Meta 自家的面向消費者的產品中,包括 WhatsApp、Messenger、Instagram 及其網頁介面中的 Meta AI 功能。

此策略表明,Meta 旨在推動開源社群內的採用和創新,同時利用其尖端 AI 來增強其龐大的用戶生態系統。

所有三款 Llama 4 模型,特別是較大的 Maverick 和 Behemoth,其開發重點明確放在推理、編碼和逐步解決問題上。Meta 強調實施了客製化的訓練後優化流程,專門用於增強這些邏輯能力。雖然在推理方面很強大,但初步描述表明它們可能不會固有地展現出某些專為複雜推理任務設計的模型(例如某些 OpenAI 模型或 DeepSeek R1)所特有的明確「思維鏈」(chain-of-thought)過程。

其中一個特別值得注意的創新是 MetaP,這是在 Llama 4 專案期間開發的一項技術。該工具透過允許工程師在一個核心模型上設定超參數,然後從中有效地衍生出各種其他模型類型,有望簡化未來的模型開發,可能在訓練效率和成本節省方面帶來顯著收益。

基準測試巨頭:Llama 4 性能指標

在競爭激烈的人工智能領域,性能基準是衡量進步的通用語言。Meta 急於展示其新的 Llama 4 家族與既有行業領導者及先前 Llama 世代的比較情況。

Llama 4 Behemoth (2T 參數 - 預覽)

雖然仍在訓練中,Meta 分享了初步的基準測試結果,將 Behemoth 定位為頂級競爭者,聲稱其在幾個關鍵的推理和量化基準上超越了著名的模型,如 GPT-4.5、Google 的 Gemini 2.0 Pro 和 Anthropic 的 Claude Sonnet 3.7

  • MATH-500: 一個測試數學解題能力的具挑戰性基準。Behemoth 獲得 95.0 分。
  • GPQA Diamond: 衡量研究生級別問答能力。Behemoth 得分 73.7
  • MMLU Pro (Massive Multitask Language Understanding): 一個評估跨廣泛學科知識的綜合基準。Behemoth 達到 82.2

Llama 4 Maverick (400B 參數 - 現已可用)

定位為高性能多模態模型,Maverick 展示了強勁的成果,特別是與以多模態能力著稱的模型相比:

  • 在多個多模態推理基準上超越 GPT-4o 和 Gemini 2.0 Flash,包括:
    • ChartQA: 理解和推理圖表中呈現的數據(90.0 vs. GPT-4o 的 85.7)。
    • DocVQA: 基於文件圖像的問答(94.4 vs. GPT-4o 的 92.8)。
    • MathVista: 處理視覺呈現的數學問題。
    • MMMU: 評估大規模多模態理解的基準。
  • 展現出與 DeepSeek v3.1(一個 45.8B 參數模型)的競爭力,同時使用的活躍參數不到其一半(由於 MoE 架構,估計為 17B 活躍參數),突顯了其效率。
  • 獲得了強勁的 MMLU Pro 分數 80.5
  • Meta 還強調了其潛在的成本效益,估計推理成本在每百萬 token 0.19–0.49 美元之間,使強大的 AI 更加普及。

Llama 4 Scout (109B 參數 - 現已可用)

為效率和廣泛適用性而設計,Scout 在與同類模型的比較中毫不遜色:

  • 在多個基準上匹敵或超越 Mistral 3.1、Gemini 2.0 Flash-Lite 和 Gemma 3 等模型:
    • DocVQA: 獲得 94.4 的高分。
    • MMLU Pro: 獲得 74.3 的不錯分數。
    • MathVista: 達到 70.7
  • 其突出特點是無與倫比的 1000 萬 token 上下文長度,使其特別適合需要對極長文件、複雜程式碼庫或擴展的多輪互動進行深度分析的任務。
  • 至關重要的是,Scout 被設計用於高效部署,能夠在單個 NVIDIA H100 GPU 上有效運行,這對於硬體資源有限的組織來說是一個重要的考量因素。

比較分析:Behemoth vs. 推理專家

為了提供更深入的背景,將預覽的 Llama 4 Behemoth 與最初激發 Meta 加速開發的模型——DeepSeek R1 和 OpenAI 專注於推理的 ‘o’ 系列——進行比較,揭示了一幅細緻的圖景。使用 DeepSeek R1(特別是常被引用的 R1-32B 變體)和 OpenAI o1(特別是 o1-1217)初始發布時可用的基準數據點:

基準 Llama 4 Behemoth DeepSeek R1 (引用的 32B 變體) OpenAI o1-1217
MATH-500 95.0 97.3 96.4
GPQA Diamond 73.7 71.5 75.7
MMLU Pro 82.2 90.8 (註:MMLU 分數,非 Pro) 91.8 (註:MMLU 分數,非 Pro)

(註:在 MMLU Pro 上的直接比較很困難,因為早期的圖表通常引用 R1/o1 的標準 MMLU 分數,其得分通常高於更具挑戰性的 MMLU Pro 變體。Behemoth 在 MMLU Pro 上的 82.2 分相對於其同級別模型仍然非常強勁,超過了 GPT-4.5 和 Gemini 2.0 Pro)。

解讀這些具體比較:

  • MATH-500 基準上,Llama 4 Behemoth 略微落後於 DeepSeek R1 和 OpenAI o1 報告的分數。
  • 對於 GPQA Diamond,Behemoth 展現出優於引用的 DeepSeek R1 分數的優勢,但略微落後於 OpenAI o1。
  • MMLU 上(將 Behemoth 的 MMLU Pro 與其他模型的標準 MMLU 進行比較,並承認其中的差異),Behemoth 的分數較低,儘管其相對於 Gemini 2.0 Pro 和 GPT-4.5 等其他大型模型的表現仍然具有高度競爭力。

關鍵的結論是,雖然像 DeepSeek R1 和 OpenAI o1 這樣的專業推理模型可能在某些特定的、推理密集的基準上佔有優勢,但 Llama 4 Behemoth 將自己確立為一個強大的、最先進的模型,其表現達到或接近其級別的頂峰,特別是考慮到其更廣泛的能力和規模。它代表了 Llama 家族在複雜推理領域的一次重大飛躍。

強調安全與負責任的部署

除了性能提升,Meta 還強調了其對模型對齊和安全的承諾。此次發布伴隨著一套旨在幫助開發者負責任地部署 Llama 4 的工具:

  • Llama Guard: 協助過濾潛在不安全的輸入或輸出。
  • Prompt Guard: 旨在檢測和緩解旨在引發有害回應的對抗性提示。
  • CyberSecEval: 用於評估與模型部署相關的網絡安全風險的工具。
  • Generative Offensive Agent Testing (GOAT): 一個用於對模型進行「紅隊演練」(red-teaming)的自動化系統——主動測試它們的漏洞和潛在的濫用場景。

這些措施反映了整個行業日益增長的共識:隨著 AI 模型變得越來越強大,健全的安全協議和對齊技術不僅是可取的,而且是必不可少的。

Llama 生態系統:蓄勢待發

Llama 4 家族的推出標誌著 Meta 和更廣泛的 AI 領域的一個重要時刻。透過結合先進的多模態能力、極長的上下文窗口、高效的 MoE 架構以及對推理的強烈關注,Meta 提供了一套引人注目的開源工具。

隨著 Scout 和 Maverick 現已交到開發者手中,以及龐大的 Behemoth 為未來能力設定了高標準,Llama 生態系統已穩固地定位為一個可行、強大的開源替代方案,可與來自 OpenAI、Anthropic、DeepSeek 和 Google 的領先專有模型相抗衡。對於正在構建企業級 AI 助理的開發者、推動 AI 科學前沿的研究人員,或是為深度分析海量數據集創建工具的工程師來說,Llama 4 提供了靈活、高性能的選擇,這些選擇植根於開源理念,並日益朝向複雜的推理任務發展。AI 發展的下一階段變得更加引人入勝。