Meta 推出 Llama 4 模型套件,拓展 AI 新視野

人工智能領域持續以驚人的速度發展,而 Meta Platforms, Inc. 透過推出其 Llama 4 系列 AI 模型,明確表達了其維持核心地位的決心。此新一代模型代表了 Meta AI 能力的重大演進,不僅旨在驅動公司自身龐大的應用生態系統,也將提供給更廣泛的開發者社群使用。此次發布由兩款獨特的模型領銜:Llama 4 ScoutLlama 4 Maverick,各自針對不同的操作規模和性能目標進行了客製化。此外,Meta 還透露了一款正在開發中、功能更為強大的模型 Llama 4 Behemoth 的部分資訊,將其定位為未來 AI 性能巔峰的競爭者。這次多面向的發布突顯了 Meta 致力於推動大型語言模型 (LLMs) 的界限,並在由 OpenAI、Google 和 Anthropic 等巨頭主導的領域中積極競爭。

深入解析 Llama 4 雙雄:Scout 與 Maverick 登場

Meta 的初步推出聚焦於兩款旨在滿足 AI 領域不同需求的模型。它們代表了一種策略性的努力,旨在同時提供易於取得的強大功能和高端性能,以迎合廣泛的潛在用戶和應用。

Llama 4 Scout:具備廣闊記憶體的精簡強者

這對模型中的第一款 Llama 4 Scout,其設計著重於效率和易用性。Meta 強調其相對精簡的體積,聲稱它能夠 ‘裝入單一 Nvidia H100 GPU’。在當前的 AI 環境下,這是一個關鍵細節,因為取得高效能運算資源,特別是像 H100 這樣備受追捧的 GPU,對於開發者和組織來說可能是一個重大的瓶頸。透過將 Scout 設計成能在單一此類單元的限制內運作,Meta 可能降低了利用先進 AI 功能的門檻。

儘管體積精簡,Scout 仍被呈現為一個強大的執行者。Meta 宣稱它在同級別中超越了數個已建立的模型,包括 Google 的 Gemma 3 和 Gemini 2.0 Flash-Lite,以及流行的開源模型 Mistral 3.1。這些說法基於 ‘廣泛報導的基準測試中的表現’,暗示其在旨在衡量推理、語言理解和解決問題能力的各種標準化 AI 任務中具備競爭力。

或許 Scout 最引人注目的特性之一是其 1000 萬 token 的上下文視窗。上下文視窗定義了 AI 模型在處理請求時能在其活動記憶體中保留的資訊量。更大的上下文視窗允許模型理解和參考更長的文件,在擴展對話中保持連貫性,並處理需要保留大量資訊的更複雜任務。1000 萬 token 的容量相當可觀,使其能夠應用於諸如詳細文件分析、能準確記住過去對話的複雜聊天機器人互動,以及基於大型程式碼庫的複雜程式碼生成等領域。這種龐大的記憶體,結合其宣稱的效率和基準測試性能,將 Scout 定位為一個多功能工具,適合尋求在資源需求和先進功能之間取得平衡的開發者。

Llama 4 Maverick:擴大規模以應對高風險競爭

定位為更強大兄弟模型的 Llama 4 Maverick,則瞄準了性能光譜的較高端,與 OpenAI 的 GPT-4oGoogle 的 Gemini 2.0 Flash 等業界重量級選手相提並論。這表明 Maverick 是為需要更細膩、更具創造力和更複雜推理的任務而設計的。Meta 強調 Maverick 的競爭優勢,聲稱根據內部測試和基準測試結果,其性能優於這些著名的競爭對手。

Maverick 檔案中一個有趣的方面是其相對於其能力的效率聲明。Meta 指出,Maverick 在編碼和推理任務中達到了與 DeepSeek-V3 相當的結果,同時使用的 ‘活躍參數不到一半’。AI 模型中的參數類似於大腦中神經元之間的連接;更多的參數通常與更大的潛在複雜性和能力相關,但也意味著更高的計算成本。如果 Maverick 確實能夠以顯著減少的活躍參數(特別是在採用稍後討論的 Mixture of Experts 等技術時)提供頂級性能,那麼這代表了模型優化方面的一項顯著成就,可能比能力相當的模型帶來更快的響應時間和更低的運營成本。這種在追求原始能力的同時關注效率,可能使 Maverick 成為需要尖端 AI 但不一定希望承擔絕對最高計算開銷的組織的有吸引力的選擇。

Scout 和 Maverick 都將可直接從 Meta 下載,也可透過 Hugging Face(一個分享 AI 模型和數據集的熱門平台)取得。這種分發策略旨在促進研究和開發社群的採用,允許外部各方評估、建構並將這些模型整合到他們自己的專案中。

將 AI 融入社交結構:Llama 4 橫跨 Meta 平台的整合

至關重要的是,Llama 4 模型不僅僅是理論上的建構或僅供外部開發者使用的工具。Meta 正在立即部署這項新技術,以增強其面向用戶的產品。該公司的對話式 AI 助手 Meta AI,旨在協助其各種服務的用戶,現在由 Llama 4 提供支援。

這種整合橫跨 Meta 最受歡迎的平台:

  • Meta AI 的網頁介面: 提供一個專用入口網站,供用戶與增強後的助手互動。
  • WhatsApp: 將先進的 AI 功能直接帶入全球使用最廣泛的訊息應用程式中。
  • Messenger: 利用 Llama 4 的能力增強 Meta 的另一個主要通訊平台。
  • Instagram: 在以視覺為中心的社交網絡中整合可能與內容創作、搜索或直接訊息相關的 AI 功能。

這種廣泛的部署標誌著使先進 AI 功能普及化並惠及數十億用戶的重要一步。對於終端用戶而言,這可能轉化為與 Meta AI 助手進行更有幫助、更具上下文感知能力且功能更強大的互動。諸如總結長聊天串、草擬訊息、生成創意文本格式、查找資訊,甚至創建圖像等任務,可能會變得更加複雜和可靠。

從 Meta 的角度來看,這種整合具有多重戰略目的。首先,它提升了其核心產品的用戶體驗,可能增加用戶參與度和平台黏性。其次,它為 Llama 4 提供了一個無與倫比的真實世界測試場,產生大量的互動數據(推測是匿名的,並根據隱私政策使用),這對於識別改進領域和訓練未來的模型迭代非常有價值。它有效地創建了一個強大的反饋迴路,利用 Meta 龐大的用戶基礎來持續完善其 AI 技術。這種整合使 Meta 的 AI 努力高度可見,並直接影響其主要業務。

Behemoth 的陰影:一窺 Meta 的高端雄心

雖然 Scout 和 Maverick 代表了現在,但 Meta 已經透過 Llama 4 Behemoth 預示了其未來的發展軌跡。這個仍在進行密集訓練過程的模型,被定位為 Meta 的終極強者,旨在於 AI 能力的最高峰進行競爭。Meta CEO Mark Zuckerberg 大膽宣稱其目標是成為 ‘世界上性能最高的基礎模型’。

關於 Behemoth 分享的統計數據令人震驚:據報導,它擁有 2880 億個活躍參數,這些參數來自一個總計 2 兆個參數 的池。這種巨大的規模使其穩固地躋身於前沿模型之列,在規模上可與當前可用或傳聞中的一些最大模型相媲美,甚至可能超越它們。’活躍’ 和 ‘總’ 參數之間的區別很可能指向了 Mixture of Experts (MoE) 架構的使用,在該架構中,對於任何給定任務,只有總參數的一小部分會被啟用,從而允許巨大的規模,而推理過程中的計算成本卻不成比例地增加。

儘管 Behemoth 尚未發布,Meta 已經根據其正在進行的開發提出了性能聲明。該公司表示,它能夠在 ‘幾個 STEM 基準測試’ 中超越像 GPT-4.5(推測是 OpenAI 即將推出或假設的模型)和 Claude Sonnet 3.7(Anthropic 預期推出的模型)這樣的強大競爭對手。STEM(科學、技術、工程和數學)基準測試是特別具有挑戰性的測試,旨在評估 AI 在複雜數學推理、科學理解和編碼能力等領域的能力。在這些領域取得成功通常被視為模型先進認知能力的關鍵指標。

Behemoth 的開發突顯了 Meta 不僅要參與 AI 競賽,更要引領競賽的雄心,直接挑戰被認為的領跑者。訓練如此龐大的模型需要巨大的計算資源、重要的工程專業知識和龐大的數據集,凸顯了 Meta 在 AI 研發方面投入的規模。Behemoth 的最終發布,無論何時發生,都將被密切關注,可能成為最先進 AI 性能的新基準。

架構演進:擁抱 Mixture of Experts (MoE)

支撐 Llama 4 世代的一個關鍵技術轉變是 Meta 採用了 ‘Mixture of Experts’ (MoE) 架構。這代表了與傳統密集模型架構的重大區別,在傳統架構中,模型的​​所有部分都會為每次計算而被啟動。

在 MoE 架構中,模型在概念上被劃分為多個較小的 ‘專家’ 子網路,每個子網路專門處理不同類型的數據或任務。一個門控機制,本質上是一個交通控制器,僅將傳入的數據路由到處理該特定資訊所需的最相關的專家。

這種方法的主要優點是:

  1. 計算效率: 透過僅為任何給定輸入啟動模型總參數的一小部分,MoE 模型在推理(生成輸出的過程)期間可以比同等總規模的密集模型顯著更快且計算成本更低。這對於以符合成本效益的方式部署大型模型並在用戶互動中實現更低的延遲至關重要。
  2. 可擴展性: MoE 允許創建具有更大總參數數量的模型(如 Behemoth 的 2 兆),而每次推理步驟的計算需求卻不會相應地線性增加。這使得模型容量的擴展超出了密集架構可能實際達到的範圍。
  3. 專業化: 每個專家都可能發展出高度專業化的知識,與試圖處理所有事務的單一整體模型相比,可能在特定類型的任務上表現更好。

Meta 為 Llama 4 轉向 MoE,與 AI 行業的更廣泛趨勢一致,Google 和 Mistral AI 等公司也在其領先模型中採用了這種技術。這反映了一種日益增長的理解,即在推動性能極限的同時管理 AI 開發和部署不斷升級的成本方面,架構創新與純粹的規模同等重要。這種架構選擇很可能對 Maverick(以較少 活躍 參數實現高性能)的性能和效率聲明以及訓練龐大的 Behemoth 模型的可行性做出了重大貢獻。Meta MoE 實施的具體細節將引起 AI 研究人員的濃厚興趣。

‘開放’ 的複雜性:Llama 4 與授權問題

Meta 繼續將其 Llama 模型,包括新的 Llama 4 家族,標記為 ‘開放原始碼’。然而,由於 Llama 授權的具體條款,這個術語在技術社群中仍然是一個爭議點。雖然這些模型確實公開提供下載和修改,但該授權包含了一些限制,使其與傳統的開放原始碼定義有所區別。

最顯著的限制規定,擁有超過 7 億月活躍用戶 (MAU) 的商業實體 在其產品或服務中使用 Llama 4 模型之前,必須獲得 Meta 的具體許可。這個門檻有效地針對了 Meta 最大的競爭對手——如 Google、Microsoft、Apple、ByteDance 等公司——阻止他們在沒有單獨協議的情況下自由利用 Meta 的先進 AI 技術。

這種授權方式引發了批評,特別是來自 Open Source Initiative (OSI),一個廣受尊敬的開放原始碼定義管理者。在 2023 年,針對具有類似限制的早期 Llama 版本,OSI 表示,此類限制使該授權 ‘脫離了’開放原始碼’的範疇’。OSI 定義的開放原始碼的核心原則是非歧視性,意味著授權不應限制 可以使用該軟體或 用於何種目的,包括大型競爭對手的商業用途。

Meta 的策略可以被解釋為一種 ‘開放取用’ 或 ‘社群授權’,而非純粹的開放原始碼。它允許研究人員、新創公司、小型企業和個人開發者廣泛取用,從而促進創新並圍繞 Llama 建立一個生態系統。這可以加速開發、識別錯誤並產生好感。然而,對大型參與者的限制保護了 Meta 的競爭地位,防止其直接競爭對手輕易地將 Llama 的進展整合到他們自己可能具有競爭性的 AI 服務中。

這種細緻入微的方法反映了在 AI 開發上投入數十億美元的公司的複雜戰略考量。他們尋求社群參與和廣泛採用的好處,同時保護其核心技術優勢,以對抗主要的市場對手。這場辯論突顯了在生成式 AI 這個高風險世界中,開放性本質的演變,其中協作開發和競爭策略之間的界線日益模糊。考慮使用 Llama 4 的開發者和組織必須仔細審查授權條款以確保合規,特別是如果他們的營運規模很大。

戰略考量:Llama 4 在宏大的 AI 競技場中

Llama 4 的推出不僅僅是一次技術更新;它是 Meta 在持續的 AI 軍備競賽中的一次重大戰略部署。透過發布 Scout、Maverick 並預告 Behemoth,Meta 正在確立其作為基礎 AI 模型領先開發者的地位,有能力在不同的性能層級上競爭。

幾個戰略要素顯而易見:

  • 競爭定位: 與來自 OpenAI、Google、Mistral 和 DeepSeek 的模型直接比較,表明 Meta 意圖直接挑戰已建立的領導者和著名的開源替代方案。提供聲稱在關鍵基準測試上具有競爭力或更優越的模型,旨在吸引開發者的注意力和市場份額。
  • 生態系統增強: 將 Llama 4 整合到 WhatsApp、Messenger 和 Instagram 中,立即利用了 Meta 龐大的用戶基礎,提供了切實的產品改進,並加強了其平台的價值。
  • 開發者社群參與: 提供 Scout 和 Maverick 的下載,培養了圍繞 Llama 的社群,鼓勵外部創新,並可能為 Meta 創造一個人才能源和創意管道。儘管存在限制,其 ‘開放’ 授權仍然比一些競爭對手(如 OpenAI 最先進模型)的封閉方法更為寬鬆。
  • 架構進步: 轉向 MoE 標誌著技術的成熟度和對可持續擴展的關注,解決了與日益龐大的模型相關的計算成本這一關鍵挑戰。
  • 未來佈局: 宣布 Behemoth 設定了期望,並表明了對前沿 AI 研究的長期承諾,使 Meta 在關於通用人工智能 (AGI) 未來發展軌跡的討論中保持相關性。

即將於 4 月 29 日舉行的 LlamaCon 會議,有望成為 Meta 進一步闡述其 AI 策略、深入介紹 Llama 4 模型技術細節、可能揭示更多關於 Behemoth 進展,並展示使用其技術構建的應用的關鍵場所。這個專門的活動突顯了 Llama 對 Meta 未來計劃的核心重要性。

Llama 4 的發布發生在整個 AI 領域創新速度極快的背景下。新的模型和功能頻繁宣布,性能基準不斷被刷新。Meta 能否執行其 Llama 4 路線圖,透過獨立驗證兌現其性能承諾,並持續創新,將對其在這個充滿活力且競爭激烈的領域中保持勢頭至關重要。專有開發、社群參與和戰略授權之間的相互作用將繼續塑造 Meta 在人工智能變革時代中的角色和影響力。