Meta 的 Llama:企業級主流?

Meta 的 Llama 大型語言模型 (LLM) 的發展軌跡一直是人工智慧社群高度關注和爭論的主題。Llama 3 和 Llama 4 的發布時間相隔約一年,這在快速發展的人工智慧領域中簡直是永恆。Llama 最初被譽為 OpenAI 等專有模型的突破性開源替代方案,但最近的發展表明,人們的看法發生了轉變,有些人質疑 Llama 在人工智慧創新前沿的持續相關性。

LlamaCon 的失望與期望的轉變

在 Meta 首屆專門針對其開源 LLM 的 LlamaCon 大會上,瀰漫著一種未達期望的氛圍。幾位與會的開發者透露,他們原本預期會推出一個複雜的推理模型,或者至少是一個能夠勝過 DeepSeek 的 V3 和 Qwen(後者是由阿里巴巴雲計算部門開發的一系列模型)等競爭對手嘅傳統模型。

缺乏這些公告加劇了人們的擔憂,即 Llama 正在人工智慧霸權競爭中失去陣地。就在會議前一個月,Meta 推出了第四代 Llama 系列,其中包括開源模型 Llama 4 Scout 和 Llama 4 Maverick。Scout 旨在於單個 GPU 上實現高效能,而 Maverick 則被設計為一個更大的模型,可以與其他基礎模型競爭。

除了 Scout 和 Maverick,Meta 還預覽了 Llama 4 Behemoth,這是一個仍在接受訓練的更大的「教師模型」。Behemoth 的目的是促進蒸餾,這是一種從更大、更通用的模型創建更小、更專業的模型的技術。

然而,有報導指出 Behemoth 的發布被延遲,並且在 Llama 4 套件中實現有競爭力的性能方面存在挑戰。儘管 Meta 聲稱具有最先進的功能,但一些開發者的看法是 Llama 不再領先。

競爭對手的崛起:Qwen 和 DeepSeek

圍繞 LlamaCon 和 Llama 4 模型的失望反映了一種更廣泛的觀點,即 Meta 的開源 LLM 在技術性能和開發者熱情方面都在失去動力。儘管 Meta 強調其對開源原則、生態系統建設和創新的承諾,但 DeepSeek、Qwen 和 OpenAI 等競爭對手正在推理、工具使用和實際部署等關鍵領域迅速進步。

一位開發者 Vineeth Sai Varikuntla 表示失望,稱他原本希望 Llama 在一般用例和推理方面超越 Qwen 和 DeepSeek,但發現 Qwen 顯著領先。

這種情緒突顯了 Meta 在維持 Llama 作為領先開源 LLM 的地位方面面臨的挑戰。儘管 Llama 的最初版本引起了廣泛關注和讚揚,但越來越多功能性替代品的出現加劇了競爭格局。

一個有希望的開始:Llama 2 的影響

要充分了解目前圍繞 Llama 的敘述,必須記住它的起源以及它最初產生的激動。2023 年,Nvidia 首席執行官黃仁勳讚揚 Llama 2 的發布是當年「可能係人工智慧領域最大的事件」。到 2024 年 7 月,Llama 3 的發布被認為是一個突破,代表了第一個能夠挑戰 OpenAI 統治地位的開放 LLM。

SemiAnalysis 首席分析師 Dylan Patel 表示,Llama 3 的到來立即引發了對計算能力的需求激增,導致 GPU 租賃價格上漲。在此期間,Google 對「Meta」和「Llama」的搜索量也達到頂峰,表明人們對新模型的濃厚興趣。

Llama 3 被譽為美國製造、開放且頂級的 LLM。儘管它並沒有一直位居行業基準測試之首,但它在人工智慧社群中產生了相當大的影響和相關性。然而,這種動態已逐漸轉變。

架構轉變與批評

Llama 4 模型引入了「混合專家」架構,這是一種由 DeepSeek 推廣的設計。這種架構使模型能夠僅激活特定任務最相關的專業知識,從而提高效率。

然而,當開發者發現用於公開基準測試的版本與可用於下載和部署的版本不同時,Llama 4 的發布受到了批評。這種差異導致了「遊戲排行榜」的指控,Meta 對此予以否認,稱所討論的變體是實驗性的,並且評估多個版本的模型是標準做法。

儘管 Meta 作出了解釋,但爭議導致人們認為 Llama 正努力維持其競爭優勢。隨著競爭模型的持續發展,Meta 似乎缺乏明確的方向。

衡量開發者採用率:一項複雜的任務

確定哪個 LLM 系列在開發者中人氣最高是一項具有挑戰性的任務。然而,現有數據表明 Llama 的最新模型並非領先者。

特別是 Qwen,在互聯網上的各種排行榜上一直名列前茅。根據根據性能對模型進行排名的網站 Artificial Analysis 的數據,Llama 4 Maverick 和 Scout 的定位略高於 OpenAI 的 GPT-4 模型(在前一年年底發布),並且低於 xAI 的 Grok 和 Anthropic 的 Claude 的智能。

OpenRouter 是一個為開發者提供對各種模型的訪問權限並根據 API 使用情況發布排行榜的平台,截至 5 月初,Llama 3.3 在前 20 名模型中,但 Llama 4 不在其中。

這些數據點雖然不是最終的,但表明 Llama 的最新迭代並未像其前輩那樣引起開發者的強烈共鳴。

超越基準:工具使用和推理

儘管對 Llama 4 的標準評估可能令人失望,但專家認為,這種低調的熱情源於超出原始性能指標的因素。

SemiAnalysis 的分析師 AJ Kourabi 強調了「工具呼叫」的重要性以及模型擴展到簡單聊天機器人功能之外的能力。工具呼叫是指模型訪問和指示互聯網或用戶設備上的其他應用程序的能力,這是 Agentic AI 的關鍵功能,Agentic AI 有望自動化預訂旅行和管理費用等任務。

Meta 表示,Llama 模型通過其 API 支持工具呼叫。然而,開發者和 YouTuber Theo Browne 認為,隨著 Agentic 工具的日益普及,工具呼叫已成為保持前沿相關性的必要條件。

Anthropic 已成為工具使用領域的早期領導者,而 OpenAI 等專有模型正在迅速趕上。可靠地調用正確的工具以生成正確的響應非常有價值,OpenAI 已將其重點轉移到優先考慮此功能。

Kourabi 認為,缺乏強大的推理模型是一個重要的標誌,表明 Meta 已經落後。推理被認為是 Agentic AI 方程中的一個基本要素,使模型能夠分析任務並確定適當的行動方案。

Llama 的利基市場:實際應用和企業採用

儘管人們擔心 Llama 在人工智慧研究前沿的地位,但它仍然是許多開發者和組織的寶貴工具。

RockerBox 的產品主管 Nate Jones 建議開發者將 Llama 納入他們的簡歷中,因為未來很可能需要熟悉該模型。

GAI Insights 首席執行官兼首席分析師 Paul Baier 認為,對於許多公司,尤其是科技行業以外的公司來說,Llama 將繼續是人工智慧戰略的關鍵組成部分。

企業認識到開源模型的重要性,Llama 就是一個突出的例子,可用於處理不太複雜的任務和控制成本。許多組織更喜歡封閉模型和開放模型的組合,以滿足他們的多樣化需求。

Snowflake 的人工智慧主管 Baris Gultekin 指出,客戶通常會根據其特定用例評估模型,而不是僅僅依靠基準。鑑於其低成本,Llama 通常足以滿足許多應用程序。

在 Snowflake,Llama 用於執行諸如總結銷售電話記錄和從客戶評論中提取結構化信息等任務。在 Dremio,Llama 生成 SQL 代碼並撰寫營銷電子郵件。

Dremio 的聯合創始人兼首席產品官 Tomer Shiran 認為,對於 80% 的應用程序而言,特定模型可能並不重要,因為現在大多數模型都「足夠好」以滿足基本需求。

多元化的格局:Llama 的鞏固角色

儘管 Llama 可能正在轉離在某些領域與專有模型嘅直接競爭,但整體人工智慧格局正變得更加多元化,而 Llama 的角色正在特定利基市場中得到鞏固。

Shiran 強調說,基準不是模型選擇的主要驅動力,因為用戶更重視在自己的用例中測試模型。模型在客戶數據上的表現至關重要,並且此性能會隨著時間的推移而變化。

Gultekin 補充說,模型選擇通常是特定於用例的決定,而不是一次性的事件。

Llama 可能正在失去那些不斷尋求最新進展的開發者,但它保留了許多專注於構建實用的人工智慧驅動工具的開發者的支持。

這種動態符合 Meta 更廣泛的開源戰略,2013 年發布的 React 和 2016 年創建的 PyTorch 就是例證。通過培養成功的生態系統,Meta 從開源社區的貢獻中受益。

正如 Nate Jones 所觀察到的那樣,Zuckerberg 從 Meta 的開源計劃中獲得了顯著的順風。