Meta Platforms,這家擁有 Facebook、Instagram 和 WhatsApp 的科技巨頭,透過推出其 Llama 4 系列,顯著提升了其在人工智能領域的地位。此次發布標誌著該公司具影響力的 Llama 開放模型家族的下一次迭代,表明其持續致力於在 AI 發展前沿競爭,並可能重塑行業內的競爭格局。此次發布推出了三款獨特的模型,每款都設計有特定的功能和計算架構,旨在滿足從一般聊天功能到複雜數據處理任務的廣泛應用需求。
介紹 Llama 4 家族:Scout、Maverick 和 Behemoth
Llama 4 世代的首批推出包含三款具體命名的模型:Llama 4 Scout、Llama 4 Maverick,以及仍在開發中的 Llama 4 Behemoth。Meta 表示,這些模型的基礎建立在包含大量未標記文本、圖像和視頻內容的廣泛訓練數據集之上。這種多模態訓練方法旨在賦予模型複雜且’廣泛的視覺理解’能力,將其能力擴展到純粹基於文本的互動之外。
Llama 4 的發展軌跡似乎受到了快速發展的 AI 領域內競爭壓力的影響。有報導指出,國際 AI 實驗室,特別是提到中國實驗室 DeepSeek 的開放模型的出現及其顯著效率,促使 Meta 加速了自身的開發工作。據了解,Meta 投入了大量資源,可能成立了專門的團隊或’作戰室’,以分析和理解像 DeepSeek 這樣的競爭對手所採用的方法論,特別是專注於那些成功降低運行和部署先進 AI 模型相關計算成本的技術。這種競爭暗流凸顯了主要科技公司和研究機構之間,在實現 AI 性能和運營效率突破方面的激烈競賽。
新的 Llama 4 系列的可及性各不相同。Scout 和 Maverick 正透過既定渠道向開發者社群和公眾開放,包括 Meta 自己的 Llama.com 門戶網站和合作夥伴平台,例如廣泛使用的 AI 開發中心 Hugging Face。這種開放性凸顯了 Meta 圍繞其 Llama 模型培養更廣泛生態系統的策略。然而,被定位為當前系列中最強大模型的 Behemoth 仍在開發中,尚未發布供一般使用。與此同時,Meta 正在將這些新功能整合到其面向用戶的產品中。該公司宣布,其專有的 AI 助手 Meta AI,運行於其 WhatsApp、Messenger 和 Instagram 等應用套件中,已升級以利用 Llama 4 的強大功能。此整合正在四十個國家推出,儘管先進的多模態功能(結合文本、圖像和其他潛在數據類型)最初僅限於美國境內的英語用戶。
駕馭授權環境
儘管強調某些模型的開放性,但 Llama 4 的部署和使用受到特定授權條款的約束,這可能對某些開發者和組織構成障礙。一項顯著的限制明確禁止總部設在或主要營業地點位於歐盟的用戶和公司使用或分發 Llama 4 模型。這種地理限制很可能是歐盟全面的 AI Act 和現有數據隱私法規(如 GDPR)強制執行的嚴格治理要求的直接後果。駕馭這些複雜的監管框架似乎是 Meta 在該地區部署策略的一個重要考量因素。
此外,呼應先前 Llama 迭代的授權結構,Meta 對大型企業施加了一項條件。擁有超過 7 億月活躍用戶的公司必須直接向 Meta 正式申請特殊授權。關鍵的是,授予或拒絕此授權的決定完全由 Meta ‘全權酌情決定’。儘管 Llama 生態系統的部分內容具有’開放’性質,但此條款有效地讓 Meta 控制其最先進的模型如何被潛在的競爭對手大型科技公司利用,從而保持一定程度的戰略監督。這些授權細微之處突顯了在高風險的 AI 領域中,促進開放創新與保留戰略控制之間複雜的相互作用。
在其伴隨發布的官方通訊中,Meta 將 Llama 4 的發布定位為一個關鍵時刻。’這些 Llama 4 模型標誌著 Llama 生態系統新紀元的開始,’該公司在一篇博客文章中表示,並補充道,’這僅僅是 Llama 4 系列的開端。’ 這一前瞻性的聲明暗示了 Llama 4 世代內持續發展和擴展的路線圖,將此次發布定位為 AI 進步持續旅程中的一個重要里程碑,而非終點。
架構創新:專家混合 (MoE) 方法
區分 Llama 4 系列的一個關鍵技術特徵是其採用了 專家混合 (Mixture of Experts, MoE) 架構。Meta 強調這是 Llama 家族中第一個利用這種特定設計範式的群組。MoE 方法代表了大型語言模型結構和訓練方式的重大轉變,在計算效率方面提供了顯著優勢,無論是在資源密集的訓練階段還是在響應用戶查詢的操作階段。
在其核心,MoE 架構通過將複雜的數據處理任務分解為更小、更易於管理的子任務來運作。然後,這些子任務被智能地路由或委派給一組更小的、專門化的神經網絡組件,稱為’專家’。每個專家通常被訓練成擅長處理特定類型的數據或任務。架構中的門控機制決定哪個專家或專家組合最適合處理輸入數據或查詢的特定部分。這與傳統的密集模型架構形成對比,後者中整個模型處理輸入的每個部分。
效率的提升源於這樣一個事實:對於任何給定的任務,只有模型總參數的一個子集(屬於所選專家的’活動’參數)被啟用。與激活龐大密集模型的全部參數相比,這種選擇性激活顯著降低了計算負載。
Meta 提供了具體細節來說明此架構的實際運作:
- Maverick:該模型擁有龐大的 4000 億總參數數量。然而,得益於包含 128 個不同’專家’的 MoE 設計,在處理過程中任何給定時間只有 170 億個參數處於活動狀態。參數通常被視為模型學習能力和解決問題複雜性的粗略代表。
- Scout:結構類似,Scout 擁有 1090 億個總參數,分佈在 16 個’專家’中,導致與 Maverick 相同的 170 億個活動參數。
這種架構選擇使 Meta 能夠構建具有巨大總體容量(高總參數數量)的模型,同時保持可管理的推理(查詢處理)計算需求,使其在規模化部署和操作方面可能更具實用性。
性能基準與模型專業化
Meta 將其新模型定位於競爭激烈的市場,發布了內部基準測試結果,將 Llama 4 與來自 OpenAI、Google 和 Anthropic 等競爭對手的著名模型進行了比較。
Maverick,被 Meta 指定為最適合’通用助手和聊天’應用,包括創意寫作和代碼生成等任務,據報導在特定基準測試中表現優於 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.0 等模型。這些基準測試涵蓋了編碼能力、邏輯推理、多語言能力、處理長文本序列(長上下文)和圖像理解等領域。然而,Meta 自己的數據表明,Maverick 並不總能超越目前可用的最新、最強大的模型,例如 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 或 OpenAI 預期的 GPT-4.5。這表明 Maverick 的目標是在高性能層級中佔據強勢地位,但可能無法在所有指標上與競爭對手的最新旗艦模型相比,宣稱絕對領先。
另一方面,Scout 則針對不同的優勢進行了定制。其能力在涉及總結大量文檔和對大型複雜代碼庫進行推理的任務中得到突出。Scout 一個特別獨特且具決定性的特點是其極大的上下文窗口 (context window),能夠處理高達 1000 萬個 token。Token 是語言模型處理的文本或代碼的基本單位(例如,一個詞可能被分解為幾個 token,如’理-解-中’)。1000 萬 token 的上下文窗口,在實際應用中,相當於能夠同時吸收和處理海量信息——可能相當於數百萬字或整個代碼庫。這使得 Scout 能夠在極長的文檔或複雜的編程項目中保持連貫性和理解力,這對於上下文窗口較小的模型來說是一項挑戰。它還可以處理圖像以及這些龐大的文本輸入。
運行這些模型的硬件要求反映了它們的規模和架構。根據 Meta 的估計:
- Scout 相對高效,能夠在單個高端 Nvidia H100 GPU上運行。
- Maverick,儘管具有 MoE 效率,但其總參數數量更大,需要更龐大的資源,需要一個 Nvidia H100 DGX 系統(通常包含多個 H100 GPU)或同等的計算能力。
即將推出的 Behemoth 模型預計將需要更強大的硬件基礎設施。Meta 透露,Behemoth 設計有 2880 億個活動參數(總參數接近兩萬億,分佈在 16 個專家中)。初步的內部基準測試將 Behemoth 定位為在多項專注於 STEM(科學、技術、工程和數學)技能的評估中,表現優於 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro 等模型(但值得注意的是,不包括更先進的 Gemini 2.5 Pro),特別是在複雜數學問題解決等領域。
然而,值得注意的是,目前已宣布的 Llama 4 模型中,沒有一個被明確設計為類似 OpenAI 開發中的 o1 和 o3-mini 概念那樣的’推理’模型。這些專門的推理模型通常包含內部事實核查和答案迭代改進的機制,從而可能產生更可靠和準確的回應,特別是對於事實性查詢。其代價通常是延遲增加,意味著與 Llama 4 家族中更傳統的大型語言模型(優先考慮更快的生成速度)相比,它們需要更長的時間來生成回應。
調整對話邊界:爭議性話題
Llama 4 發布中一個引人入勝的方面涉及 Meta 對模型回應行為的刻意調整,特別是關於敏感或有爭議的主題。該公司明確表示,與 Llama 3 家族的前輩相比,他們已調整 Llama 4 模型,使其更不容易拒絕回答’有爭議的’問題。
根據 Meta 的說法,Llama 4 現在更傾向於參與’有爭議的’政治和社會話題,而之前的版本可能會迴避或提供通用的拒絕。此外,該公司聲稱 Llama 4 在其完全拒絕參與的提示類型方面表現出’顯著更平衡’的處理方式。其聲明的目標是提供有益且基於事實的回應,而不強加判斷。
一位 Meta 發言人向 TechCrunch 詳細闡述了這一轉變,表示:’[你]可以信賴 [Llama 4] 提供有益、基於事實的回應,而無需判斷……[我]們正在繼續讓 Llama 反應更靈敏,以便它能回答更多問題,能夠回應各種不同的觀點 […] 並且不偏袒某些觀點。’
這一調整發生在公眾和政治界持續辯論人工智能系統中感知到的偏見的背景下。某些政治派別和評論員,包括與 Trump 政府相關的知名人士,如 Elon Musk 和風險投資家 David Sacks,都曾指責流行的人工智能聊天機器人表現出政治偏見,通常被描述為’woke’,據稱審查保守派觀點或呈現偏向自由派視角的信息。例如,Sacks 過去曾特別批評 OpenAI 的 ChatGPT,聲稱它被’編程為 woke’並且在政治問題上不可靠。
然而,在技術社群內,實現真正的中立性和消除 AI 偏見的挑戰被廣泛認為是一個極其複雜且持久的問題(’棘手的問題’)。AI 模型從它們訓練所用的龐大數據集中學習模式和關聯,而這些數據集不可避免地反映了其中包含的人類生成的文本和圖像中存在的偏見。即使是明確以此為目標的公司,創建完全無偏見或政治中立的 AI 的努力也已被證明是困難的。據報導,Elon Musk 自己的 AI 企業 xAI 在開發避免支持某些政治立場而非其他立場的聊天機器人方面也面臨挑戰。
儘管存在固有的技術困難,但包括 Meta 和 OpenAI 在內的主要 AI 開發商的趨勢似乎正朝著調整模型以減少對爭議性話題的回避方向發展。這涉及到仔細校準安全過濾器和回應指南,以允許與比以前允許的更廣泛的問題進行互動,同時仍試圖減輕有害或明顯帶有偏見內容的生成。這種微調反映了 AI 公司必須在促進開放討論、確保用戶安全以及駕馭圍繞其強大技術的複雜社會政治期望之間進行的微妙平衡。Llama 4 的發布,及其明確聲明的在處理爭議性查詢方面的調整,代表了 Meta 在駕馭這一錯綜複雜格局中的最新一步。