Meta 的 Llama,最初被稱為 LLaMA (Large Language Model Meta AI),於 2023 年 2 月橫空出世,標誌著 Meta 正式進軍競爭激烈的大型語言模型 (LLMs) 領域。2023 年 7 月 Llama 2 的發布是一個轉捩點,Meta 採用了開放授權許可,使訪問民主化並促進了廣泛採用。透過持續的改進和多次迭代,Llama 不斷增強其功能,鞏固了其在 OpenAI、Anthropic 和 Google 等行業巨頭中的地位。
Llama 系列於 2025 年 4 月 5 日進一步擴展,推出了 Llama 4 模型系列,也稱為 Llama 4 群,預示著多模態 LLM 的新時代。
什麼是 Meta Llama 4?
Meta Llama 4 代表了 LLM 技術的重大飛躍,它具有多模態功能,使其能夠處理和解讀文字、圖像和影片資料。這款第四代模型透過支援來自全球的眾多語言,超越了語言障礙。
Llama 4 模型的一個關鍵創新是採用了混合專家架構,這對於 Llama 系列來說是首創。這種架構會針對每個輸入 Token 動態地啟動總參數的一個子集,從而在效能和效率之間取得和諧的平衡。
雖然 Llama 4 社群授權許可並未獲得正式的 Open Source Initiative 認可,但 Meta 將其 Llama 4 模型描述為開放原始碼。該授權許可授予 Llama 4 模型免費使用和修改權利,但須遵守某些限制。截至 2025 年 4 月,該限制上限為每月 7 億用戶,超過此限制則需要商業授權。
Llama 4 產品線包含三個主要版本:Scout、Maverick 和 Behemoth。Scout 和 Maverick 同時發布,而 Behemoth 仍在開發中。這些模型在其規格方面存在顯著差異:
- Llama 4 Scout: 具有 170 億個活動參數、16 個專家、1090 億個總參數、1000 萬個 Token 的上下文窗口,以及 2024 年 8 月的知識截止日期。
- Llama 4 Maverick: 也具有 170 億個活動參數,但擁有 128 個專家、4000 億個總參數、100 萬個 Token 的上下文窗口,以及與 Scout 相同的知識截止日期。
- Llama 4 Behemoth: 這三者中最強大的一款,具有 2880 億個活動參數、16 個專家、2 兆個總參數,以及未指定的上下文窗口和知識截止日期。
Meta Llama 4 的功能
Meta Llama 4 模型解鎖了廣泛的應用,包括:
- 原生多模態: 同時理解文字、圖像和影片的能力。這使得模型能夠從各種資訊來源中獲取上下文和意義。
- 內容摘要: Llama 4 模型可以有效地濃縮來自各種內容類型的資訊,這是多模態理解的一個關鍵方面。例如,該模型可以分析影片、提取關鍵場景,並產生內容的簡明摘要。
- 長上下文處理: Llama 4 Scout 專門設計用於處理大量資訊,這得益於其廣闊的 1000 萬個 Token 的上下文窗口。這種能力對於分析廣泛的研究論文或處理冗長的文件等任務非常寶貴。
- 多語言模式: 所有 Llama 4 模型都展現出多語言熟練度,支援廣泛的語言用於文字處理:阿拉伯語、英語、法語、德語、印地語、印尼語、義大利語、葡萄牙語、西班牙語、塔加祿語、泰語和越南語。但是,圖像理解目前僅限於英語。
- 文字生成: Llama 4 模型擅長生成連貫且與上下文相關的文字,包括創意寫作。該模型可以適應各種寫作風格並生成人類品質的文字。
- 進階推理: 這些模型具有推理複雜的科學和數學問題的能力。它們可以解讀複雜的邏輯並得出準確的結論。
- 程式碼生成: Llama 4 能夠理解和生成應用程式碼,協助開發人員簡化其工作流程。該模型可以生成程式碼片段、完整的功能,甚至開發整個應用程式。
- 基礎模型功能: 作為一個開放模型,Llama 4 作為衍生模型開發的基礎元素。研究人員和開發人員可以針對特定任務微調 Llama 4,利用其現有功能來構建專門的應用程式。
Meta Llama 4 的訓練方法
Meta 採用了一套先進的技術來訓練其第四代 Llama 系列 LLM,旨在提高與早期版本相比的準確性和效能。這些技術包括:
- 訓練資料: 任何 LLM 的基石都是其訓練資料,Meta 認識到更多的資料可以轉化為更好的效能。為此,Llama 4 在超過 30 兆個 Token 上進行了訓練,是訓練 Llama 3 所用資料量的兩倍。
- 早期融合多模態: Llama 4 系列採用了「早期融合」方法,該方法將文字和視覺 Token 整合到一個統一的模型中。根據 Meta 的說法,這種方法促進了視覺和文字資訊之間更自然的理解,消除了對單獨的編碼器和解碼器的需求。
- 超參數優化: 這種技術涉及微調關鍵模型超參數,例如每層學習率,以實現更可靠和一致的訓練結果。透過優化這些參數,Meta 能夠提高 Llama 4 的整體穩定性和效能。
- iRoPE 架構: 沒有位置嵌入架構的交錯注意層,或 iRoPE 架構,增強了訓練期間對長序列的處理,並促進了 Llama 4 Scout 中 1000 萬個 Token 的上下文窗口。這種架構允許模型保留來自輸入序列遠端部分的資訊,使其能夠處理更長和更複雜的文件。
- MetaCLIP 視覺編碼器: 新的 Meta 視覺編碼器將圖像轉換為 Token 表示,從而提高了多模態理解。這種編碼器使 Llama 4 能夠有效地處理和解讀視覺資訊。
- GOAT 安全訓練: Meta 在整個訓練過程中實施了 Generative Offensive Agent Tester (GOAT),以識別 LLM 漏洞並提高模型安全性。這種技術有助於降低模型生成有害或有偏見內容的風險。
Llama 模型的演進
繼 2022 年 11 月 ChatGPT 的突破性發布之後,整個行業的公司競相在 LLM 市場站穩腳跟。Meta 是早期的回應者之一,在 2023 年初推出了其最初的 Llama 模型,儘管訪問受到限制。從 2023 年年中發布 Llama 2 開始,所有後續模型都已在開放授權下提供。
- Llama 1: 最初的 Llama 模型,於 2023 年 2 月發布,訪問受到限制。
- Llama 2: 作為第一個具有開放授權的 Llama 模型於 2023 年 7 月發布,Llama 2 提供免費訪問和使用。此迭代包括 7B、13B 和 70B 參數版本,以滿足不同的運算需求。
- Llama 3: Llama 3 模型於 2024 年 4 月首次亮相,最初具有 8B 和 70B 參數版本。
- Llama 3.1: 於 2024 年 7 月發布,Llama 3.1 新增了 405B 參數模型,推動了 LLM 功能的界限。
- Llama 3.2: 該模型是 Meta 的第一個完全多模態 LLM,於 2024 年 10 月發布,標誌著 Llama 系列演進的一個重要里程碑。
- Llama 3.3: Meta 在其 2024 年 12 月的發布中聲稱,Llama 3.3 的 70B 變體提供了與 3.1 的 405B 變體相同的效能,同時需要更少的運算資源,展示了持續的優化工作。
Llama 4 與其他模型的比較
生成式 AI 的前景正變得越來越具有競爭力,其中有 OpenAI 的 GPT-4o、Google Gemini 2.0 等知名參與者,以及包括 DeepSeek 在內的各種開源專案。
可以使用多個基準來評估 Llama 4 的效能,包括:
- MMMU (Massive Multi-discipline Multimodal Understanding): 評估圖像推理能力。
- LiveCodeBench: 評估程式碼編寫能力。
- GPQA Diamond (Graduate-Level Google-Proof Q&A Diamond): 衡量推理和知識。
在這些基準上的更高分數表示更好的效能。
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
MMMU 圖像推理 | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
這些基準突顯了 Llama 4 Maverick 在圖像推理、程式碼編寫和一般知識方面的優勢,使其成為 LLM 領域的有力競爭者。
存取 Llama 4
Meta Llama 4 Maverick 和 Scout 可以透過多種管道輕鬆取得:
- Llama.com: 直接從 Meta 營運的 llama.com 網站免費下載 Scout 和 Maverick。
- Meta.ai: Meta.ai Web 介面提供基於瀏覽器的 Llama 4 存取,允許使用者在不需要任何本地安裝的情況下與模型互動。
- Hugging Face: Llama 4 也可以在 https://huggingface.co/meta-llama 存取,這是一個用於共用和發現機器學習模型的熱門平台。
- Meta AI 應用程式: Llama 4 為 Meta 的 AI 虛擬助理提供支援,該助理可以透過語音或文字在各種平台上存取。使用者可以利用該助理執行諸如摘要文字、生成內容和回答問題等任務。