LLM 領域:Google 崛起,權力轉移?

大型語言模型 (LLMs) 的領域正經歷著顯著的轉變,Google 正嶄露頭角成為一位重要的參與者,而 Meta 和 OpenAI 則面臨著值得關注的挑戰。最初,OpenAI 憑藉其開創性的 GPT 模型主導了這個領域,為 LLM 的效能設立了新的基準。Meta 也藉由提供開放權重模型確保了一個重要的地位,這些模型具有令人印象深刻的能力,並且允許不受限制地使用、修改和部署其公開存取的程式碼。

然而,這種早期的主導地位讓其他科技巨頭,包括 Google,處於追趕狀態。儘管 Google 在 2017 年發表了一篇關於 transformer 架構的關鍵研究論文,而這是 LLM 的基礎,該公司最初的努力卻被 2023 年備受批評的 Bard 發布所掩蓋。

最近,隨著 Google 推出強大的新 LLM,加上 Meta 和 OpenAI 所經歷的挫折,局勢已經扭轉。這種轉變已經顯著地改變了 LLM 領域的動態。

Meta 的 Llama 4:一次失誤?

Meta 在 4 月 5 日星期六意外發布 Llama 4,引起了業界的關注。

在週末發布一個主要模型的決定被認為是不合常規的,導致了較為平淡的反應,並使該公告在接下來一周的新聞洪流中被埋沒。

雖然 Llama 4 具有某些優勢,包括其多模態能力(處理圖像、音訊和其他模態)以及其三種版本(Llama 4 Behemoth、Maverick 和 Scout)的可用性,這些版本具有不同的尺寸和強度,但其推出受到了批評。尤其是 Llama 4 Scout 版本,具有高達 1000 萬個 tokens 的巨大上下文窗口,使模型能夠在單個會話中處理和生成大量的文字。

然而,當出現關於 Meta 在 LMArena(一個根據使用者投票對 LLM 進行排名的平台)上的排名方法存在差異時,該模型的評價開始惡化。人們發現,用於排名的特定 Llama 4 模型與向公眾提供的模型不同。LMArena 表示,Meta 提供了「一個客製化的模型來優化人類偏好」。

此外,Meta 關於 Llama 4 Scout 的 1000 萬個 tokens 上下文窗口的主張受到了質疑。儘管這個數字在技術上是準確的,但基準測試顯示 Llama 4 在長上下文效能方面落後於競爭模型。

更令人擔憂的是,Meta 沒有發布 Llama 4「推理」或「思考」模型,並且沒有發布較小的變體,儘管該公司已表示即將推出推理模型。

AI 諮詢公司 Gradient Flow 的創始人 Ben Lorica 指出,Meta 偏離了更系統化的發布標準做法,即所有組件都已完全準備好。這表明 Meta 可能渴望展示一個新模型,即使它缺乏必要的元素,例如推理模型和較小的版本。

OpenAI 的 GPT-4.5:一次過早的退卻

OpenAI 最近幾個月也面臨著挑戰。

GPT-4.5 於 2 月 27 日作為研究預覽發布,被吹捧為該公司「迄今為止最大且最佳的聊天模型」。OpenAI 的基準測試表明,GPT-4.5 通常優於其前身 GPT-4o。

然而,該模型的定價結構受到了批評。OpenAI 將 API 存取價格設定為每百萬個輸出 tokens 150 美元,與 GPT-4o 的每百萬個 tokens 10 美元的價格相比,大幅提高了 15 倍。API 使開發人員能夠將 OpenAI 模型整合到他們的應用程式和服務中。

Life Architect 的 AI 顧問兼分析師 Alan D. Thompson 估計,GPT-4.5 可能是 2025 年第一季度發布的最大的傳統 LLM,約有 5.4 兆個參數。他認為,鑑於目前的硬體限制,如此巨大的規模難以證明是合理的,並且在服務龐大的使用者群方面提出了嚴峻的挑戰。

4 月 14 日,OpenAI 宣布決定在不到三個月後停止透過 API 存取 GPT-4.5。雖然 GPT-4.5 將保持可存取性,但它將僅限於透過 ChatGPT 介面供 ChatGPT 使用者使用。

該公告與 GPT-4.1 的推出同時發布,GPT-4.1 是一個更經濟的模型,價格為每百萬個 tokens 8 美元。OpenAI 的基準測試表明,GPT-4.1 的整體效能不如 GPT-4.5,儘管它在某些程式設計基準測試中表現出優越的效能。

OpenAI 最近還發布了新的推理模型 o3 和 o4-mini,其中 o3 模型表現出特別強勁的基準效能。然而,成本仍然是一個問題,因為 API 存取 o3 的價格為每百萬個輸出 tokens 40 美元。

Google 的崛起:抓住機會

Llama 4 和 ChatGPT-4.5 褒貶不一的評價為競爭對手創造了可趁之機,而他們也抓住了這個機會。

Meta 推出 Llama 4 的困境不太可能阻止開發人員採用替代方案,例如 DeepSeek-V3、Google 的 Gemma 和阿里巴巴的 Qwen2.5。這些 LLM 於 2024 年底推出,已成為 LMArena 和 HuggingFace 排行榜上首選的開放權重模型。它們在流行的基準測試中與 Llama 4 相匹敵或超越 Llama 4,提供負擔得起的 API 存取,並且在某些情況下,可以下載並在消費級硬體上使用。

然而,真正引起關注的是 Google 最先進的 LLM,Gemini 2.5 Pro。

Google Gemini 2.5 Pro 於 3 月 25 日發布,是一個類似於 GPT-o1 和 DeepSeek-R1 的「思考模型」,採用自我提示來推理完成任務。Gemini 2.5 Pro 是多模態的,具有 100 萬個 tokens 的上下文窗口,並且支持深入的研究。

Gemini 2.5 迅速取得了基準測試的勝利,包括在 SimpleBench 中名列前茅(儘管它在 4 月 16 日將該位置讓給了 OpenAI 的 o3)以及在 Artificial Analysis 的綜合 AI 智慧指數中。Gemini 2.5 Pro 目前在 LMArena 上保持領先地位。截至 4 月 14 日,Google 模型在 LMArena 的前 10 名中佔據了 5 個位置,包括 Gemini 2.5 Pro、三個 Gemini 2.0 變體和 Gemma 3-27B。

除了其令人印象深刻的效能之外,Google 也是價格領導者。Google Gemini 2.5 目前可透過 Google 的 Gemini 應用程式和 Google 的 AI Studio 網站免費使用。Google 的 API 定價也具有競爭力,Gemini 2.5 Pro 的價格為每百萬個輸出 tokens 10 美元,而 Gemini 2.0 Flash 的價格僅為每百萬個 tokens 40 美分。

Lorica 指出,對於大容量的推理任務,他經常選擇 DeepSeek-R1 或 Google Gemini,而使用 OpenAI 模型則需要更仔細地考慮定價。

雖然 Meta 和 OpenAI 不一定處於崩潰的邊緣,但 OpenAI 受益於 ChatGPT 的普及,據報導 ChatGPT 擁有 10 億使用者。然而,Gemini 強勁的排名和基準效能表明 LLM 領域正在發生轉變,目前對 Google 有利。