Google 以深思熟慮推理模型點燃 AI 新階段

人工智能的持續演進又向前邁出了重要一步。科技領域的常青樹 Google 正式推出了其最新創新:Gemini 2.5。這不僅僅是一次增量更新;它代表了一個全新的 AI 模型家族,其核心能力經過精心設計,模仿了人類認知的一個基本面向——在提供答案前停頓、反思和推理的能力。這種刻意的「思考」過程,標誌著從早期 AI 世代即時、有時欠考慮的回應特性,轉向了一個關鍵的轉變。

介紹 Gemini 2.5 Pro Experimental:深思熟慮 AI 的先鋒

引領這個新世代的是 Gemini 2.5 Pro Experimental。Google 將這款多模態推理模型定位為不僅僅是改進,更可能是其迄今為止最智能的創作。這項尖端技術的存取權限正被策略性地推出。開發者可以立即透過 Google AI Studio——該公司專門用於 AI 探索和應用程式建構的平台——開始利用其能力。同時,訂閱 Google 高級 AI 服務 Gemini Advanced(每月收費 20 美元)的用戶,將在其 Gemini 應用程式體驗中發現整合了增強的推理能力。

這次初步發布標誌著 Google 更廣泛的戰略方向。該公司明確表示,未來從其實驗室誕生的所有 AI 模型都將包含這些先進的推理能力。這是一個宣言,表明「思考型」AI 不僅僅是一個功能,而是 Google 打算建立其 AI 未來的基礎原則。這一承諾突顯了超越模式識別和概率性文本生成,轉向展現更強大分析和解決問題能力的系統的重要性。

全行業對人工推理的追求

Google 的舉動並非發生在真空中。Gemini 2.5 的揭幕是圍繞賦予 AI 推理能力的日益激烈的技術競賽中的最新一擊。這場特定競賽的發令槍可以說是在 2024 年 9 月打響,當時 OpenAI 推出了 o1,這是其開創性的、專門為複雜推理任務設計的模型。自那時起,競爭格局迅速加劇。

全球主要參與者紛紛爭相開發和部署自己的競爭者:

  • Anthropic,以其對 AI 安全的關注及其 Claude 系列模型而聞名。
  • DeepSeek,一個源自中國、雄心勃勃的 AI 實驗室,在模型性能方面取得了顯著進展。
  • xAI,Elon Musk 的企業,旨在透過 AI 理解宇宙的真實本質。
  • 以及現在的 Google,利用其龐大的資源和深厚的研究專長,推出了 Gemini 2.5 家族。

這些推理模型背後的核心概念涉及一種權衡。與反應更快的同類模型相比,它們有意消耗額外的計算資源和時間。這種「停頓」允許 AI 進行更複雜的內部處理。這些可能包括:

  1. 解構複雜提示: 將錯綜複雜的問題或指令分解成更小、更易於管理的子問題。
  2. 核查內部知識: 對照其訓練數據或潛在的外部來源(如果啟用)驗證信息。
  3. 評估多種潛在解決方案路徑: 在確定最合乎邏輯或最準確的方案之前,探索不同的推理路線。
  4. 逐步解決問題: 有條不紊地處理邏輯序列,這對於數學和編碼挑戰尤其關鍵。

這種深思熟慮的方法已經取得了令人印象深刻的成果,特別是在要求精確性和邏輯嚴謹性的領域。

為何推理至關重要:從數學奇才到自主代理

對推理能力的投資是由於在各種要求嚴苛的任務中觀察到的實際好處所驅動。配備了這些技術的 AI 模型在傳統上挑戰語言模型的領域表現出顯著提升的性能,例如:

  • 數學: 解決複雜方程式、證明定理以及理解抽象數學概念。
  • 編碼與軟體開發: 生成更可靠的代碼、調試複雜程序、理解錯綜複雜的代碼庫,甚至設計軟體架構。

逐步推理問題、識別邏輯謬誤和驗證解決方案的能力,使這些模型成為開發人員、工程師和科學家的強大工具。

除了這些直接應用之外,科技行業內的許多專家將推理模型視為實現更宏偉目標的關鍵墊腳石:AI 代理 (AI agents)。這些被設想為能夠理解目標、規劃多步驟行動並以最少的人類監督執行任務的自主系統。想像一個能夠管理您的日程、預訂旅行、進行複雜研究,甚至自主管理軟體部署流程的 AI 代理。強大的推理、規劃和自我修正能力是實現這一願景的基礎。

然而,這種增強的能力是有實際成本的。增加的計算需求直接轉化為更高的營運費用。運行推理模型需要更強大的硬體並消耗更多能源,使得它們的營運成本更高,因此,對於透過 API 集成它們的終端用戶或開發人員來說,可能價格更高。這個經濟因素可能會影響它們的部署,可能將它們保留給那些提高的準確性和可靠性證明了額外費用的高價值任務。

Google 的戰略佈局:提升 Gemini 血統

雖然 Google 之前曾探索過包含「思考」時間的模型,例如 12 月發布的早期版本 Gemini,但 Gemini 2.5 家族代表了一項更為協調一致且具有戰略意義的努力。這次發布顯然旨在挑戰競爭對手,尤其是 OpenAI 的 ‘o’ 系列所建立的領先地位,後者因其推理能力而備受關注。

Google 以大膽的性能聲明支持 Gemini 2.5 Pro。該公司斷言,這款新模型不僅超越了其自身之前的頂級 AI 模型,而且在多個行業標準基準測試中也優於來自競爭對手的領先模型。根據 Google 的說法,設計重點特別放在兩個關鍵領域的卓越表現上:

  1. 視覺上引人入勝的 Web 應用程式創建: 暗示其能力超越了文本生成,延伸到理解和實施用戶界面設計原則和前端開發邏輯。
  2. 代理式編碼應用 (Agentic Coding Applications): 強調了該模型是為軟體開發領域內需要規劃、工具使用和複雜問題解決的任務而構建的理念。

這些聲明將 Gemini 2.5 Pro 定位為一個多功能工具,直接面向那些推動 AI 應用邊界的開發人員和創作者。

基準測試腦力:Gemini 2.5 Pro 的表現如何

AI 領域的性能通常透過標準化測試或基準來衡量,這些測試旨在探測特定能力。Google 發布了將 Gemini 2.5 Pro Experimental 與其競爭對手在幾個關鍵評估中進行比較的數據:

  • Aider Polyglot: 此基準專門衡量模型跨多種程式語言編輯現有代碼的能力。這是一個反映真實世界開發者工作流程的實用測試。在此測試中,Google 報告稱 Gemini 2.5 Pro 獲得了 68.6% 的分數。根據 Google 的說法,這個數字使其在這項特定的代碼編輯任務中領先於 OpenAI、Anthropic 和 DeepSeek 的頂級模型。這表明其在理解和修改複雜代碼庫方面具有強大的能力。

  • SWE-bench Verified: 另一個專注於軟體開發的關鍵基準,SWE-bench 評估解決真實世界 GitHub 問題的能力,基本上測試了軟體工程中的實際問題解決能力。在這裡,結果呈現出更細微的畫面。Gemini 2.5 Pro 得分為 63.8%。雖然這優於 OpenAI 的 o3-mini 和 DeepSeek 的 R1 模型,但它落後於 Anthropic 的 Claude 3.7 Sonnet,後者以 70.3% 的分數領先此特定基準。這突顯了該領域的競爭性,不同的模型可能在像軟體開發這樣複雜任務的不同方面表現出色。

  • Humanity’s Last Exam (HLE): 這是一個具有挑戰性的多模態基準,意味著它測試 AI 理解和跨不同類型數據(文本、圖像等)進行推理的能力。它包含數千個眾包問題,涵蓋數學、人文學科和自然科學,旨在對人類和 AI 都構成困難。Google 表示 Gemini 2.5 Pro 在 HLE 上獲得了 18.8% 的分數。雖然這個百分比從絕對值來看可能較低,但 Google 指出,它代表了強勁的表現,在這個 notoriously 困難且範圍廣泛的測試中超越了大多數競爭對手的旗艦模型。在此取得成功指向了更通用的推理和知識整合能力。

這些基準測試結果,雖然由 Google 選擇性地呈現,但提供了有價值的數據點。它們表明 Gemini 2.5 Pro 是一個極具競爭力的模型,尤其在代碼編輯和通用多模態推理方面表現強勁,同時也承認了像 Anthropic 這樣的競爭對手目前在某些領域(特定的軟體工程任務)佔有優勢。它強調了這樣一個觀點,即不一定存在一個「最佳」模型,而是根據具體應用,模型具有不同的優勢和劣勢。

擴展視野:巨大的上下文窗口

除了原始的推理能力之外,Gemini 2.5 Pro 的另一個頭條特性是其龐大的上下文窗口 (context window)。首先,該模型發佈時能夠在單個輸入中處理 100 萬個 token。Token 是 AI 模型處理的基本數據單元(如單詞或單詞的一部分)。100 萬 token 的窗口大致相當於能夠一次性接收和考慮約 750,000 個單詞

為了更形象地說明:

  • 這個容量超過了 J.R.R. Tolkien 的《魔戒》三部曲的總字數。
  • 它允許模型分析龐大的代碼庫、冗長的法律文件、長篇研究論文或整本書籍,而不會遺失前面呈現的信息。

這個巨大的上下文窗口開啟了新的可能性。模型可以在極長的交互或文檔中保持連貫性並引用信息,從而能夠對大型數據集進行更複雜的分析、摘要和問答。

此外,Google 已經表示這僅僅是個開始。該公司計劃很快將此容量翻倍,使 Gemini 2.5 Pro 能夠支持高達 200 萬個 token 的輸入。這種上下文處理能力的持續擴展是一個關鍵趨勢,使 AI 能夠處理以前難以處理的、日益複雜和信息密集的任務。它使 AI 從簡單的問答機器人進一步轉變為能夠綜合大量信息的強大分析夥伴。

展望未來:定價與未來發展

雖然技術規格和基準性能引人入勝,但實際採用通常取決於可訪問性和成本。目前,Google 尚未發布 Gemini 2.5 Pro 的應用程式介面 (API) 定價。對於計劃將該模型集成到自己的應用程式和服務中的開發人員和企業來說,這些信息至關重要。Google 已表示,有關定價結構的詳細信息將在未來幾週內分享。

Gemini 2.5 Pro Experimental 的推出標誌著 Google AI 努力的新篇章。作為 Gemini 2.5 家族的第一個成員,它為未來可能包含類似推理能力、可能針對不同規模、成本或特定模態量身定制的模型奠定了基礎。對推理的關注,加上不斷擴展的上下文窗口,清楚地表明了 Google 保持在快速發展的人工智能領域前沿的雄心,提供不僅能夠生成內容,而且能夠參與更深入、更像人類思考過程的工具。競爭無疑將會回應,確保邁向更智能、更強大 AI 的競賽繼續以驚人的速度進行。