Google打造出頂尖軟件開發AI工具了嗎?

在專為編碼任務量身打造的人工智能專業領域,一場潛在的劇變正在發生。長期以來,由 Anthropic 開發的模型,特別是其 Claude 系列,經常被認為是協助開發者編寫、調試和理解程式碼的領先者。然而,最近的發展表明,一個強大的新挑戰者已進入競技場:Google 的 Gemini 2.5。早期跡象,包括基準測試表現和初步的開發者反饋,都指向這個最新版本可能重新定義 AI 驅動的編碼輔助標準,引發了關於既定層級是否即將被改組的疑問。特別是 Gemini 2.5 Pro Experimental 的出現,正在開發者社群中引發激烈的討論和比較。

基準測試實力:量化優勢?

客觀指標通常提供了對新模型能力的第一瞥,在這方面,Gemini 2.5 的登場意義重大。一項特別相關的評估是 Aider Polyglot 排行榜,這是一個精心設計的基準測試,旨在評估大型語言模型 (LLMs) 在跨多種程式語言生成新程式碼和修改現有程式碼庫等實際任務中的熟練程度。在這項要求嚴格的評估中,Gemini 2.5 Pro 的實驗版本取得了 72.9% 的驚人分數。這個數字使其明顯領先於強勁的競爭對手,包括 Anthropic 的 Claude 3.7 Sonnet(得分 64.9%)。它還超越了 OpenAI 的產品,例如 o1 模型 (61.7%) 和 o3-mini high 變體 (60.4%)。在特定於編碼的基準測試中取得如此領先,是 Gemini 2.5 在該領域能力的有力量化論證。

除了以編碼為中心的評估之外,Gemini 2.5 在更廣泛的推理和知識應用測試中也表現出卓越的性能。它在 GPQA (Graduate-Level Google-Proof Q&A) 基準測試中獲得了最高排名,這是一項嚴格的測試,用通常在研究生學習階段遇到的、跨越各種科學學科的複雜問題來挑戰 AI 模型。Gemini 2.5 在此基準測試中獲得了 83% 的分數。這一表現超過了 OpenAI 的 o1-Pro 模型(得分 79%)和 Anthropic 的 Claude 3.7 Sonnet(即使採用了延長思考時間的技術,也達到了 77%)。在包括測試一般推理能力以及像編碼這樣的專業技能在內的各種基準測試中持續獲得高排名,表明其底層架構既健壯又通用。這種專業編碼能力和廣泛智力能力的結合,對於尋求全面 AI 助手的開發者來說,可能是一個關鍵的差異化因素。

開發者讚譽與真實世界驗證

雖然基準測試提供了寶貴的量化見解,但 AI 編碼助手的真正考驗在於開發者在處理真實世界專案時的實際應用。早期的報告和證言表明,Gemini 2.5 不僅在受控測試中表現良好,而且在用戶的日常工作流程中也給人留下了深刻印象。積極試驗新模型的開發者 Mckay Wrigley 給予了強烈肯定,毫不含糊地表示:「Gemini 2.5 Pro 現在輕易成為了最佳的程式碼模型」。他的觀察不僅僅停留在程式碼生成上;他強調了模型展現出他稱之為「真正才華閃現」的實例。此外,Wrigley 指出了一個潛在的關鍵特徵:該模型不會簡單地默認同意用戶的提示,而是進行更具批判性的互動,這表明其具有更深層次的理解或模擬推理能力。他的結論是斬釘截鐵的:「Google 在這裡推出了一個真正的贏家」。

這種積極的情緒似乎在其他人中也得到了共鳴,特別是在與 Anthropic 備受推崇的 Claude 3.7 Sonnet 進行直接比較時。許多開發者發現,他們的實際經驗與有利於 Gemini 2.5 的基準測試結果相符。一個例證性的描述來自 Reddit 上的一位用戶,他詳細說明了自己使用 Claude 3.7 Sonnet 花費數小時構建應用程式的掙扎。據該用戶稱,結果主要是無法運行的程式碼,並且充斥著糟糕的安全實踐,例如將 API 金鑰直接嵌入程式碼中(硬編碼)。在感到沮喪後,這位開發者轉而使用 Gemini 2.5。他們將 Claude 生成的整個有缺陷的程式碼庫作為輸入提供。據報導,Gemini 2.5 不僅識別出了關鍵缺陷並清晰地解釋了它們,而且還著手重寫了整個應用程式,最終產生了一個功能正常且更安全的版本。這個軼事突顯了 Gemini 2.5 有效處理複雜調試和重構任務的潛力。

進一步的比較測試集中在開發的不同方面。在社交平台 X 上記錄的一個實例中,一位用戶讓 Gemini 2.5 與 Claude 3.7 Sonnet 在一項視覺任務中進行較量:重新創建 ChatGPT 的用戶界面 (UI)。根據該用戶的評估,與其 Anthropic 的對手相比,Gemini 2.5 產生了更準確的目標 UI 視覺表示。雖然 UI 複製只是開發的一個方面,但在這類任務中的準確性可以表明模型對細節的精細關注程度及其將複雜描述或示例轉化為有形輸出的能力。

這些改進不僅是相對於競爭對手而言,也代表了相較於 Google 自身先前模型的顯著進步。開發者 Alex Mizrahi 分享了一次突顯這種內部進展的經驗。他使用 Gemini 2.5,發現它僅憑其內部知識庫就能回憶起大約 80-90% 的 Rell(一種特定的程式語言)語法。這標誌著與早期 Gemini 版本相比的實質性飛躍,根據 Mizrahi 的說法,早期版本即使在提示中明確提供了示例,也在處理 Rell 語法方面遇到了很大困難。這表明模型的底層訓練數據和對不太常見的語言或語法的回憶能力有所提高。

協作編碼與上下文優勢

除了原始的程式碼生成和準確性之外,AI 模型的互動風格和上下文容量顯著影響其作為編碼夥伴的實用性。用戶報告稱,在使用 Gemini 2.5 工作時感覺更具協作性。開發者 Matthew Berman 在 X 上注意到了一個獨特的行為:「它(Gemini 2.5 Pro)會在過程中向我提出澄清性問題,這是其他模型從未做過的。」他將此解釋為使互動「更具協作性得多」。這種主動參與——尋求澄清而不是做出假設——可以帶來更精確的結果,減少迭代次數,並可能防止誤解,尤其是在「憑感覺編碼 (vibe coding)」中經常遇到的複雜或定義模糊的任務,即開發者只有一個大致的想法但沒有精確的規範。

促成 Gemini 2.5 在複雜編碼場景中潛在優勢的一個主要技術因素是其龐大的上下文窗口。該模型號稱支持高達 100 萬個輸入 token。這代表了相對於當前競爭對手的顯著優勢。OpenAI 的領先模型 o1 和 o3-mini 目前支持 25 萬個 token 的上下文窗口。雖然據報導 Anthropic 正在努力擴大其上下文窗口,可能達到 50 萬個 token,但 Gemini 2.5 目前的能力顯著超過了這些數字。

為什麼大的上下文窗口對編碼如此關鍵?現代軟件開發通常涉及處理龐大的程式碼庫、多個文件、錯綜複雜的依賴關係以及長期的變更歷史。具有更大上下文窗口的模型可以同時吸收和處理更多這些周圍的信息。這使其能夠在大型專案中保持更好的一致性,理解不同程式碼模塊之間複雜的相互關係,跨文件跟踪變量使用和函數定義,並可能生成能更無縫地集成到現有結構中的程式碼,而無需開發者不斷手動提供相關上下文的片段。對於像大規模重構、理解遺留系統或開發涉及應用程式多個部分的功能等任務,一百萬 token 的上下文窗口可能是一個改變遊戲規則的因素,減少錯誤並提高 AI 貢獻的質量和相關性。

揮之不去的缺陷與監督的必要性

儘管取得了令人印象深刻的進步和積極的反饋,但保持客觀視角至關重要:Gemini 2.5,特別是其目前的「Pro Experimental」稱號,並非一個完美的編碼神諭。它仍然表現出一些與使用大型語言模型進行軟件開發相關的典型挑戰和潛在陷阱。人類判斷和勤勉監督的基本要求仍然是絕對必要的。

一個持續存在的重大擔憂領域是安全性。開發者 Kaden Bilyeu 在 X 上分享了一個實例,其中 Gemini 2.5 試圖生成用於創建客戶端 API 以處理聊天響應的程式碼。這種方法本質上是不安全的,因為它不可避免地會導致 API 金鑰在客戶端程式碼中暴露或洩露,使其可被最終用戶訪問。這突顯了即使是先進的模型也可能缺乏對安全最佳實踐的基本理解,如果盲目信任其輸出,可能會引入關鍵漏洞。開發者必須嚴格審查 AI 生成的程式碼,尤其是在身份驗證、授權和數據處理方面。

此外,該模型有效管理非常大的程式碼庫的能力收到了褒貶不一的評價,這表明其令人印象深刻的上下文窗口可能並不總能在重負載下完美轉化為實際性能。開發者 Louie Bacaj 報告稱,在要求 Gemini 2.5 對一個包含約 3500 行程式碼的程式碼庫執行操作時遇到了顯著困難。Bacaj 指出,儘管該模型聲稱在上下文處理方面有所增強,並且成功的 API 調用表明上下文已被接收,但在這個較大的專案範圍內,它經常無法準確或全面地執行所請求的任務。這表明在大型現有程式碼中有效利用整個上下文窗口進行複雜推理或操作任務可能存在局限性,或者性能可能因程式碼和任務的具體性質而異。

目前可用的 Gemini 2.5 Pro 版本所附帶的「Experimental」標籤也很重要。它表明 Google 仍在積極完善該模型。用戶應該預期到潛在的不穩定性、性能變化以及隨著 Google 收集反饋並迭代技術而持續發生的變更。雖然這個階段允許早期接觸尖端功能,但這也意味著該模型可能尚未具備最終生產版本所期望的完全可靠性或完善度。持續改進是可能的,但當前用戶實際上是在參與一個大規模的 Beta 測試。這些不完善之處強調了人類開發者在環節中不可替代的作用——不僅是為了捕捉錯誤,還包括架構決策、戰略規劃以及確保最終產品符合要求和質量標準。

更廣泛的挑戰:將力量包裝成體驗

儘管 Google DeepMind 似乎正在通過像 Gemini 2.5 這樣的模型取得卓越的技術里程碑,但一個反覆出現的主題浮出水面:將原始技術力量轉化為引人注目、易於訪問且能吸引用戶的體驗,從而抓住市場注意力的挑戰。有一種看法認為,即使 Google 開發出潛在世界領先的 AI 能力,它有時在包裝和展示這些能力方面表現不佳,無法廣泛引起用戶共鳴,尤其是與 OpenAI 等競爭對手相比。

這個問題被天使投資人 Nikunj Kothari 強調出來,他對 Google DeepMind 團隊表達了一定程度的同情。「我有點為 Google DeepMind 團隊感到難過,」他評論道,觀察到強大模型的發布與競爭對手經常產生的病毒式現象之間的對比。「你構建了一個改變世界的模型,而每個人卻在發布 Ghibli 風格化的圖片,」他補充道,指的是圍繞 OpenAI 的 GPT-4o 圖像生成能力的熱議,該能力迅速抓住了公眾的想像力。Kothari 認為這是 Google 持續面臨的挑戰:擁有能夠構建一流 AI 的巨大技術人才,但在面向消費者的產品設計和體驗這一關鍵層面上可能投入不足。「我懇求他們將 20% 最優秀的人才調配出來,讓他們自由發揮,去打造世界級的消費者體驗,」他敦促道。

這種情緒延伸到了模型的感知「個性」上。Kothari 指出,與其他領先模型相比,Gemini 2.5 的互動風格感覺「相當基礎」。這個主觀因素雖然難以量化,但卻影響著用戶的參與度以及與 AI 協作的感覺。其他幾位用戶也附和了這一觀察,表明雖然技術上很熟練,但該模型可能缺乏競爭對手所培養出的更具吸引力或更細膩的互動風格。

實際可用性問題也已浮現。例如,Gemini 2.0 Flash 模型中原生圖像生成功能的發布,其能力在技術上受到了稱讚。然而,許多用戶報告說,僅僅是找到並使用該功能就很困難。用戶界面被描述為不直觀,選項被不必要地嵌套在菜單中。這種訪問強大功能的阻力會顯著削弱用戶的熱情和採用率,無論底層技術的質量如何。如果用戶甚至難以啟動一項任務,那麼模型的強大功能對他們來說就變得無關緊要了。

反思圍繞 GPT-4o 圖像生成的「Ghibli 狂熱」,情況可能與其說是 Google 在市場營銷上徹底失敗,不如說是 OpenAI 更擅長理解和利用用戶心理。正如一位 X 用戶在談到 OpenAI 的展示時指出的那樣:「你發布兩張圖片,每個人都明白了。」演示的視覺化、易於分享和固有的創造性特質,觸及了用戶的即時興趣。相比之下,評估像 Gemini 2.5 這樣的語言模型的細微改進需要更多的努力。「你讓同樣的人去閱讀由 2.0 生成的報告,並將其與 2.5 進行比較,這比滾動和點讚需要更多時間,」該用戶詳細闡述道。

這些場景突顯了當前 AI 領域的一個關鍵教訓:僅靠技術優勢並不能保證市場領導地位或用戶偏好。易用性、直觀設計、有效傳達能力,甚至 AI 的感知個性或參與度等因素都扮演著至關重要的角色。普通用戶,包括許多專注於生產力的開發者,通常傾向於選擇那些不僅功能強大,而且使用起來令人愉悅、易於理解並能無縫集成到其工作流程中的工具。對於 Google 來說,要想充分利用像 Gemini 2.5 這樣的模型的潛力,特別是在像編碼輔助這樣競爭激烈的領域,彌合尖端研究與卓越用戶體驗之間的差距仍然是一項至關重要的任務。