Google 的 AI 野心:複製 Apple 策略?

Google 在生成式 AI (GenAI) 大型模型領域的雄心壯志,日益與 Apple 的策略相仿。最近的 Google Cloud Next 大會展示了 Google 的宏偉願景,其中包括從旨在與 Nvidia 的 GB200 相抗衡的 TPU v7 Ironwood 晶片,到旨在超越 Anthropic 的 MCP 的 Agent2Agent (A2A) 協議,以及用於 GenAI 部署的 Pathways 執行環境等創新。

Google 也積極開發諸如 ADK 和 Agentspace 等工具,以幫助開發人員創建 AI 代理。這項工作的核心是 Vertex AI,Google 的 AI 雲原生開發和部署平台。 Vertex AI 現在提供各種內容生成服務,涵蓋 Veo 2 用於視頻、Imagen 3 用於圖像、Chirp 3 用於音頻,以及 Lyria 用於音樂。顯而易見,Google Cloud 正將自身定位為向開發人員和用戶提供一套全面的 GenAI 大型模型開發應用程式。

雖然這些服務和體驗的實際可用性還有待觀察,但 Google 已經建立了一個完整的、多模態的 AI 硬體和軟體生態系統,該生態系統是自主開發、閉源且隨時可用的。

這種全面的方法描繪了一幅 Google 成為 AI 時代 Apple 的景象。

Ironwood TPU:強大的競爭者

第七代 TPU 晶片 Ironwood 的推出尤其值得關注。

  • 每個 TPU 配備 192GB 的 HBM 記憶體,頻寬範圍從 7.2 到 7.4TB/s,可能採用 HBM3E 技術。這與 Nvidia 的 B200 晶片相當,後者提供 8TB/s 的頻寬。
  • 每個液冷 TPU v7 可以實現 4.6 Petaflops 的密集 FP8 運算能力。這比 B200 的 20 Petaflops 略遜一籌。
  • 然而,Google 的 Jupiter 數據中心網路能夠擴展以支持多達 400,000 個晶片或 43 個 TPU v7x 集群。 Google 的伺服器技術專長使其能夠淡化單晶片效能指標。
  • 至關重要的是,Google 推出了一個專用的 AI 執行環境 Pathways,提高了 GenAI 模型部署的靈活性,進一步鞏固了其在服務集群領域的優勢。
  • Ironwood 提供兩種集群配置:256 個晶片或 9216 個晶片,專為特定工作負載而定制。單個集群可以達到 42.5 Exaflops 的運算能力。 Google 聲稱此效能超越了世界上最大的超級電腦 El Capitan 24 倍。但是,此數字是以 FP8 精度衡量的,而 AMD 的 El Capitan 尚未提供 FP8 精度數據。 Google 已經承認了這一點,使得直接比較變得困難。

擁抱閉源 GenAI 生態系統

Google 正在 GenAI 領域追求一個全面的閉源生態系統。雖然開源 Gemma 有其優點,但 Google 正將資源導向其閉源解決方案。

隨著 AI 代理興趣的激增,Google 在大會上宣布了 A2A 協議,爭取 50 家主流供應商與 Anthropic 的 MCP 競爭。

雖然 OpenAI 開源了其 Agents SDK,整合了其大型模型功能,但 Google 正在使用 ADK、Agentspace、AutoML、AIPlatform 和 Kubeflow 擴展 Vertex AI,注入各種模型功能。

但是,當將 GPT-4o 的圖像生成與 Gemini 2.0 Flash 的等效功能進行比較時,Google 的產品雖然雄心勃勃,但可能缺乏完善。整合眾多模型、服務和工具,雖然有利於競爭,但可能顯得為時過早。市場需要成熟、良好整合的多模態大型模型和模型內服務。

在 AI 中複製 Gmail、Chrome 和 Google 模型

Google 在 Gmail、Chrome 及其’三級火箭’方法上的成功使其能夠主導全球科技市場。該策略正在 GenAI 領域迅速實施。然而,與過去倡導開源不同,Google 越來越多地擁抱閉源開發。

Google 正在有效地將開源轉變為一種閉源形式,方法是鞏固其資源以在特定領域建立一個主導生態系統,然後徵收通行費。這種方法正面臨來自開發人員越來越多的批評。

Google 的開源機器學習框架 TensorFlow 和 Jax 已在全球取得成功。然而,新的 Pathways 執行環境是閉源的,甚至隔離了 Nvidia 的 CUDA 開發工具。

Google vs. Nvidia:AI 霸權之戰

隨著 Nvidia 倡導 Physical AI 並推出開源人形機器人通用模型 Isaac GR00T N1,Google DeepMind 正基於 Gemini 2.0 進入市場,推出 Gemini Robotics 和 Gemini Robotics-ER。

目前,Google 僅在桌面 AI 電腦市場中有所欠缺。 Nvidia 的 DGX Spark(前身為 Project DIGITS)和 DGX Station,以及 Apple 的 Mac Studio,將如何與 Google 的雲服務競爭?在會議之後,這個問題已成為業界的焦點。

Apple 對 Google Cloud 和 M3 Ultra 晶片的依賴

據報導,Apple 正在利用 Google Cloud 的 TPU 集群來訓練其大型模型,甚至由於成本考慮而放棄了 Nvidia 晶片訓練解決方案!在面臨軟體弱點的同時,Apple 正專注於其 M 系列晶片。最新款 Mac Studio 配備了 M3 Ultra 晶片,現在擁有高達 512GB 的統一記憶體。 Apple 早期採用 Google Cloud 的 Pathways 技術的潛在可能性可能使其與 Google 保持一致。

反壟斷因素

根本問題圍繞著反壟斷的擔憂。目前,Apple 的商業模式獨特地定位於應對全球反壟斷訴訟,這與面臨潛在分拆的 Microsoft 和 Google 不同。 Google 的規模使其面臨被迫剝離其核心 Android 操作系統和 Chrome 瀏覽器業務的風險。

Google 最近已停止維護 Android 開源專案 (AOSP),這使得在 AI 時代轉向 Apple 模式成為必然。隨著 AI 的突破不斷湧現,Google 的戰略轉變變得越來越明顯。

擴展 Google 的 TPU v7 Ironwood

深入研究 TPU v7 Ironwood 的規格,揭示了一款經過精心設計的硬體。 192GB 的高頻寬記憶體 (HBM) 是一個關鍵元件,允許快速的數據訪問,這對於訓練和運行複雜的 AI 模型至關重要。預計使用 HBM3E 技術突顯了 Google 對於利用記憶體技術的尖端進展的承諾。 7.2-7.4TB/s 的頻寬不僅僅是一個令人印象深刻的數字;它直接轉化為更快的處理時間以及處理更大、更複雜數據集的能力。

鑑於 Nvidia 在 GPU 市場中的主導地位,與 Nvidia 的 B200 進行比較是不可避免的。雖然 B200 提供了稍高的 8TB/s 頻寬,但 Ironwood 旨在在 Google 生態系統中的整體系統架構和整合方面實現差異化。

4.6 Petaflops 的密集 FP8 運算能力衡量了晶片執行浮點運算的能力,浮點運算是 AI 計算的基礎。與 B200 的 20 Petaflops 相比,這種差異突顯了不同的設計理念。 Google 強調其 TPU 在其數據中心基礎架構中的可擴展性和整合,而 Nvidia 則側重於晶片級的原始運算能力。

Google 的 Jupiter 數據中心網路的重要性

Google 的 Jupiter 數據中心網路是一項重要的資產,能夠無縫連接大量 TPU 晶片。支援多達 400,000 個晶片或 43 個 TPU v7x 集群的能力突顯了 Google 運營的規模。這種可擴展性是一個關鍵的差異化因素,因為它允許 Google 在大規模基礎架構上分配工作負載,從而優化效能和效率。

Google 在伺服器技術方面的專業知識是其 AI 策略中的一個關鍵因素。透過優先考慮系統級效能而不是單個晶片規格,Google 可以利用其基礎架構來實現卓越的結果。這種方法在大型 AI 模型訓練的背景下尤其重要,在這種情況下,在互連處理器網路上分配計算的能力至關重要。

揭示 Pathways AI 執行環境

Pathways 的推出是一項戰略舉措,可提高 GenAI 模型部署的靈活性和效率。這種專用的 AI 執行環境允許開發人員針對 Google 的基礎架構優化其模型,充分利用可用的硬體和軟體資源。

Pathways 代表了對 AI 軟體堆疊的一項重大投資,提供了一個用於部署和管理 AI 模型的統一平台。透過簡化部署過程,Google 旨在降低開發人員的進入門檻,並鼓勵採用其 AI 服務。反過來,這將推動創新,並圍繞 Google 的 AI 平台創建一個充滿活力的生態系統。

深入了解 Google 的閉源策略

Google 在 GenAI 領域採用閉源策略是一種深思熟慮的選擇,反映了其對 AI 的長期願景。雖然開源 Gemma 對 AI 社群做出了寶貴的貢獻,但 Google 顯然優先考慮其閉源解決方案,因為它認識到它們提供了更大的控制權和客製化能力。

透過專注於閉源開發,Google 可以針對特定任務優化其 AI 模型和基礎架構,從而確保最大的效能和效率。這種方法還允許 Google 保護其智慧財產權,並在快速發展的 AI 格局中保持競爭優勢。

閉源方法並非沒有批評者,他們認為它會扼殺創新並限制協作。然而,Google 堅持認為,這是確保其 AI 服務的品質、安全性和可靠性的必要條件。

A2A 協議與 AI 代理霸權之戰

AI 代理的出現在 AI 行業中開闢了一個新的戰場,Google 決心成為該領域的領導者。在 Google Cloud Next 大會上宣布 A2A 協議清楚地表明了 Google 的雄心。

透過爭取 50 家主流供應商支援 A2A 協議,Google 試圖為 AI 代理通訊創建一個統一標準。這將允許來自不同平台的 AI 代理無縫互動,從而創建一個更加互連和協作的 AI 生態系統。

與 Anthropic 的 MCP 的競爭是 Google AI 代理策略的一個關鍵方面。 Anthropic 是一家備受尊敬的 AI 研究公司,其 MCP 協議已在行業內獲得了廣泛關注。 Google 的 A2A 協議代表了對 MCP 的直接挑戰,而這場競爭的結果將對 AI 代理的未來產生重大影響。

Vertex AI:一個全面的 AI 開發平台

Google 的 Vertex AI 是一個全面的 AI 開發平台,為開發人員提供廣泛的工具和服務。透過整合 ADK、Agentspace、AutoML、AIPlatform 和 Kubeflow,Google 正在創建一個 AI 開發的一站式商店。

Vertex AI 旨在簡化 AI 開發過程,使開發人員更容易構建、訓練和部署 AI 模型。該平台還提供對大量預訓練模型的訪問,允許開發人員快速將 AI 功能整合到其應用程式中。

整合各種模型功能是 Vertex AI 的一個關鍵優勢。透過提供各種模型,Google 正在滿足從圖像識別到自然語言處理的廣泛用例。這種全面的方法使 Vertex AI 成為尋求通用且強大的 AI 開發平台的開發人員的引人注目的選擇。

Google 的模型整合:雄心 vs. 執行

雖然 Google 整合眾多模型、服務和工具的雄心值得稱讚,但執行可能需要進一步完善。市場需要成熟、良好整合的多模態大型模型和模型內服務。 Google 目前的產品雖然前景廣闊,但可能需要進一步完善才能滿足這些期望。

整合各種 AI 功能是一項複雜的任務,而 Google 面臨的挑戰是如何確保其不同的模型和服務能夠無縫協同工作。這需要仔細關注細節並致力於持續改進。

最終,Google 的模型整合工作的成功將取決於其提供既強大又直觀的使用者體驗的能力。這將需要深入了解使用者需求,並始終關注品質。