Google Ironwood TPU:AI算力大躍進

Google 的 Ironwood TPU:AI 算力大躍進

人工智慧 (AI) 的發展日新月異,硬體的進步在釋放新的可能性方面扮演著關鍵角色。 作為 AI 創新的領導者,Google 最近推出了其第七代張量處理單元 (TPU),代號 Ironwood,標誌著 AI 計算能力的一次重大飛躍。 這種尖端的 AI 加速器擁有強大的運算能力,即使在大型部署中,也能以驚人的 24 倍超越世界上最快的超級電腦。

Ironwood 在 Google Cloud Next ‘25 大會上宣布,代表了 Google 在 AI 晶片開發十年歷程中的戰略轉變。 與主要為 AI 訓練和推論工作負載設計的前幾代產品不同,Ironwood 專門設計用於擅長推論任務,預示著 AI 驅動應用程式的新時代。

根據 Google 機器學習、系統和雲端 AI 副總裁兼總經理 Amin Vahdat 的說法,’Ironwood 旨在支持下一階段的生成式 AI 及其巨大的運算和通訊需求。 這就是我們所說的「推論時代」,在此時代中,AI 代理將主動檢索和產生數據,以協作提供見解和答案,而不僅僅是數據。’

揭示 Ironwood 前所未有的能力

Ironwood 的技術規格簡直非同尋常。 當擴展到包含 9,216 個晶片的叢集時,它可以提供驚人的 42.5 exaflops 的 AI 計算能力。 這個數字使 El Capitan(目前世界上最快的超級電腦的保持者)提供的 1.7 exaflops 相形見絀。 每個 Ironwood 晶片的峰值計算能力為 4,614 TFLOPs。

除了純粹的處理能力之外,Ironwood 還在記憶體和頻寬方面具有顯著的改進。 每個晶片都配備了 192GB 的高頻寬記憶體 (HBM),比去年發布的上一代 TPU Trillium 增加了六倍。 此外,每個晶片的記憶體頻寬達到 7.2 terabits/s,比 Trillium 提高了 4.5 倍。

在數據中心不斷擴張且功耗成為一個關鍵問題的時代,Ironwood 在能源效率方面也脫穎而出。 它的每瓦效能是 Trillium 的兩倍,幾乎是 2018 年推出的第一款 TPU 的 30 倍。

對推論最佳化的強調標誌著 AI 格局的一個關鍵轉變。 近年來,領先的 AI 實驗室主要專注於構建具有越來越多參數的更大的基礎模型。 Google 對推論最佳化的關注表明,正在轉向以部署效率和推論能力為中心的新階段。

雖然模型訓練仍然至關重要,但訓練迭代的次數是有限的。 相反,隨著 AI 技術越來越多地整合到各種應用程式中,預計每天會發生數十億次的推論操作。 隨著模型複雜性的增加,這些應用程式的經濟可行性與推論成本密不可分。

在過去的八年中,Google 對 AI 計算的需求增長了十倍,達到驚人的 1 億。 如果沒有像 Ironwood 這樣的專用架構,即使摩爾定律的不斷進步也難以跟上這種指數級的增長。

值得注意的是,Google 的聲明強調了其對能夠執行複雜推理任務而不是簡單模式識別的「心理模型」的關注。 這表明 Google 設想的未來,AI 不僅僅是更大的模型,還包括可以分解問題、執行多步驟推理並模仿類似人類思維過程的模型。

為下一代大型模型提供動力

Google 將 Ironwood 定位為其最先進 AI 模型(包括 Gemini 2.5)的基礎架構,該模型具有內置的推理能力。

Google 最近還推出了 Gemini 2.5 Flash,這是其旗艦模型的一個較小變體,專為延遲敏感的日常應用程式而設計。 Gemini 2.5 Flash 可以根據提示的複雜性動態調整其推理深度。

Google 還展示了其全面的多模態生成模型套件,包括文字到圖像、文字到影片以及新推出的文字到音樂功能 Lyria。 一個演示說明了如何組合這些工具來製作完整的音樂會宣傳影片。

Ironwood 只是 Google 更廣泛的 AI 基礎架構策略的一個組成部分。 Google 還宣布了 Cloud WAN,這是一種託管廣域網路服務,使企業能夠存取 Google 的全球規模的私有網路基礎架構。

此外,Google 正在擴展其針對 AI 工作負載的軟體產品,包括由 Google DeepMind 開發的機器學習運行時 Pathways。 Pathways 現在允許客戶跨數百個 TPU 擴展模型服務。

通過 A2A 促進 AI 代理協作

除了硬體方面的進步之外,Google 還概述了其以多代理系統為中心的 AI 生態系統願景。 為了促進智能代理的開發,Google 引入了 Agent-to-Agent (A2A) 協定,旨在實現不同 AI 代理之間的安全和標準化通訊。

Google 認為 2025 年將是 AI 的變革之年,生成式 AI 應用程式將從回答單一問題發展為通過代理系統解決複雜問題。

A2A 協定實現了跨不同平台和框架的代理之間的互操作性,為它們提供了通用的「語言」和安全的通訊通道。 該協定可以被視為智能代理的網路層,旨在簡化複雜工作流程中的代理協作。 通過使專業 AI 代理能夠協同處理各種複雜性和持續時間的任務,A2A 旨在通過協作增強整體能力。

A2A 的工作方式是建立一種標準化的方式供代理交換資訊和協調行動,而無需它們共享底層程式碼或數據結構。 這允許創建更模組化和靈活的 AI 系統,在這些系統中,可以根據需要輕鬆地添加、刪除或重新配置代理。

Google 在一篇部落格文章中比較了 MCP 和 A2A 協定。

  • MCP (模型上下文協定) 旨在用於工具和資源管理。
    • 它通過結構化輸入/輸出將代理連接到工具、API 和資源。
    • Google ADK 支持 MCP 工具,使各種 MCP 伺服器能夠與代理協同工作。
  • A2A (代理到代理協定) 旨在用於代理之間的協作。
    • 它實現了代理之間的動態、多模態通訊,而無需共享記憶體、資源或工具。
    • 它是由社群驅動的開放標準。
    • 可以使用 Google ADK、LangGraph、Crew.AI 和其他工具查看範例。

本質上,A2A 和 MCP 是互補的:MCP 為代理提供工具支持,而 A2A 使這些配備工具的代理能夠相互通訊和協作。

從最初的合作夥伴來看,A2A 似乎有望獲得與 MCP 類似的關注。 超過 50 家公司加入了最初的合作,包括領先的科技公司和頂級的全球諮詢和系統集成服務提供商。

Google 強調該協定的開放性,將其定位為代理協作的標準方式,而不管底層技術框架或服務提供商如何。 Google 概述了與合作夥伴合作設計協定的五個關鍵原則:

  1. 擁抱代理能力: A2A 專注於使代理能夠以其自然的、非結構化的方式進行協作,即使它們不共享記憶體、工具和上下文。 該協定旨在實現真正的多代理情境,而不是將代理限制為僅僅是「工具」。
  2. 建立在現有標準之上: 該協定建立在現有的流行標準之上,包括 HTTP、SSE 和 JSON-RPC,使其更容易與企業常用的現有 IT 堆疊集成。
  3. 預設安全: A2A 旨在支持企業級的身份驗證和授權,可與 OpenAPI 發布時的身份驗證方案相媲美。
  4. 支持長時間運行的任務: A2A 設計具有靈活性,支持廣泛的情境,從快速任務到可能需要數小時甚至數天(當有人參與時)的深入研究。 在整個過程中,A2A 可以為用戶提供實時反饋、通知和狀態更新。
  5. 模態不可知: 代理的世界不僅限於文字,這就是為什麼 A2A 設計用於支持各種模態,包括音訊和視訊流。

Google 提供了一個範例,說明 A2A 如何顯著簡化招聘流程。

在像 Agentspace 這樣的統一介面中,招聘經理可以分配一個代理,根據職位要求尋找合適的候選人。 該代理可以與專業代理互動以尋找候選人、安排面試,甚至可以與其他專業代理合作以協助進行背景調查,從而實現跨不同系統的整個招聘流程的智能自動化。

擁抱模型上下文協定 (MCP)

除了在開發 A2A 方面所做的努力之外,Google 還在擁抱模型上下文協定 (MCP)。 在 OpenAI 宣布採用 MCP 幾週後,Google 也隨之效仿。

Google DeepMind 的 CEO Demis Hassabis 最近在 X 上宣布,Google 將把對 MCP 的支持添加到其 Gemini 模型和 SDK 中。 但是,他沒有提供具體的時間表。

Hassabis 表示,’MCP 是一個出色的協定,正在迅速成為 AI 代理時代的開放標準。 我期待與 MCP 團隊和行業中的其他合作夥伴合作,以推進這項技術。’

自 2024 年 11 月發布以來,MCP 迅速受到歡迎,成為一種簡單且標準化的方式,將語言模型與工具和數據連接起來。

MCP 使 AI 模型能夠存取來自企業工具和軟體等來源的數據以完成任務,以及存取內容庫和應用程式開發環境。 該協定允許開發人員在數據源和 AI 驅動的應用程式(例如聊天機器人)之間建立雙向連接。

開發人員可以通過 MCP 伺服器公開數據介面,並構建 MCP 客戶端(例如應用程式和工作流程)以連接到這些伺服器。 由於 Anthropic 開源了 MCP,因此多家公司已將 MCP 支持集成到其平台中。