Google 最新發布的第七代張量處理單元 (Tensor Processing Unit, TPU),命名為 Ironwood,重新定義了人工智慧領域。這款尖端的 AI 加速器具備強大的運算能力,甚至超越了世界上最强大的超級電腦。 在大規模部署中,Ironwood 的效能比最快的超級電腦高出驚人的 24 倍。
在 Google Cloud Next ‘25 大會上發布 Ironwood,標誌著 Google 在 AI 晶片創新方面十年追求的關鍵時刻。 雖然之前的 TPU 版本主要用於 AI 模型的訓練和推論工作負載,但 Ironwood 作為第一款經過精心設計和優化以執行推論任務的晶片而脫穎而出。
Google 機器學習、系統和雲端 AI 副總裁兼總經理 Amin Vahdat 表示:「Ironwood 旨在推動下一階段的生成式 AI,解決其巨大的運算和通訊需求。 我們正在進入我們稱之為『推論時代』的階段,在這個時代,AI 代理將主動檢索和生成數據,以協作方式提供見解和答案,從而超越單純的數據處理能力。」
釋放前所未有的運算能力:深入了解 Ironwood 的能力
Ironwood 的技術規格聽起來像是 AI 研究人員和開發人員的願望清單。 Ironwood 可擴展到包含 9,216 個晶片的叢集,可提供驚人的 42.5 exaflops 的 AI 運算能力。 為了更好地理解這個數字,它遠遠超過了目前超級電腦冠軍 El Capitan 的能力,後者的峰值為 1.7 exaflops。 單獨來看,每個 Ironwood 晶片都具有 4614 TFLOPs 的峰值運算能力。
除了原始處理能力之外,Ironwood 還在記憶體和頻寬方面引入了重大改進。 每個晶片都配備 192GB 的高頻寬記憶體 (High Bandwidth Memory, HBM),比上一代 TPU Trillium 增加了六倍。 記憶體頻寬也得到了顯著提升,每個晶片達到 7.2 terabits/s,是 Trillium 的 4.5 倍。
在數據中心不斷擴張且功耗日益成為關鍵因素的時代,Ironwood 展現出卓越的能源效率。 它的每瓦效能是 Trillium 的兩倍,幾乎是 2018 年推出的最初 TPU 的 30 倍。
這種轉向推論優化代表了 AI 發展的一個重要里程碑。 近年來,領先的 AI 實驗室一直專注於構建具有不斷擴展的參數數量的基礎模型。 Google 對推論優化的重視,標誌著一種轉變,即優先考慮部署效率和實際推論能力。
雖然 AI 模型訓練是一種相對不頻繁的活動,但隨著 AI 技術變得越來越普及,推論操作每天會發生數十億次。 以 AI 為動力的企業的經濟可行性與推論成本密切相關,尤其是在模型變得越來越複雜的情況下。
在過去的八年中,Google 對 AI 運算的需求呈指數級增長,增長了十倍,達到驚人的 1 億。 如果沒有像 Ironwood 這樣的專用架構,僅靠摩爾定律無法維持這種增長軌跡。
Google 強調能夠執行複雜推論任務的「推理模型」,而不是簡單的模式識別,這一點尤其值得注意。 這表明 Google 設想的未來,AI 不僅能透過更大的模型來實現卓越表現,還能透過能夠分解問題、執行多步驟推理以及模擬人類思維過程的模型來實現卓越表現。
為下一代大型語言模型提供動力
Google 將 Ironwood 定位為其最先進的 AI 模型(包括具有「原生推理能力」的 Gemini 2.5)的基礎架構。
除了 Ironwood 之外,Google 還推出了 Gemini 2.5 Flash,這是其旗艦模型的精簡版本,專為延遲敏感的日常應用而設計。 Gemini 2.5 Flash 可以根據提示的複雜性動態調整其推理深度。
Google 還展示了其多模式生成模型套件,包括文字轉圖像、文字轉影片以及新推出的文字轉音樂功能 Lyria。 一個引人注目的演示突顯了如何將這些工具結合起來,為音樂會製作完整的宣傳影片。
Ironwood 只是 Google 全面 AI 基礎架構策略的一個組成部分。 該公司還推出了 Cloud WAN,這是一種託管廣域網路服務,使企業能夠利用 Google 的全球規模私人網路基礎架構。
Google 還在擴展其用於 AI 工作負載的軟體產品,包括 Pathways,這是一種由 Google DeepMind 開發的機器學習運行時,它允許客戶跨數百個 TPU 擴展模型服務。
協作智慧願景:引入 A2A 和 MCP 支援
除了硬體進步之外,Google 還闡述了其以多代理系統為中心的 AI 願景,並引入了 Agent-to-Agent (A2A) 協定,旨在促進不同 AI 代理之間的安全和標準化通訊。
Google 預計 2025 年將是 AI 轉型的一年,生成式 AI 應用程式將從回答單一問題發展為透過互連的代理系統解決複雜問題。
A2A 協定實現跨平台和框架的互通性,為 AI 代理提供通用的「語言」和安全的通訊管道。 可以將其視為 AI 代理的網路層,簡化了複雜工作流程中的協作,並使專業 AI 代理能夠集體處理不同複雜性和持續時間的任務,從而透過協作增強整體能力。
A2A 的運作方式
Google 提供了 MCP 和 A2A 協定的比較概述:
- MCP (模型上下文協定): 專注於工具和資源管理。
- 透過結構化的輸入/輸出將代理連接到工具、API 和資源。
- Google ADK 支援 MCP 工具,促進 MCP 伺服器和代理之間的無縫交互。
- A2A (代理對代理協定): 促進代理之間的協作。
- 實現代理之間的動態、多模式通訊,而無需共享記憶體、資源或工具。
- 它是由社群驅動的開放標準。
- 可以使用 Google ADK、LangGraph 和 Crew.AI 等工具探索範例。
A2A 和 MCP 是互補的。 MCP 為代理配備工具,而 A2A 則使這些配備工具的代理能夠交談和協作。
Google 的初始合作夥伴名單表明,A2A 準備獲得與 MCP 類似的關注。 該倡議已經吸引了 50 多個組織,包括領先的科技公司以及全球諮詢和系統整合提供商。
Google 強調該協定的開放性,將其定位為跨越底層技術框架或服務提供商的代理間協作標準。 Google 強調了塑造協定設計的五項指導原則:
- 擁抱代理能力: A2A 優先考慮使代理能夠自然地協作,即使沒有共享記憶體、工具或上下文。 目標是實現真正的多代理場景,而不僅僅是將代理限制為充當「工具」。
- 建立在現有標準之上: 該協定利用現有的、廣泛採用的標準,包括 HTTP、SSE 和 JSON-RPC,簡化了與現有 IT 堆疊的整合。
- 預設安全: A2A 旨在支援企業級身份驗證和授權,與 OpenAPI 的身份驗證方案相當。
- 支援長時間執行的任務: A2A 的靈活性使其能夠支援各種場景,從快速任務到可能需要數小時甚至數天的深入研究(尤其是在需要人工參與時)。 在整個過程中,A2A 可以為使用者提供即時回饋、通知和狀態更新。
- 模態無關: 認識到代理的世界不僅限於文字,A2A 支援各種模態,包括音訊和視訊串流。
Google 提供了一個 A2A 如何簡化招聘流程的範例。
在像 Agentspace 這樣的統一介面中,招聘經理可以分配一個代理來根據職位要求識別合適的候選人。 該代理可以與專業代理交互以尋找候選人。 使用者還可以指示代理安排面試並聯絡其他專業代理來協助進行背景調查,從而在整個系統中實現完全自動化和智慧化的招聘。
擁抱模型上下文協定 (MCP)
Google 也在擁抱 MCP。 在 OpenAI 宣布採用 Anthropic 的模型上下文協定 (MCP) 後不久,Google 也緊隨其後。
Google DeepMind CEO Demis Hassabis 在 X(前身為 Twitter)上宣布,Google 將在其 Gemini 模型和 SDK 中添加對 MCP 的支援,儘管他沒有提供具體的時間表。
Hassabis 表示,「MCP 是一個優秀的協定,並且正在迅速成為 AI 代理時代的開放標準。 我們期待與 MCP 團隊和業界的其他合作夥伴合作,以推進這項技術。」
自 2024 年 11 月發布以來,MCP 作為一種將語言模型與工具和數據連接起來的簡單、標準化方式,已獲得了顯著的關注。
MCP 使 AI 模型能夠存取來自企業工具和軟體的數據,以完成任務並存取內容庫和應用程式開發環境。 該協定允許開發人員在數據源和 AI 驅動的應用程式(例如聊天機器人)之間建立雙向連接。
開發人員可以透過 MCP 伺服器公開數據介面,並構建 MCP 用戶端(例如應用程式和工作流程)以連接到這些伺服器。 由於 Anthropic 開源了 MCP,因此多家公司已將 MCP 支援整合到其平台中。
Ironwood:AI 新紀元的曙光
Google 的 Ironwood TPU 代表了 AI 運算領域的重大飛躍。 其前所未有的效能、優化的架構以及對 A2A 和 MCP 等新興協定的支援,使其成為下一波 AI 創新的關鍵推動者。 隨著 AI 模型變得越來越複雜和要求越來越高,Ironwood 提供了釋放新可能性並轉變全球各個產業所需的原始能力和靈活性。 它不僅僅是一個新的晶片;它是智慧機器協作解決複雜問題和改善我們生活的未來的基礎。