Google 第七代張量處理單元 (TPU) Ironwood 的發表,顯著地改變了人工智慧 (AI) 處理的格局。這款尖端 AI 加速器,在大規模部署中,其運算能力超越了世界上最快的超級電腦 24 倍以上。
這款新晶片於 Google Cloud Next ‘25 大會上亮相,標誌著 Google 在 AI 晶片開發領域長達十年的戰略性重要時刻。與其主要為 AI 訓練和推論工作負載而設計的前代產品不同,Ironwood 專門為推論而設計,這表示 Google 將戰略轉向優化 AI 部署效率。
Google 機器學習、系統和雲端 AI 副總裁兼總經理 Amin Vahdat 強調了這種轉變,他表示:’Ironwood 旨在支持下一階段的生成式 AI 及其巨大的運算和通訊需求。這就是我們所說的’推論時代’,AI 代理程式將主動檢索和產生資料,以協同提供洞察和答案,而不僅僅是處理資料。’
以 42.5 Exaflops 的運算能力打破障礙
Ironwood 的技術規格確實令人印象深刻。當擴展到 9,216 個晶片的 Pod 時,它可以提供驚人的 42.5 exaflops 的 AI 運算能力。為了方便理解,它遠遠超過了目前世界上最快的超級電腦 El Capitan,後者的運算速度為 1.7 exaflops。每個 Ironwood 晶片都可以實現 4614 TFLOPs 的峰值運算能力。
除了原始處理能力之外,Ironwood 還顯著提高了記憶體和頻寬。每個晶片都配備了 192GB 的高頻寬記憶體 (HBM),與去年發布的上一代 TPU Trillium 相比,增加了六倍。每個晶片的記憶體頻寬達到 7.2 terabits/s,是 Trillium 的 4.5 倍。
- 運算能力: 42.5 exaflops(每個包含 9,216 個晶片的 Pod)
- 每個晶片的峰值運算能力: 4614 TFLOPs
- 記憶體: 每個晶片 192GB HBM
- 記憶體頻寬: 每個晶片 7.2 terabits/s
在資料中心不斷擴張且功耗日益受到關注的時代,Ironwood 在能源效率方面也展現出顯著的改進。與 Trillium 相比,它提供的每瓦效能是 Trillium 的兩倍,幾乎是 2018 年推出的第一款 TPU 的 30 倍。
這種針對推論的優化標誌著 AI 發展的一個關鍵轉捩點。近年來,領先的 AI 實驗室一直專注於開發參數數量不斷增加的越來越大的基礎模型。Google 專注於推論優化,這表明 Google 正在轉向以部署效率和推論能力為中心的新範例。
雖然模型訓練仍然至關重要,但推論操作的頻率要高得多,隨著 AI 技術變得越來越普及,每天會發生數十億次。對於利用 AI 的企業而言,隨著模型變得越來越複雜,經濟效益與推論成本密切相關。
Google 的 AI 運算需求在過去八年中增長了十倍,達到驚人的 1 億。如果沒有像 Ironwood 這樣的專用架構,僅憑摩爾定律的傳統進步,就不可能維持這種增長軌跡。
值得注意的是,Google 的公告強調專注於能夠執行複雜推論任務而非簡單模式識別的’推理模型’。這表明 Google 認為 AI 的未來不僅在於更大的模型,還在於能夠分解問題、進行多步驟推理和模仿類人思維過程的模型。
為下一代大型模型提供動力
Google 將 Ironwood 定位為其最先進的 AI 模型(包括其自身的 Gemini 2.5,該模型擁有’原生推理能力’)的基礎架構。
該公司最近還推出了 Gemini 2.5 Flash,這是其旗艦模型的較小版本,旨在’根據提示的複雜性調整推理深度’。該模型適用於需要快速回應時間的日常應用。
Google 進一步展示了其全面的多模式生成模型套件,包括文字轉圖像、文字轉視訊以及其新推出的文字轉音樂功能 Lyria。一個演示說明瞭如何結合使用這些工具來為音樂會創建完整的宣傳視訊。
Ironwood 只是 Google 更廣泛的 AI 基礎架構戰略的一個組成部分。該公司還宣布推出 Cloud WAN,這是一種託管廣域網路服務,可為企業提供對 Google 全球規模私人網路基礎架構的存取。
Google 也在擴展其 AI 工作負載的軟體產品,包括 Pathways,這是 Google DeepMind 開發的機器學習運行時。Pathways 現在允許客戶跨數百個 TPU 擴展模型服務。
推出 A2A:培養智慧代理程式協作的生態系統
除了硬體進步之外,Google 還提出了其以多代理程式系統為中心的 AI 願景,並推出了一種協定,以促進智慧代理程式的開發:代理程式間協定 (A2A)。該協定旨在促進不同 AI 代理程式之間的安全和標準化通訊。
Google 認為,2025 年將是 AI 轉型的一年,生成式 AI 的應用將從回答單一問題發展到透過智慧代理程式系統解決複雜問題。
A2A 協定可實現跨平台和框架的互通性,為代理程式提供通用的’語言’和安全的通訊管道。該協定可以被視為智慧代理程式的網路層,旨在簡化複雜工作流程中的代理程式協作。它使專業的 AI 代理程式能夠協同工作,處理不同複雜性和持續時間的任務,最終透過協作增強整體能力。
A2A 的運作方式
Google 在其部落格文章中提供了 MCP 和 A2A 協定之間的比較:
- MCP(模型上下文協定): 用於工具和資源管理
- 透過結構化輸入/輸出將代理程式連接到工具、API 和資源。
- Google ADK 支援 MCP 工具,使各種 MCP 伺服器能夠與代理程式協同工作。
- A2A(代理程式間協定): 用於代理程式之間的協作
- 實現代理程式之間動態的多模式通訊,而無需共享記憶體、資源或工具。
- 由社群驅動的開放標準。
- 可以使用 Google ADK、LangGraph 和 Crew.AI 等工具查看範例。
本質上,A2A 和 MCP 是互補的。MCP 為代理程式提供工具支援,而 A2A 允許這些配備的代理程式彼此通訊和協作。
Google 宣布的合作夥伴名單表明,A2A 將獲得與 MCP 類似的關注。該計劃已經吸引了 50 多家公司加入其初始協作隊列,其中包括領先的技術公司和頂級全球諮詢和系統整合服務提供商。
Google 強調了該協定的開放性,將其定位為代理程式協作的標準方法,獨立於底層技術框架或服務提供商。該公司表示,在與合作夥伴設計協定時,它遵循以下五個關鍵原則:
- 擁抱代理程式能力: A2A 專注於使代理程式能夠以其自然的、非結構化的方式進行協作,即使它們不共享記憶體、工具和上下文。目標是實現真正的多代理程式場景,而不僅僅將代理程式限制為簡單的’工具’。
- 基於現有標準構建: 該協定基於現有的流行標準構建,包括 HTTP、SSE 和 JSON-RPC,使其更易於與企業使用的現有 IT 堆疊整合。
- 預設情況下安全: A2A 旨在支援企業級身份驗證和授權,與 OpenAPI 在發布時的身份驗證方案相當。
- 支援長時間運行的任務: A2A 設計靈活,可支援各種場景,從快速任務到可能需要數小時甚至數天(當人類參與時)的深入研究。在整個過程中,A2A 可以為用戶提供即時回饋、通知和狀態更新。
- 模態不可知: 代理程式的世界不僅限於文字,這就是為什麼 A2A 設計為支援各種模態,包括音訊和視訊串流。
範例:透過 A2A 簡化招聘流程
Google 提供的一個範例說明瞭 A2A 如何顯著簡化招聘流程。
在像 Agentspace 這樣的統一介面中,招聘經理可以分配一個代理程式來根據職位要求尋找合適的候選人。該代理程式可以與特定領域的專業代理程式互動,以完成候選人尋找。用戶還可以指示代理程式安排面試,並啟用其他專業代理程式來協助進行背景調查,從而實現完全自動化的跨系統協作招聘。
擁抱 MCP:加入模型上下文協定生態系統
同時,Google 也在擁抱 MCP。在 OpenAI 宣布採用 Anthropic 的模型上下文協定 (MCP) 幾週後,Google 也隨之加入該計劃。
Google DeepMind CEO Demis Hassabis 在 X 上宣布,Google 將在其 Gemini 模型和 SDK 中添加對 MCP 的支援,儘管沒有提供具體的時間表。
Hassabis 表示:’MCP 是一種出色的協定,正迅速成為 AI 代理程式時代的開放標準。我們期待與 MCP 團隊和業界的其他合作夥伴合作,以推進這項技術的發展。’
自 2024 年 11 月發布以來,MCP 迅速獲得了普及和廣泛關注,成為將語言模型與工具和資料連接起來的一種簡單且標準化的方法。
MCP 使 AI 模型能夠存取來自資料來源(例如企業工具和軟體)的資料以完成任務,並存取內容庫和應用程式開發環境。該協定允許開發人員在資料來源和 AI 驅動的應用程式(例如聊天機器人)之間建立雙向連接。
開發人員可以透過 MCP 伺服器公開資料介面,並構建 MCP 客戶端(例如應用程式和工作流程)以連接到這些伺服器。由於 Anthropic 開源了 MCP,因此許多公司已將 MCP 支援整合到其平台中。
增強對關鍵概念的分解:
為了進一步闡明 Google 最近公告的影響和意義,讓我們更深入地研究核心組件:Ironwood、A2A 和 MCP。
Ironwood:深入推論時代
從主要關注訓練模型轉向優化推論,是 AI 領域的一個關鍵演變。訓練包括將大量資料饋送到模型,以教會它識別模式並進行預測。另一方面,推論是使用經過訓練的模型對新的、未見過的資料進行預測的過程。
雖然訓練是一項資源密集型的一次性(或不頻繁)事件,但推論在現實世界的應用中會持續且大規模地發生。考慮以下應用:
- 聊天機器人: 即時回應用戶查詢。
- 推薦系統: 根據用戶偏好建議產品或內容。
- 欺詐檢測: 在欺詐交易發生時識別它們。
- 圖像識別: 分析圖像以識別物體、人物或場景。
這些應用需要快速、高效的推論才能提供無縫的用戶體驗。Ironwood 專門為擅長這些任務而設計。
Ironwood 在推論方面的主要優勢:
- 高吞吐量: 巨大的運算能力(42.5 exaflops)使 Ironwood 能夠同時處理大量推論請求。
- 低延遲: 高頻寬記憶體 (HBM) 和高效架構最大限度地縮短了處理每個推論請求所需的時間。
- 能源效率: 改進的每瓦效能降低了與運行大規模推論部署相關的運營成本。
透過優化推論,Google 使企業能夠更高效且更具成本效益地部署 AI 驅動的應用程式。
A2A:協作 AI 的基礎
代理程式間協定 (A2A) 代表著朝著創建更複雜和協作的 AI 系統邁出的重要一步。在多代理程式系統中,多個 AI 代理程式協同工作以解決一個複雜的問題。每個代理程式可能都有其自身的專業技能和知識,並且它們相互溝通和協調以實現共同目標。
考慮一個涉及自動化客戶支援的場景:
- 代理程式 1: 了解客戶的初始查詢並識別底層問題。
- 代理程式 2: 存取知識庫以尋找相關資訊。
- 代理程式 3: 如有必要,安排與人工代理程式的後續預約。
這些代理程式需要能夠無縫地溝通和共享資訊,以提供有凝聚力的客戶體驗。A2A 為此類協作提供了框架。
A2A 的主要優點:
- 互通性: 允許在不同平台和框架上開發的代理程式相互通訊。
- 標準化: 為代理程式通訊提供通用的’語言’和一組協定。
- 安全性: 確保代理程式之間的安全通訊,保護敏感資料。
- 靈活性: 支援各種通訊模態,包括文字、音訊和視訊。
透過促進 AI 代理程式之間的協作,A2A 能夠開發更強大和多功能的 AI 系統。
MCP:彌合 AI 與資料之間的差距
模型上下文協定 (MCP) 解決了將 AI 模型連接到有效執行其任務所需的大量資料的挑戰。AI 模型需要存取來自各種來源(例如資料庫、API 和雲端服務)的即時資料,才能做出準確的預測和明智的決策。
MCP 提供了一種標準化的方式,供 AI 模型存取這些資料來源並與之互動。它定義了一組協定,用於:
- 資料發現: 識別可用的資料來源。
- 資料存取: 從資料來源檢索資料。
- 資料轉換: 將資料轉換為 AI 模型可以理解的格式。
透過提供標準化的資料存取介面,MCP 簡化了將 AI 模型與現實世界資料整合的過程。
MCP 的主要優點:
- 簡化的整合: 使將 AI 模型連接到資料來源變得更容易。
- 標準化: 為資料存取提供一組通用的協定。
- 提高效率: 減少了存取和轉換資料所需的時間和精力。
- 提高準確性: 使 AI 模型能夠存取最新的資訊,從而產生更準確的預測。
透過將 AI 模型連接到它們需要的資料,MCP 使它們能夠更有效地執行並提供更大的價值。