人工智能领域因谷歌发布的第七代张量处理单元 (TPU) Ironwood 而被重新定义。这款尖端的AI加速器拥有强大的计算能力,甚至超越了世界上最强大的超级计算机。在大规模部署中,Ironwood 的能力比最快的超级计算机高出惊人的 24 倍。
Ironwood 在 Google Cloud Next ‘25 活动上的亮相,标志着谷歌在 AI 芯片创新方面十年追求的关键时刻。虽然之前的 TPU 迭代主要满足 AI 模型的训练和推理工作负载,但 Ironwood 作为首款经过精心设计和优化的推理任务芯片而脱颖而出。
谷歌机器学习、系统和云 AI 副总裁兼总经理 Amin Vahdat 表示:“Ironwood 旨在推动生成式 AI 的下一阶段发展,解决其巨大的计算和通信需求。我们正在进入所谓的‘推理时代’,AI 代理将主动检索和生成数据,以协作方式提供见解和答案,超越单纯的数据处理能力。”
释放前所未有的计算能力:深入了解 Ironwood 的功能
Ironwood 的技术规格就像 AI 研究人员和开发人员的愿望清单。Ironwood 扩展到包含 9,216 个芯片的 pod,可提供惊人的 42.5 exaflops 的 AI 计算能力。为了说明这一点,它大大超过了当前在位的超级计算机冠军 El Capitan 的能力,后者峰值仅为 1.7 exaflops。单独来看,每个 Ironwood 芯片都拥有 4614 TFLOPs 的峰值计算能力。
除了原始处理能力之外,Ironwood 还引入了内存和带宽方面的重大增强。每个芯片都配备了 192GB 的高带宽内存 (HBM),与上一代 TPU Trillium 相比增加了六倍。内存带宽也得到了显著提升,每个芯片达到 7.2 terabits/s,是 Trillium 的 4.5 倍。
在数据中心不断扩张且功耗变得越来越关键的时代,Ironwood 表现出卓越的能源效率。它的每瓦性能是 Trillium 的两倍,几乎是 2018 年推出的初始 TPU 的 30 倍。
这种向推理优化的转变代表了 AI 发展的一个重要里程碑。近年来,领先的 AI 实验室一直专注于构建具有不断扩展的参数数量的基础模型。谷歌对推理优化的强调表明,重点正在转向优先考虑部署效率和现实世界的推理能力。
虽然 AI 模型训练是一种相对不频繁的活动,但随着 AI 技术变得越来越普及,推理操作每天发生数十亿次。AI 驱动型业务的经济可行性与推理成本密切相关,尤其是在模型变得越来越复杂的情况下。
在过去的八年中,谷歌对 AI 计算的需求呈指数级增长,增长了十倍,达到了惊人的 1 亿。如果没有像 Ironwood 这样的专用架构,仅靠摩尔定律无法维持这种增长轨迹。
谷歌对能够执行复杂推理任务的“推理模型”的强调,而不是简单的模式识别,尤其值得注意。这表明谷歌设想了一个未来,AI 不仅通过更大的模型来擅长,而且还通过能够分解问题、执行多步推理和模仿人类思维过程的模型来擅长。
为下一代大型语言模型提供动力
谷歌将 Ironwood 定位为其最先进的 AI 模型(包括 Gemini 2.5,它拥有“原生推理能力”)的基础架构。
除了 Ironwood 之外,谷歌还推出了 Gemini 2.5 Flash,这是其旗舰模型的简化版本,专为延迟敏感的日常应用而设计。Gemini 2.5 Flash 可以根据提示的复杂性动态调整其推理深度。
谷歌还展示了其多模态生成模型套件,包括文本到图像、文本到视频和新推出的文本到音乐功能 Lyria。一个引人注目的演示强调了如何将这些工具组合起来,为音乐会制作完整的宣传视频。
Ironwood 只是谷歌全面 AI 基础设施战略的一个组成部分。该公司还推出了 Cloud WAN,这是一种托管的广域网服务,使企业能够利用谷歌的全球规模私有网络基础设施。
谷歌还在扩展其用于 AI 工作负载的软件产品,包括 Pathways,这是 Google DeepMind 开发的一种机器学习运行时,允许客户在数百个 TPU 上扩展模型服务。
协同智能愿景:引入 A2A 和 MCP 支持
除了硬件方面的进步,谷歌还阐述了其以多代理系统为中心的 AI 愿景,并引入了 Agent-to-Agent (A2A) 协议,旨在促进不同 AI 代理之间安全且标准化的通信。
谷歌预计 2025 年将是 AI 具有变革意义的一年,生成式 AI 应用将从回答单个问题发展为通过互连的代理系统解决复杂问题。
A2A 协议支持跨平台和框架的互操作性,为 AI 代理提供通用的“语言”和安全的通信渠道。可以将其视为 AI 代理的网络层,简化复杂工作流程中的协作,并使专门的 AI 代理能够共同处理各种复杂性和持续时间的任务,从而通过合作提高整体能力。
A2A 如何工作
谷歌提供了 MCP 和 A2A 协议的比较概述:
- MCP(模型上下文协议): 专注于工具和资源管理。
- 通过结构化的输入/输出将代理连接到工具、API 和资源。
- Google ADK 支持 MCP 工具,从而促进 MCP 服务器和代理之间的无缝交互。
- A2A(代理到代理协议): 促进代理之间的协作。
- 无需共享内存、资源或工具即可在代理之间实现动态、多模式通信。
- 它是由社区驱动的开放标准。
- 可以使用 Google ADK、LangGraph 和 Crew.AI 等工具探索示例。
A2A 和 MCP 是互补的。MCP 为代理配备工具,而 A2A 使这些配备工具的代理能够进行对话和协作。
谷歌的初始合作伙伴名单表明,A2A 有望获得与 MCP 类似的关注。该计划已经吸引了 50 多个组织,包括领先的科技公司以及全球咨询和系统集成提供商。
谷歌强调该协议的开放性,将其定位为代理间协作的标准,超越了底层技术框架或服务提供商。谷歌强调了塑造协议设计的五个指导原则:
- 拥抱代理能力: A2A 优先考虑使代理能够自然地协作,即使不共享内存、工具或上下文也是如此。目标是实现真正的多代理场景,而不仅仅是将代理限制为充当“工具”。
- 建立在现有标准之上: 该协议利用现有的、广泛采用的标准,包括 HTTP、SSE 和 JSON-RPC,从而简化与现有 IT 堆栈的集成。
- 默认安全: A2A 旨在支持企业级身份验证和授权,与 OpenAPI 的身份验证方案相当。
- 支持长时间运行的任务: A2A 的灵活性使其能够支持各种场景,从快速任务到可能需要数小时甚至数天的深入研究(尤其是在需要人工参与时)。在整个过程中,A2A 可以为用户提供实时反馈、通知和状态更新。
- 模态不可知: 认识到代理的世界不仅仅局限于文本,A2A 支持各种模态,包括音频和视频流。
谷歌提供了一个 A2A 如何简化招聘流程的示例。
在像 Agentspace 这样的统一界面中,招聘经理可以分配一个代理来根据职位要求识别合适的候选人。此代理可以与专门的代理交互以获取候选人。用户还可以指示代理安排面试并让其他专门的代理协助进行背景调查,从而实现跨系统的完全自动化和智能化的招聘。
拥抱模型上下文协议 (MCP)
谷歌也在拥抱 MCP。在 OpenAI 宣布采用 Anthropic 的模型上下文协议 (MCP) 后不久,谷歌也效仿了。
Google DeepMind 的 CEO Demis Hassabis 在 X(前身为 Twitter)上宣布,谷歌将在其 Gemini 模型和 SDK 中添加对 MCP 的支持,但他没有提供具体的时间表。
Hassabis 表示,“MCP 是一项出色的协议,并且正在迅速成为 AI 代理时代的开放标准。我们期待与 MCP 团队以及行业中的其他合作伙伴合作,以推进这项技术。”
自 2024 年 11 月发布以来,MCP 已作为一种将语言模型与工具和数据连接起来的简单、标准化方式而受到广泛关注。
MCP 使 AI 模型能够访问企业工具和软件中的数据,以完成任务并访问内容库和应用程序开发环境。该协议允许开发人员在数据源和 AI 驱动的应用程序(例如聊天机器人)之间建立双向连接。
开发人员可以通过 MCP 服务器公开数据接口,并构建 MCP 客户端(例如应用程序和工作流程)以连接到这些服务器。由于 Anthropic 开源了 MCP,因此多家公司已将 MCP 支持集成到其平台中。
Ironwood:AI 新纪元的曙光
谷歌的 Ironwood TPU 代表了 AI 计算领域的重大飞跃。其前所未有的性能、优化的架构以及对 A2A 和 MCP 等新兴协议的支持使其成为下一波 AI 创新的关键推动者。随着 AI 模型变得越来越复杂和苛刻,Ironwood 提供了释放新可能性和改变全球各行各业所需的原始能力和灵活性。它不仅仅是一个新的芯片;它是智能机器协同工作以解决复杂问题和改善我们生活的未来的基础。