谷歌Ironwood TPU:AI算力的量子飞跃

人工智能 (AI) 的发展日新月异,硬件的进步在释放新的可能性方面发挥着关键作用。作为 AI 创新的领跑者,谷歌最近发布了其第七代张量处理单元 (TPU),代号为 Ironwood,标志着 AI 计算能力取得了重大进展。这款尖端的 AI 加速器拥有强大的计算能力,即使在大规模部署中,也能以惊人的 24 倍的优势超越世界上最快的超级计算机。

Ironwood 在 Google Cloud Next ‘25 大会上宣布,代表了谷歌在 AI 芯片开发十年历程中的战略转折。与主要为 AI 训练和推理工作负载而设计的前代产品不同,Ironwood 专门设计用于擅长推理任务,预示着 AI 驱动应用的新时代。

谷歌机器学习、系统和云 AI 副总裁兼总经理 Amin Vahdat 表示:“Ironwood 旨在支持下一阶段的生成式 AI 及其巨大的计算和通信需求。这就是我们所说的’推理时代’,在这个时代,AI Agent 将主动检索和生成数据,以协作方式提供见解和答案,而不仅仅是数据。”

Ironwood 的空前能力揭秘

Ironwood 的技术规格堪称非凡。当扩展到包含 9,216 个芯片的 Pod 时,它可以提供惊人的 42.5 百亿亿次浮点运算 (exaflops) 的 AI 计算能力。这个数字使当前世界上最快的超级计算机 El Capitan 提供的 1.7 百亿亿次浮点运算相形见绌。每个单独的 Ironwood 芯片都拥有 4,614 TFLOPs 的峰值计算能力。

除了纯粹的处理能力外,Ironwood 还在内存和带宽方面进行了重大改进。每个芯片都配备了 192GB 的高带宽内存 (HBM),与去年发布的上一代 TPU Trillium 相比,增加了六倍。此外,每个芯片的内存带宽达到 7.2 terabits/s,比 Trillium 提高了 4.5 倍。

在数据中心不断扩展且功耗成为关键问题的时代,Ironwood 在能效方面也脱颖而出。其每瓦性能是 Trillium 的两倍,几乎是 2018 年推出的首款 TPU 的 30 倍。

对推理优化的强调标志着 AI 领域的一个关键转变。近年来,领先的 AI 实验室主要致力于构建具有不断增加的参数数量的越来越大的基础模型。谷歌对推理优化的关注表明,正在向以部署效率和推理能力为中心的新阶段过渡。

虽然模型训练仍然至关重要,但训练迭代的次数是有限的。相比之下,随着 AI 技术越来越多地集成到各种应用中,预计每天会发生数十亿次的推理操作。随着模型复杂性的增加,这些应用的经济可行性与推理成本密不可分。

在过去的八年中,谷歌对 AI 计算的需求增长了十倍,达到了惊人的 1 亿。如果没有像 Ironwood 这样的专用架构,即使摩尔定律的不懈进步也将难以跟上这种指数级增长。

值得注意的是,谷歌的公告强调了其对能够执行复杂推理任务而非简单模式识别的“心智模型”的关注。这表明谷歌设想了一个 AI 超越更大模型并包含可以分解问题、执行多步推理并模仿类似人类思维过程的模型的未来。

为下一代大型模型提供动力

谷歌将 Ironwood 定位为其最先进的 AI 模型(包括 Gemini 2.5)的基础设施,该模型具有原生内置的推理能力。

谷歌最近还推出了 Gemini 2.5 Flash,这是其旗舰模型的一个较小变体,专为对延迟敏感的日常应用而设计。Gemini 2.5 Flash 可以根据提示的复杂性动态调整其推理深度。

谷歌还展示了其全面的多模态生成模型套件,包括文本到图像、文本到视频,以及新推出的文本到音乐功能 Lyria。一个演示展示了如何将这些工具组合起来,为一场音乐会制作一个完整的宣传视频。

Ironwood 只是谷歌更广泛的 AI 基础设施战略的一个组成部分。谷歌还宣布了 Cloud WAN,这是一种托管广域网服务,使企业能够访问谷歌的全球规模的私有网络基础设施。

此外,谷歌还在扩展其用于 AI 工作负载的软件产品,包括 Pathways,这是一种由 Google DeepMind 开发的机器学习运行时。Pathways 现在允许客户跨数百个 TPU 扩展模型服务。

通过 A2A 促进 AI Agent 协作

除了硬件进步之外,谷歌还概述了其以多 Agent 系统为中心的 AI 生态系统的愿景。为了促进智能 Agent 的开发,谷歌推出了 Agent-to-Agent (A2A) 协议,旨在实现不同 AI Agent 之间的安全和标准化通信。

谷歌认为,2025 年将是 AI 的变革之年,生成式 AI 应用将从回答单个问题发展到通过 Agent 系统解决复杂问题。

A2A 协议支持不同平台和框架之间的 Agent 互操作性,为它们提供了一种通用的“语言”和安全的通信渠道。该协议可以被视为智能 Agent 的网络层,旨在简化复杂工作流程中的 Agent 协作。通过使专门的 AI Agent 能够协同处理各种复杂性和持续时间的任务,A2A 旨在通过协作增强整体能力。

A2A 的工作方式是为 Agent 交换信息和协调行动建立一种标准化的方式,而无需它们共享底层代码或数据结构。这允许创建更模块化和灵活的 AI 系统,Agent 可以根据需要轻松添加、删除或重新配置。

谷歌在一篇博客文章中比较了 MCP 和 A2A 协议。

  • MCP(模型上下文协议) 专为工具和资源管理而设计。
    • 它通过结构化的输入/输出将 Agent 连接到工具、API 和资源。
    • Google ADK 支持 MCP 工具,使各种 MCP 服务器能够与 Agent 一起使用。
  • A2A(Agent2Agent 协议) 专为 Agent 之间的协作而设计。
    • 它支持 Agent 之间动态的、多模态的通信,而无需共享内存、资源或工具。
    • 它是由社区驱动的开放标准。
    • 可以使用 Google ADK、LangGraph、Crew.AI 和其他工具查看示例。

本质上,A2A 和 MCP 是互补的:MCP 为 Agent 提供工具支持,而 A2A 使这些配备工具的 Agent 能够相互通信和协作。

从最初的合作伙伴来看,A2A 似乎有望获得与 MCP 类似的关注。超过 50 家公司加入了最初的合作,包括领先的科技公司和顶级全球咨询和系统集成服务提供商。

谷歌强调了该协议的开放性,将其定位为 Agent 协作的标准方式,无论底层技术框架或服务提供商如何。谷歌概述了在与其合作伙伴协作设计协议时指导协议的五个关键原则:

  1. 拥抱 Agent 能力: A2A 专注于使 Agent 能够以其自然的、非结构化的方式进行协作,即使它们不共享内存、工具和上下文。该协议旨在实现真正的多 Agent 场景,而不是将 Agent 限制为仅仅是“工具”。
  2. 构建在现有标准之上: 该协议构建在现有的流行标准之上,包括 HTTP、SSE 和 JSON-RPC,使其更易于与企业常用的现有 IT 堆栈集成。
  3. 默认安全: A2A 旨在支持企业级身份验证和授权,与 OpenAPI 在发布时的身份验证方案相当。
  4. 支持长时间运行的任务: A2A 旨在具有灵活性,支持从快速任务到可能需要数小时甚至数天(当涉及人类时)的深入研究的各种场景。在整个过程中,A2A 可以为用户提供实时反馈、通知和状态更新。
  5. 模态不可知: Agent 的世界不仅限于文本,这就是为什么 A2A 旨在支持各种模态,包括音频和视频流。

谷歌提供了一个示例,说明 A2A 如何显着简化招聘流程。

在一个统一的界面(如 Agentspace)中,招聘经理可以分配一个 Agent 根据职位要求查找合适的候选人。该 Agent 可以与专门的 Agent 交互以寻找候选人、安排面试,甚至可以与其他专门的 Agent 协作以协助进行背景调查,从而实现跨不同系统的整个招聘流程的智能自动化。

拥抱模型上下文协议 (MCP)

除了在开发 A2A 方面所做的努力之外,谷歌还在拥抱模型上下文协议 (MCP)。在 OpenAI 宣布采用 MCP 几周后,谷歌也紧随其后。

Google DeepMind 首席执行官 Demis Hassabis 最近在 X 上宣布,谷歌将向其 Gemini 模型和 SDK 添加对 MCP 的支持。但是,他没有提供具体的时间表。

Hassabis 表示,“MCP 是一项出色的协议,正在迅速成为 AI Agent 时代的开放标准。我期待与 MCP 团队和行业中的其他合作伙伴合作,以推进这项技术。”

自 2024 年 11 月发布以来,MCP 迅速获得关注,成为将语言模型与工具和数据连接起来的一种简单而标准化的方式。

MCP 使 AI 模型能够访问来自企业工具和软件等来源的数据以完成任务,以及访问内容库和应用程序开发环境。该协议允许开发人员在数据源和 AI 驱动的应用程序(如聊天机器人)之间建立双向连接。

开发人员可以通过 MCP 服务器公开数据接口,并构建 MCP 客户端(如应用程序和工作流程)以连接到这些服务器。自从 Anthropic 开源 MCP 以来,多家公司已将 MCP 支持集成到其平台中。