谷歌 Ironwood TPU 性能超超算24倍,推出A2A协议

人工智能 (AI) 处理领域迎来重大变革,谷歌发布了第七代张量处理器 (TPU) Ironwood。这款尖端的AI加速器拥有强大的计算能力,在大规模部署中,其性能超过了全球最快的超级计算机24倍以上。

这款新芯片在 Google Cloud Next ‘25 大会上亮相,标志着谷歌在AI芯片领域十年战略的关键时刻。与主要为AI训练和推理工作负载设计的前代产品不同,Ironwood 专门为推理而设计,这表明谷歌正在战略性地转向优化AI部署效率。

谷歌机器学习、系统和云AI副总裁兼总经理 Amin Vahdat 强调了这一转变,他表示:“Ironwood 旨在支持下一阶段的生成式AI及其巨大的计算和通信需求。这就是我们所说的‘推理时代’,在这个时代,AI代理将主动检索和生成数据,以协同提供洞察和答案,而不仅仅是处理数据。”

以 42.5 Exaflops 的算力打破壁垒

Ironwood 的技术规格令人印象深刻。当扩展到包含9216个芯片的 pod 时,它可以提供惊人的 42.5 exaflops 的AI计算能力。为了更好地理解这一点,可以将其与当前世界上最快的超级计算机 El Capitan 相比较,后者以 1.7 exaflops 运行。每个 Ironwood 芯片都能达到 4614 TFLOPs 的峰值计算能力。

除了原始处理能力之外,Ironwood 还显著增强了内存和带宽。每个芯片都配备了 192GB 的高带宽内存 (HBM),与去年发布的上一代 TPU Trillium 相比,增加了六倍。每个芯片的内存带宽达到 7.2 terabits/s,是 Trillium 的 4.5 倍。

  • 计算能力: 42.5 exaflops(每 pod,9,216 个芯片)
  • 每芯片峰值计算能力: 4614 TFLOPs
  • 内存: 每芯片 192GB HBM
  • 内存带宽: 每芯片 7.2 terabits/s

在数据中心不断扩张且功耗日益受到关注的时代,Ironwood 还在能源效率方面表现出显著的改进。与 Trillium 相比,其每瓦性能提高了两倍,几乎是 2018 年推出的第一代 TPU 的 30 倍。

这种针对推理的优化标志着AI发展的关键转折点。近年来,领先的AI实验室一直专注于开发参数数量不断增加的越来越大的基础模型。谷歌对推理优化的关注表明,该公司正在转向以部署效率和推理能力为中心的新范式。

虽然模型训练仍然至关重要,但推理操作更加频繁,随着AI技术变得越来越普及,每天会发生数十亿次。对于利用AI的企业而言,随着模型变得越来越复杂,经济效益与推理成本密切相关。

过去八年中,谷歌对AI计算的需求增长了十倍,达到了惊人的 1 亿。如果没有像 Ironwood 这样的专用架构,仅靠摩尔定律的传统进步是不可能维持这种增长轨迹的。

值得注意的是,谷歌的声明强调了对能够执行复杂推理任务而非简单模式识别的“推理模型”的关注。这表明谷歌认为AI的未来不仅在于更大的模型,还在于能够分解问题、进行多步骤推理并模仿人类思维过程的模型。

为下一代大型模型提供动力

谷歌将 Ironwood 定位为其最先进的AI模型的基础设施,包括其自身具有“原生推理能力”的 Gemini 2.5。

该公司最近还推出了 Gemini 2.5 Flash,这是其旗舰模型的较小版本,旨在“根据提示的复杂性调整推理深度”。该模型适用于需要快速响应时间的日常应用。

谷歌进一步展示了其全面的多模态生成模型套件,包括文本到图像、文本到视频以及新推出的文本到音乐功能 Lyria。演示展示了如何将这些工具结合起来,为音乐会创建一个完整的宣传视频。

Ironwood 只是谷歌更广泛的AI基础设施战略的一个组成部分。该公司还宣布了 Cloud WAN,这是一种托管的广域网服务,可让企业访问谷歌的全球规模的专用网络基础设施。

谷歌还在扩展其用于AI工作负载的软件产品,包括由 Google DeepMind 开发的机器学习运行时 Pathways。Pathways 现在允许客户跨数百个TPU扩展模型服务。

推出 A2A:培养智能代理协作生态系统

除了硬件方面的进步之外,谷歌还展示了其以多代理系统为中心的AI愿景,并推出了一种协议来促进智能代理的开发:Agent-to-Agent (A2A)。该协议旨在促进不同AI代理之间的安全和标准化通信。

谷歌认为,2025年将是AI变革的一年,生成式AI的应用将从回答单个问题演变为通过智能代理系统解决复杂问题。

A2A 协议实现了跨平台和框架的互操作性,为代理提供了一种通用的“语言”和安全的通信渠道。该协议可以看作是智能代理的网络层,旨在简化复杂工作流程中的代理协作。它使专门的AI代理能够共同处理各种复杂性和持续时间的任务,最终通过协作增强整体能力。

A2A 的工作原理

谷歌在其博客文章中提供了 MCP 和 A2A 协议之间的比较:

  • MCP(模型上下文协议): 用于工具和资源管理
    • 通过结构化的输入/输出将代理连接到工具、API 和资源。
    • Google ADK 支持 MCP 工具,使各种 MCP 服务器能够与代理协同工作。
  • A2A(代理到代理协议): 用于代理之间的协作
    • 实现代理之间动态的多模态通信,而无需共享内存、资源或工具。
    • 由社区驱动的开放标准。
    • 可以使用 Google ADK、LangGraph 和 Crew.AI 等工具查看示例。

本质上,A2A 和 MCP 是互补的。MCP 为代理提供工具支持,而 A2A 允许这些配备好的代理相互通信和协作。

谷歌宣布的合作伙伴名单表明,A2A 有望获得与 MCP 类似的关注。该倡议已经吸引了 50 多家公司加入其最初的合作队列,其中包括领先的技术公司以及顶级的全球咨询和系统集成服务提供商。

谷歌强调了该协议的开放性,将其定位为代理协作的标准方法,而与底层技术框架或服务提供商无关。该公司表示,在与其合作伙伴设计协议时,它遵循以下五个关键原则:

  1. 拥抱代理能力: A2A 专注于使代理能够以其自然的、非结构化的方式进行协作,即使它们不共享内存、工具和上下文。目标是实现真正的多代理场景,而不是将代理限制为仅仅是“工具”。
  2. 建立在现有标准之上: 该协议建立在现有的流行标准之上,包括 HTTP、SSE 和 JSON-RPC,从而更容易与企业使用的现有 IT 堆栈集成。
  3. 默认情况下是安全的: A2A 旨在支持企业级身份验证和授权,与 OpenAPI 启动时的身份验证方案相当。
  4. 支持长时间运行的任务: A2A 的设计具有灵活性,可以支持广泛的场景,从快速任务到可能需要数小时甚至数天的深入研究(当有人参与时)。在整个过程中,A2A 可以为用户提供实时的反馈、通知和状态更新。
  5. 模态不可知: 代理的世界不限于文本,这就是 A2A 设计为支持各种模态的原因,包括音频和视频流。

示例:通过 A2A 简化招聘流程

谷歌提供的一个例子说明了 A2A 如何显著简化招聘流程。

在像 Agentspace 这样的统一界面中,招聘经理可以分配一个代理,根据职位要求找到合适的候选人。此代理可以与特定领域的专业代理交互,以完成候选人搜寻。用户还可以指示代理安排面试,并启用其他专业代理来协助进行背景调查,从而实现完全自动化、跨系统的协作招聘。

拥抱 MCP:加入模型上下文协议生态系统

与此同时,谷歌也在拥抱 MCP。在 OpenAI 宣布采用 Anthropic 的模型上下文协议 (MCP) 几周后,谷歌也紧随其后,加入了该倡议。

Google DeepMind 首席执行官 Demis Hassabis 在 X 上宣布,谷歌将添加对 MCP 的支持到其 Gemini 模型和 SDK 中,但没有提供具体的时间表。

Hassabis 表示:“MCP 是一种出色的协议,正在迅速成为AI代理时代的开放标准。我们期待与 MCP 团队和行业中的其他合作伙伴合作,以推进这项技术的发展。”

自 2024 年 11 月发布以来,MCP 迅速获得普及和广泛关注,成为将语言模型与工具和数据连接起来的一种简单且标准化的方式。

MCP 使AI模型能够从企业工具和软件等数据源访问数据以完成任务,并访问内容库和应用程序开发环境。该协议允许开发人员在数据源和AI驱动的应用程序(如聊天机器人)之间建立双向连接。

开发人员可以通过 MCP 服务器公开数据接口,并构建 MCP 客户端(例如应用程序和工作流程)以连接到这些服务器。由于 Anthropic 开源了 MCP,一些公司已将 MCP 支持集成到其平台中。

关键概念的增强分解:

为了进一步阐明谷歌最近发布的公告的影响和意义,让我们更深入地研究核心组件:Ironwood、A2A 和 MCP。

Ironwood:深入推理时代

从主要关注训练模型到优化推理的转变是AI领域的一次重大演变。训练涉及向模型提供大量数据,以教导其识别模式并进行预测。另一方面,推理是使用经过训练的模型对新的、未见过的数据进行预测的过程。

虽然训练是一项资源密集型的一次性(或不频繁)事件,但推理在实际应用中会持续且大规模地发生。考虑以下应用:

  • 聊天机器人: 实时响应用户查询。
  • 推荐系统: 根据用户偏好推荐产品或内容。
  • 欺诈检测: 在欺诈交易发生时识别它们。
  • 图像识别: 分析图像以识别对象、人物或场景。

这些应用需要快速、高效的推理才能提供无缝的用户体验。Ironwood 专为擅长这些任务而设计。

Ironwood 用于推理的关键优势:

  • 高吞吐量: 巨大的计算能力 (42.5 exaflops) 允许 Ironwood 同时处理大量推理请求。
  • 低延迟: 高带宽内存 (HBM) 和高效的架构最大限度地减少了处理每个推理请求所需的时间。
  • 能源效率: 改进的每瓦性能降低了运行大规模推理部署相关的运营成本。

通过优化推理,谷歌正在使企业能够更高效、更经济地部署AI驱动的应用程序。

A2A:协作AI的基础

Agent-to-Agent (A2A) 协议代表着朝着创建更复杂和协作的AI系统迈出的重要一步。在多代理系统中,多个AI代理协同工作以解决复杂问题。每个代理可能都有其自己的专业技能和知识,它们相互通信和协调以实现共同目标。

考虑一个涉及自动化客户支持的场景:

  • 代理 1: 了解客户的初始查询并识别潜在问题。
  • 代理 2: 访问知识库以查找相关信息。
  • 代理 3: 如果需要,安排与人工代理的后续约会。

这些代理需要能够无缝地通信和共享信息,以提供有凝聚力的客户体验。A2A 为这种类型的协作提供了框架。

A2A 的主要优势:

  • 互操作性: 允许在不同平台和框架上开发的代理相互通信。
  • 标准化: 为代理通信提供通用的“语言”和一组协议。
  • 安全性: 确保代理之间的安全通信,保护敏感数据。
  • 灵活性: 支持广泛的通信方式,包括文本、音频和视频。

通过促进AI代理之间的协作,A2A 能够开发更强大和通用的AI系统。

MCP:弥合 AI 和数据之间的差距

模型上下文协议 (MCP) 解决了将AI模型连接到有效执行其任务所需的大量数据的挑战。AI模型需要访问来自各种来源的实时数据,例如数据库、API 和云服务,以做出准确的预测和明智的决策。

MCP 提供了一种标准化的方式,供AI模型访问这些数据源并与之交互。它定义了一组协议,用于:

  • 数据发现: 识别可用的数据源。
  • 数据访问: 从数据源检索数据。
  • 数据转换: 将数据转换为AI模型可以理解的格式。

通过为数据访问提供标准化的界面,MCP 简化了将AI模型与现实世界数据集成的过程。

MCP 的主要优势:

  • 简化集成: 使连接AI模型到数据源变得更容易。
  • 标准化: 为数据访问提供一套通用的协议。
  • 提高效率: 减少访问和转换数据所需的时间和精力。
  • 提高准确性: 使AI模型能够访问最新的信息,从而做出更准确的预测。

通过将AI模型连接到它们所需的数据,MCP 使它们能够更有效地执行并提供更大的价值。