谷歌的AI雄心:效仿苹果的战略

谷歌的AI雄心:效仿苹果的战略

谷歌的愿景越来越像苹果,尤其是在生成式人工智能 (GenAI) 大型模型领域。 最近的 Google Cloud Next 大会展示了谷歌雄心勃勃的愿景。 这包括从旨在与 Nvidia 的 GB200 竞争的 TPU v7 Ironwood 芯片,到旨在超越 Anthropic 的 MCP 的 Agent2Agent (A2A) 协议,以及用于 GenAI 部署的 Pathways 运行时环境等创新。

谷歌还在积极开发 ADK 和 Agentspace 等工具,以帮助开发者创建 AI Agent。 这一努力的核心是 Vertex AI,这是谷歌的 AI 云原生开发和部署平台。 Vertex AI 现在提供多样化的内容生成服务,包括用于视频的 Veo 2、用于图像的 Imagen 3、用于音频的 Chirp 3 和用于音乐的 Lyria。 显然,Google Cloud 正将其定位为向开发者和用户提供一套全面的 GenAI 大型模型开发应用。

虽然这些服务和体验的实际可用性还有待观察,但谷歌已经建立了一个完整的、多模态的 AI 硬件和软件生态系统,该生态系统是自主开发的、闭源的且随时可用。

这种全面的方法将谷歌描绘成 AI 时代的苹果。

Ironwood TPU:强大的竞争者

第七代 TPU 芯片 Ironwood 的发布尤其值得关注。

  • 每个 TPU 配备 192GB 的 HBM 内存,带宽范围为 7.2 到 7.4TB/s,可能使用 HBM3E 技术。 这与 Nvidia 的 B200 芯片相比毫不逊色,后者提供 8TB/s 的带宽。
  • 每个液冷的 TPU v7 可以实现 4.6 Petaflops 的密集 FP8 计算能力。 这比 B200 的 20 Petaflops 略低。
  • 然而,谷歌的 Jupiter 数据中心网络能够扩展以支持多达 40 万个芯片或 43 个 TPU v7x 集群。 谷歌的服务器技术专长使其能够降低对单芯片性能指标的强调。
  • 至关重要的是,谷歌推出了 Pathways,一个专用的 AI 运行时环境,增强了 GenAI 模型部署的灵活性,进一步巩固了其在服务集群领域的优势。
  • Ironwood 提供两种集群配置:256 个芯片或 9216 个芯片,专为特定工作负载量身定制。 单个集群可以实现 42.5 Exaflops 的计算能力。 谷歌声称,此性能超过了全球最大的超级计算机 El Capitan 24 倍。 然而,该数据是在 FP8 精度下测量的,而 AMD 的 El Capitan 尚未提供 FP8 精度数据。 谷歌已经承认这一点,使得直接比较变得困难。

拥抱闭源 GenAI 生态系统

谷歌正在 GenAI 领域追求全面的闭源生态系统。 虽然开源 Gemma 有其优点,但谷歌正在将资源投入到其闭源解决方案中。

随着人们对 AI Agent 兴趣的激增,谷歌在大会上宣布了 A2A 协议,招募了 50 家主流供应商来与 Anthropic 的 MCP 竞争。

虽然 OpenAI 开源了其 Agents SDK,集成了其大型模型功能,但谷歌正在扩展 Vertex AI,其中包含 ADK、Agentspace、AutoML、AIPlatform 和 Kubeflow,从而注入各种模型功能。

然而,在将 GPT-4o 的图像生成与 Gemini 2.0 Flash 的等效功能进行比较时,谷歌的产品虽然雄心勃勃,但可能缺乏润色。 众多模型、服务和工具的集成,虽然有利于竞争,但可能显得为时过早。 市场需要成熟的、集成良好的多模态大型模型和模型内服务。

在 AI 中复制 Gmail、Chrome 和 Google 模型

谷歌凭借 Gmail、Chrome 及其’三级火箭’方法取得了成功,这使其能够主导全球科技市场。 这种策略正在 GenAI 领域快速实施。 然而,与其过去对开源的倡导不同,谷歌越来越拥抱闭源开发。

谷歌正在有效地将开源转变为一种闭源形式,即通过整合其资源以在特定领域建立主导生态系统,然后征收通行费。 这种方法正面临来自开发人员越来越多的批评。

谷歌的开源机器学习框架 TensorFlow 和 Jax 取得了全球性的成功。 然而,新的 Pathways 运行时环境是闭源的,甚至隔离了 Nvidia 的 CUDA 开发工具。

谷歌 vs. 英伟达:AI 霸权之战

随着 Nvidia 倡导物理 AI 并推出开源人形机器人通用模型 Isaac GR00T N1,Google DeepMind 正以 Gemini Robotics 和 Gemini Robotics-ER 进入市场,这些模型基于 Gemini 2.0。

目前,谷歌的版图仅在桌面 AI 计算机市场中有所欠缺。 Nvidia 的 DGX Spark(以前称为 Project DIGITS)和 DGX Station,以及苹果的 Mac Studio,将如何与谷歌的云服务竞争? 会议结束后,这个问题已成为行业关注的焦点。

苹果对 Google Cloud 和 M3 Ultra 芯片的依赖

据报道,苹果正在利用 Google Cloud 的 TPU 集群来训练其大型模型,甚至因为成本考虑而放弃了 Nvidia 芯片训练解决方案! 在面临软件弱点的情况下,苹果正专注于其 M 系列芯片。 最新的 Mac Studio 配备 M3 Ultra 芯片,现在拥有高达 512GB 的统一内存。 苹果可能早期采用了 Google Cloud 的 Pathways 技术,这可能使其与谷歌保持一致。

反垄断因素

根本问题围绕反垄断担忧展开。 目前,苹果的商业模式具有独特的优势,能够驾驭全球反垄断诉讼,这与面临潜在分拆的微软和谷歌不同。 谷歌的规模使其面临被迫剥离其核心 Android 操作系统和 Chrome 浏览器业务的风险。

谷歌最近停止了对 Android 开源项目 (AOSP) 的维护,这使得在 AI 时代转向苹果模式不可避免。 随着 AI 突破的出现,谷歌的战略转变变得越来越明显。

扩展谷歌的 TPU v7 Ironwood

更深入地研究 TPU v7 Ironwood 的规格,会发现一个精心设计的硬件。 192GB 的高带宽内存 (HBM) 是一个关键组件,它允许快速数据访问,这对于训练和运行复杂的 AI 模型至关重要。 预计使用 HBM3E 技术凸显了谷歌对利用内存技术领域尖端进步的承诺。 7.2-7.4TB/s 的带宽不仅仅是一个令人印象深刻的数字,它直接转化为更快的处理速度和处理更大、更复杂数据集的能力。

鉴于英伟达在 GPU 市场中的主导地位,与英伟达 B200 的比较是不可避免的。 虽然 B200 提供了稍高的 8TB/s 带宽,但 Ironwood 的目标是在整体系统架构和在谷歌生态系统中的集成方面实现差异化。

4.6 Petaflops 的密集 FP8 计算能力衡量了芯片执行浮点运算的能力,浮点运算是 AI 计算的基础。 与 B200 的 20 Petaflops 相比,这种差异突出了不同的设计理念。 谷歌强调其 TPU 在其数据中心基础设施中的可扩展性和集成,而英伟达则侧重于芯片级别的原始计算能力。

谷歌 Jupiter 数据中心网络的重要性

谷歌的 Jupiter 数据中心网络是一项重要的资产,它能够无缝连接大量的 TPU 芯片。 支持多达 40 万个芯片或 43 个 TPU v7x 集群的能力凸显了谷歌运营的规模。 这种可扩展性是一个关键的差异化因素,因为它允许谷歌跨大规模基础设施分配工作负载,从而优化性能和效率。

谷歌在服务器技术方面的专业知识是其 AI 战略中的一个关键因素。 通过优先考虑系统级性能而不是单个芯片规格,谷歌可以利用其基础设施来实现卓越的结果。 这种方法在大型 AI 模型训练的背景下尤其重要,在这种情况下,跨互连处理器网络分配计算的能力至关重要。

揭示 Pathways AI 运行时环境

Pathways 的推出是一项战略举措,增强了 GenAI 模型部署的灵活性和效率。 这种专用的 AI 运行时环境允许开发者针对谷歌的基础设施优化其模型,从而充分利用可用的硬件和软件资源。

Pathways 代表了对 AI 软件堆栈的重大投资,它提供了一个统一的平台来部署和管理 AI 模型。 通过简化部署流程,谷歌旨在降低开发者进入的门槛,并鼓励采用其 AI 服务。 反过来,这将推动创新并围绕谷歌的 AI 平台创建一个充满活力的生态系统。

更深入地了解谷歌的闭源战略

谷歌在 GenAI 领域拥抱闭源战略是一个深思熟虑的选择,反映了其对 AI 的长期愿景。 虽然开源 Gemma 对 AI 社区做出了宝贵的贡献,但谷歌显然正在优先考虑其闭源解决方案,因为它认识到这些解决方案提供了更大的控制权和定制性。

通过专注于闭源开发,谷歌可以针对特定任务优化其 AI 模型和基础设施,从而确保最大的性能和效率。 这种方法还允许谷歌保护其知识产权并在快速发展的 AI 领域保持竞争优势。

闭源方法并非没有批评者,他们认为它会扼杀创新并限制协作。 然而,谷歌坚持认为,这对于确保其 AI 服务的质量、安全性和可靠性是必要的。

A2A 协议和 AI Agent 霸权之战

AI Agent 的出现已经在 AI 行业开辟了一个新的战场,谷歌决心成为该领域的领导者。 在 Google Cloud Next 大会上宣布 A2A 协议清楚地表明了谷歌的雄心。

通过招募 50 家主流供应商来支持 A2A 协议,谷歌试图为 AI Agent 通信创建一个统一的标准。 这将允许来自不同平台的 AI Agent 无缝交互,从而创建一个更互连和协作的 AI 生态系统。

与 Anthropic 的 MCP 的竞争是谷歌 AI Agent 战略的一个关键方面。 Anthropic 是一家备受尊敬的 AI 研究公司,其 MCP 协议在业界已获得认可。 谷歌的 A2A 协议直接挑战了 MCP,这场竞争的结果将对 AI Agent 的未来产生重大影响。

Vertex AI:全面的 AI 开发平台

谷歌的 Vertex AI 是一个全面的 AI 开发平台,可为开发者提供广泛的工具和服务。 通过集成 ADK、Agentspace、AutoML、AIPlatform 和 Kubeflow,谷歌正在创建一个 AI 开发的一站式商店。

Vertex AI 旨在简化 AI 开发流程,使开发者能够更轻松地构建、训练和部署 AI 模型。 该平台还提供了对大量预训练模型的访问权限,允许开发者将 AI 功能快速集成到其应用程序中。

集成各种模型功能是 Vertex AI 的一个关键优势。 通过提供多样化的模型,谷歌正在满足从图像识别到自然语言处理的广泛用例。 这种全面的方法使 Vertex AI 成为寻求通用且强大的 AI 开发平台的开发者的一个引人注目的选择。

谷歌的模型集成:雄心 vs. 执行

虽然谷歌集成众多模型、服务和工具的雄心值得称赞,但执行可能需要进一步改进。 市场需要成熟的、集成良好的多模态大型模型和模型内服务。 谷歌当前的产品虽然很有前景,但可能需要进一步润色才能满足这些期望。

集成各种 AI 功能是一项复杂的任务,谷歌面临的挑战是确保其不同的模型和服务能够无缝地协同工作。 这需要仔细关注细节并致力于持续改进。

最终,谷歌模型集成工作的成功将取决于其提供强大且直观的用户体验的能力。 这将需要对用户需求的深刻理解和对质量的不断关注。