Google Ironwood TPU:AI 計算能力の飛躍

Ironwood の前例のない機能の公開

Google の最新の Tensor Processing Unit (TPU)、コードネーム Ironwood は、AI コンピューティング能力における大きな進歩を意味します。この最先端の AI アクセラレータは、大規模な展開において、世界最速のスーパーコンピュータさえも 24 倍も上回る計算能力を誇ります。

Google Cloud Next ‘25 カンファレンスで発表された Ironwood は、Google の 10 年にわたる AI チップ開発の戦略的な転換を示しています。主に AI のトレーニングと推論のワークロード向けに設計された前身とは異なり、Ironwood は推論タスクで優れるように特別に設計されており、AI 駆動型アプリケーションの新時代を告げています。

Google の機械学習、システム、クラウド AI のバイスプレジデント兼ジェネラルマネージャーである Amin Vahdat 氏は、「Ironwood は、次世代の生成 AI とその莫大な計算および通信要件をサポートするように設計されています。これは、AI エージェントがデータを積極的に検索および生成し、単なるデータだけでなく、洞察と回答を共同で提供する ‘推論時代’ と呼んでいます」と述べています。

Ironwood の技術仕様は、まさに並外れたものです。9,216 個のチップのポッドに拡張すると、42.5 エクサフロップスという驚異的な AI 計算能力を発揮できます。この数値は、現在世界最速のスーパーコンピュータの称号を持つ El Capitan が提供する 1.7 エクサフロップスをはるかに凌駕しています。個々の Ironwood チップは、4,614 TFLOPs のピーク計算能力を誇ります。

単なる処理能力を超えて、Ironwood はメモリと帯域幅も大幅に改善されています。各チップには 192GB の高帯域幅メモリ (HBM) が搭載されており、昨年リリースされた前世代の TPU である Trillium と比較して 6 倍の増加です。さらに、チップあたりのメモリ帯域幅は 7.2 テラビット/秒に達し、Trillium と比較して 4.5 倍の改善を表しています。

データセンターが拡大し、電力消費が重要な懸念事項となっている時代において、Ironwood はそのエネルギー効率でも際立っています。ワットあたりのパフォーマンスは Trillium の 2 倍、2018 年に導入された最初の TPU よりもほぼ 30 倍高くなっています。

推論の最適化に重点を置くことは、AI の状況における重要な変化を示しています。近年、主要な AI ラボは主に、パラメータ数が増加するますます大規模な基盤モデルの構築に焦点を当ててきました。Google の推論の最適化への焦点は、展開効率と推論能力を中心とした新しい段階への移行を示唆しています。

モデルのトレーニングは依然として重要ですが、トレーニングの反復回数は有限です。対照的に、AI テクノロジーがさまざまなアプリケーションにますます統合されるにつれて、推論操作は毎日数十億回発生すると予想されます。モデルが複雑になるにつれて、これらのアプリケーションの経済的実現可能性は、推論コストと密接に関連するようになります。

過去 8 年間で、Google の AI 計算需要は 10 倍に増加し、1 億という驚異的な数に達しました。Ironwood のような特殊なアーキテクチャがなければ、ムーアの法則の絶え間ない進歩でさえ、この指数関数的な成長に追いつくのに苦労するでしょう。

特に、Google の発表では、単純なパターン認識ではなく、複雑な推論タスクを実行できる「メンタルモデル」に焦点を当てていることが強調されています。これは、Google が、AI がより大きなモデルを超えて、問題を分解し、多段階の推論を実行し、人間のような思考プロセスをエミュレートできるモデルを包含する未来を想定していることを示唆しています。

次世代の大型モデルの推進

Google は Ironwood を、ネイティブに組み込まれた推論機能を誇る Gemini 2.5 を含む、最も高度な AI モデルの基盤インフラストラクチャとして位置付けています。

Google は最近、遅延に敏感な日常的なアプリケーション向けに設計された、フラッグシップモデルの小型版である Gemini 2.5 Flash も発表しました。Gemini 2.5 Flash は、プロンプトの複雑さに基づいて推論の深さを動的に調整できます。

Google はまた、テキストから画像、テキストからビデオ、そして新たに発表されたテキストから音楽への機能である Lyria を含む、包括的なマルチモーダル生成モデルスイートを披露しました。デモでは、これらのツールを組み合わせてコンサートの完全なプロモーションビデオを制作する方法が示されました。

Ironwood は、Google のより広範な AI インフラストラクチャ戦略の 1 つのコンポーネントにすぎません。Google はまた、企業が Google のグローバル規模のプライベートネットワークインフラストラクチャにアクセスできるようにする、マネージドワイドエリアネットワークサービスである Cloud WAN も発表しました。

さらに、Google は、Google DeepMind によって開発された機械学習ランタイムである Pathways を含む、AI ワークロード向けのソフトウェア製品を拡張しています。Pathways を使用すると、顧客は数百の TPU にわたってモデルサービングをスケーリングできます。

A2A による AI エージェントのコラボレーションの促進

ハードウェアの進歩に加えて、Google はマルチエージェントシステムを中心とした AI エコシステムのビジョンも概説しました。インテリジェントエージェントの開発を促進するために、Google は、さまざまな AI エージェント間の安全で標準化された通信を可能にするように設計された Agent-to-Agent (A2A) プロトコルを導入しました。

Google は、2025 年は AI にとって変革の年となり、生成 AI アプリケーションが単一の質問に答えることから、エージェントシステムを通じて複雑な問題を解決する方向に進化すると考えています。

A2A プロトコルは、さまざまなプラットフォームおよびフレームワークにわたるエージェント間の相互運用性を実現し、共通の「言語」と安全な通信チャネルを提供します。このプロトコルは、インテリジェントエージェントのネットワーク層と見なすことができ、複雑なワークフローにおけるエージェントのコラボレーションを簡素化することを目的としています。A2A は、専門的な AI エージェントがさまざまな複雑さと期間のタスクで連携できるようにすることで、コラボレーションを通じて全体的な機能を強化しようとしています。

A2A は、エージェントが基盤となるコードやデータ構造を共有する必要なく、情報を交換し、アクションを調整するための標準化された方法を確立することによって機能します。これにより、よりモジュール式で柔軟な AI システムの作成が可能になり、エージェントは必要に応じて簡単に追加、削除、または再構成できます。

Google は、ブログ投稿で MCP プロトコルと A2A プロトコルの比較を示しています。

  • MCP (Model Context Protocol) は、ツールとリソースの管理用に設計されています。
    • 構造化された入出力を通じて、エージェントをツール、API、およびリソースに接続します。
    • Google ADK は MCP ツールをサポートしており、さまざまな MCP サーバーがエージェントと連携できます。
  • A2A (Agent2Agent Protocol) は、エージェント間のコラボレーション用に設計されています。
    • メモリ、リソース、またはツールを共有せずに、エージェント間の動的なマルチモーダル通信を可能にします。
    • コミュニティによって推進されるオープンスタンダードです。
    • 例は、Google ADK、LangGraph、Crew.AI、およびその他のツールを使用して表示できます。

基本的に、A2A と MCP は補完的です。MCP はエージェントにツールのサポートを提供し、A2A はこれらのツールを搭載したエージェントが相互に通信および連携できるようにします。

最初のパートナーから判断すると、A2A は MCP と同様の注目を集める態勢を整えているようです。大手ハイテク企業やトップのグローバルコンサルティングおよびシステムインテグレーションサービスプロバイダーを含む、50 社以上の企業が最初のコラボレーションに参加しています。

Google は、プロトコルのオープン性を強調し、基盤となるテクノロジーフレームワークまたはサービスプロバイダーに関係なく、エージェントが連携するための標準的な方法として位置付けています。Google は、パートナーとのコラボレーションにおいてプロトコルの設計を導いた 5 つの主要な原則を概説しました。

  1. エージェントの機能を活用する: A2A は、エージェントがメモリ、ツール、およびコンテキストを共有していなくても、自然で構造化されていない方法で連携できるようにすることに焦点を当てています。このプロトコルは、エージェントを単なる「ツール」に制限するのではなく、真のマルチエージェントシナリオを実現することを目的としています。
  2. 既存の標準に基づいて構築する: このプロトコルは、HTTP、SSE、および JSON-RPC などの既存の一般的な標準に基づいて構築されているため、企業が一般的に使用する既存の IT スタックとの統合が容易になります。
  3. デフォルトで安全: A2A は、OpenAPI の認証スキームに匹敵する、エンタープライズグレードの認証と認可をサポートするように設計されています。
  4. 長期実行タスクをサポートする: A2A は柔軟性があり、迅速なタスクから数時間または数日かかる可能性のある詳細な調査 (人間が関与する場合) まで、幅広いシナリオをサポートするように設計されています。プロセス全体を通して、A2A はユーザーにリアルタイムのフィードバック、通知、およびステータスアップデートを提供できます。
  5. モダリティに依存しない: エージェントの世界はテキストに限定されないため、A2A はオーディオおよびビデオストリームを含むさまざまなモダリティをサポートするように設計されています。

Google は、A2A が採用プロセスを大幅に合理化する方法の例を示しています。

Agentspace のような統一されたインターフェイスでは、採用マネージャーは、求人要件に基づいて適切な候補者を見つけるようにエージェントを割り当てることができます。このエージェントは、専門のエージェントと対話して候補者を探し、面接をスケジュールし、バックグラウンドチェックを支援するために他の専門エージェントを関与させることもできます。これにより、異なるシステム全体で採用プロセス全体をインテリジェントに自動化できます。

Model Context Protocol (MCP) の採用

A2A の開発への取り組みに加えて、Google は Model Context Protocol (MCP) も採用しています。OpenAI が MCP の採用を発表してからわずか数週間後、Google もそれに続きました。

Google DeepMind の CEO である Demis Hassabis 氏は最近、Google が Gemini モデルと SDK に MCP のサポートを追加することを X で発表しました。ただし、具体的なタイムラインは示していません。

Hassabis 氏は、「MCP は、AI エージェント時代のオープンスタンダードとして急速になりつつある優れたプロトコルです。MCP チームや業界の他のパートナーと協力して、このテクノロジーを進歩させることを楽しみにしています」と述べています。

2024 年 11 月のリリース以来、MCP は急速に普及し、言語モデルをツールやデータに接続するためのシンプルで標準化された方法になりつつあります。

MCP を使用すると、AI モデルはエンタープライズツールやソフトウェアなどのソースからデータにアクセスしてタスクを完了したり、コンテンツライブラリやアプリケーション開発環境にアクセスしたりできます。このプロトコルにより、開発者はデータソースとチャットボットなどの AI 搭載アプリケーション間の双方向接続を確立できます。

開発者は、MCP サーバーを介してデータインターフェイスを公開し、これらのサーバーに接続する MCP クライアント (アプリケーションやワークフローなど) を構築できます。Anthropic が MCP をオープンソース化して以来、複数の企業が MCP のサポートをプラットフォームに統合しています。