エージェント世界のA2AとMCPプロトコル
近年、GoogleがAgent2Agent、略してA2Aと呼ばれるエージェント向けの新しいオープンプロトコルを発表しました。同時に、Alibaba CloudのBailianもMCPへの参入を発表しました。A2AとMCPとは一体何なのでしょうか。
これらのプロトコルを理解するために、国家間の外交というアナロジーを考えてみましょう。各AIエージェントを、独自の言語と習慣を持つ小さな国と想像してください。これらの「国々」は、同じ建物内に大使館を構え、コミュニケーションを取り、貿易を行い、情報を交換しようとしています。
理想的なシナリオでは、これらの国々は友好的な関係を維持し、明確な外交ルールを遵守し、シームレスに相互作用し、合意に署名し、会議テーブルを囲んで国際プロジェクトで協力することができるでしょう。
しかし、現実は、各大使館が異なるプロトコルで独立して運営されているということです。その結果、「A国」との単純な貿易協定を開始するには、規定、認証、翻訳、特殊な鍵など、多数の要件を満たす必要があります。「B国」や「C国」と関わるには、同様の手順を何度も繰り返す必要があります。このアドホックで、断片的で、多面的なアプローチはコミュニケーションコストを膨らませ、各インタラクションが追加の「情報関税」を発生させます。
過去には、AIエージェントも同様の苦境に遭遇していました。
たとえば、自動的にメールに応答するエージェントや、スケジュール管理を支援するためにカレンダーアプリケーションに統合されたエージェントがあるとします。しかし、これらのAIエンティティは直接通信することが難しく、手動での情報のコピーアンドペーストや、カスタム構築されたインターフェースへの依存が必要になります。
その結果、AIエージェントは孤立して動作し、相互運用性が低くなります。この断片化は、複数のAIアプリケーション間を移動する必要があるユーザーをイライラさせ、AIの潜在能力を制限します。マルチエージェントのコラボレーションによって達成できるはずの複雑なタスクが、個々のサイロ内に人為的に閉じ込められています。
この状況は第二次世界大戦後の状況を反映しており、各AIエージェントは自律的に行動し、統一されたルールがなく、コミュニケーションの障壁に直面しています。現在のAIエコシステムは、戦後の荒れ地のようなもので、データや機能にアクセスするためには特定のインターフェースとプロトコルを遵守する必要があります。標準がないため、新しい協力関係ごとに「関税」が追加され、孤立と利己心を特徴とする、まとまりがなく非効率なAIエコシステムにつながっています。
AI業界は、エージェントと外部ツール間のシームレスなインタラクションを促進するために、普遍的に受け入れられるプロトコルを確立する可能性を模索しています。GoogleとAnthropicが先頭に立ち、それぞれがA2AプロトコルとMCPプロトコルというソリューションを提案しています。
A2Aプロトコル
A2Aプロトコルは、Agent2Agentの略で、AIエージェントが直接コミュニケーションを取り、協力できるようにします。
A2Aプロトコルの主な目的は、多様な起源とベンダーのエージェントが互いを理解し、協力できるようにすることです。これは、貿易障壁を削減するための世界貿易機関の取り組みに似ています。
A2Aを採用することで、異なるベンダーやフレームワークのエージェントは自由貿易地域に参加し、共通の言語を使用して通信し、個々のエージェントの能力を超える複雑なタスクをシームレスに共同で実行できます。
A2Aの動作を説明するために、次のアナロジーを考えてみましょう。
1. エージェント = 国家の外交官
各エージェントは、国の在外公館を代表する外交官として機能します。A2Aプロトコルは、統一された外交エチケットとコミュニケーション手順を確立することを目的としています。以前は、「A国」の外交官はフランス語のみでコミュニケーションを取り、「B国」の外交官はキリル文字を使用し、「C国」は古代の金箔の手紙による通信を要求していました。A2Aプロトコルは、すべての参加者が事前に合意された言語で通信し、同じ形式で文書を提出し、合意された結果を実行できることを保証します。
2. エージェントカード = 外交資格 / 大使の名刺
A2Aフレームワーク内では、各エージェントは、エージェントの名前、バージョン、機能、サポートされている言語または形式などの詳細を含む、外交官の名刺に似た「エージェントカード」を発行する必要があります。
外交官の名刺がその役割と所属を特定するのと同様に、エージェントカードはエージェントのスキル、認証方法、入力/出力形式をリストします。これにより、他の外交官は機能を迅速に特定して理解し、コミュニケーションの障壁を最小限に抑えることができます。
3. タスク = 二国間または多国間の外交プロジェクト
タスクの概念はA2Aの中核です。エージェントが別のエージェントにタスクを委任する場合、「協力プロジェクトの意向表明書」を発行します。受諾されると、両当事者はタスクIDを記録し、進捗状況を追跡し、完了まで情報を交換します。
外交用語では、ある国が別の国に、「国境を越えた高速鉄道の建設で協力したい。エンジニアリングチームを派遣してください」と提案するかもしれません。これはA2Aタスクを反映しており、開始当事者は要件を概説し、リモートエージェントが受け入れ、両当事者がプロジェクト全体を通して進捗状況を定期的に更新します。
メッセージは、プロジェクトの初期段階または中間段階で交換されるコミュニケーションを表し、外交ケーブル、メモ、使節の交換に似ています。
4. プッシュ通知 = 外交大使館掲示
A2Aでは、タスクが完了に長時間を要する長期プロジェクトである場合、リモートエージェントは、長期的なインフラストラクチャプロジェクトに関する定期的な更新を提供する国と同様に、プッシュ通知を通じて開始当事者を更新できます。これにより、非同期のコラボレーション機能が強化されます。
5. 認証とセキュリティ = 外交特権とプロトコル
A2Aはエンタープライズグレードの認証戦略を採用し、なりすましや悪意のある盗聴を防ぐために、通信する両当事者が資格情報を検証することを要求します。このメカニズムは、外交特権とプロトコルに類似しています。
本質的に、A2Aは国際外交またはビジネスコラボレーションのダイナミクスを反映しており、標準化されたコミュニケーションとセキュリティを重視しています。
MCPプロトコル
MCPプロトコル、またはModel Context Protocolは、Anthropicが2024年11月に導入し、オープンソース化した標準です。
A2AはAI外交官間のコミュニケーションプロセスに対処しますが、永続的な課題が残っています。それは、信頼できる情報源の欠如です。最も雄弁な外交官やビジネスエグゼクティブであっても、国際情勢やリソース配分に関する正確な情報なしに効果的に活動することはできません。
現代の外交官は、ビザシステム、国際決済システム、インテリジェンスデータベースなどの外部ツールを利用して職務を遂行しています。同様に、複雑な責任を負うエージェントは、さまざまなデータベース、ドキュメントシステム、エンタープライズアプリケーション、さらにはハードウェアデバイスに接続する必要があります。
これは、外交官のために包括的な情報機関を設立し、彼らが仕事をしやすくするためのツールへのアクセスを許可することに例えることができます。
以前は、エージェントはカスタムプラグインを開発し、さまざまなツールと深く統合する必要がありましたが、これは手間がかかり、時間がかかりました。ただし、MCPを使用すると、プロセスを合理化できます。
MCPは、大規模言語モデルと外部データソースおよびツール間のインタラクションを標準化します。AnthropicはMCPをAIアプリケーション用のUSB-Cポートに例えています。
USB-Cは、単一のポートを介した充電とデータ転送を処理する、デバイス用のユニバーサルインターフェースとして機能します。MCPは、AIドメインでユニバーサルインターフェースを作成し、さまざまなモデルと外部システムが同じプロトコルを使用して接続できるようにすることを目指しています。カスタム統合ソリューションを毎回開発するのではなく。
データベース、検索エンジン、またはサードパーティアプリケーションに接続するAIモデルは、すべてMCPをサポートしている場合、シームレスに通信できます。
MCPは、クライアントサーバーアーキテクチャを採用しています。
1. MCPサーバー = 統合インテリジェンスエージェンシー
組織または個人は、データベース、ファイルシステム、カレンダー、およびサードパーティサービスをMCPサーバーにカプセル化できます。これらのサーバーはMCPプロトコルに準拠し、統一された形式のアクセスエンドポイントを公開し、MCPクライアント標準に準拠するエージェントがリクエストを送信したり、情報を取得したり、操作を実行したりできるようにします。
2. MCPクライアント = 外交官が使用するターミナル機器
エージェント外交官は、専用のターミナル機器を携帯しており、「財務システムから在庫データを取得する」、「APIにリクエストを送信する」、または「PDFドキュメントを取得する」などのコマンドを入力できます。
MCPがない場合、さまざまなシステムと統合するには、異なるアクセスコードを記述する必要があり、これは面倒です。ただし、MCPを使用すると、プロトコルをサポートするクライアントは、異なるMCPサーバー間を簡単に切り替えて、情報を取得し、ビジネスプロセスを実行できます。
本質的に、MCPはAIエージェントと外部リソース間のシームレスな統合を促進します。
A2AとMCPの違い
A2AとMCPの違いを明確にするために、国の首脳(企業のAIエージェントを代表する)が集まり、グローバル経済分析レポートの作成など、国境を越えたタスクで協力するという仮説的な国際サミットを考えてみましょう。
普遍的なプロトコルがない場合、各代表者が異なる言語を話すため、そのような会議は事実上不可能です。ただし、A2Aプロトコルを使用すると、すべての代表者は会議に入る前に「A2Aウィーン外交条約」に署名し、統一された形式で通信し、身元を特定し、意図を述べ、応答時に以前の発言IDを引用することに同意します。
これにより、「エージェントG」はA2A形式で「エージェントO」にメッセージを送信でき、「エージェントO」はそれに応じて応答します。これは、異なる企業からのAIエージェント間の妨げのないコミュニケーションの最初の例です。
議論中、AIの代表者は、分析のためにデータにアクセスしたり、ツールを利用したりする必要があります。Anthropicの「エージェントA」は、外部データまたはツールサポートにMCPシステムを使用することを提案しています。
会議ホールの横に「MCP同時通訳室」が設置され、リクエストを受け取るとMCP経由で統一された言語で応答できる専門家が配置されています。
たとえば、「エージェントQ」は計算のためにクラウドデータベースにアクセスする必要があります。誰かを国に送り返す代わりに、データベースXからのデータのMCPリクエストを送信します。MCPデータベース管理者はリクエストを翻訳し、結果を取得し、「エージェントQ」にMCP言語で応答します。MCP翻訳は認識された形式であるため、プロセス全体は他のエージェントには透過的であり、「エージェントQ」が引用したデータを理解できます。
レポートの作成が進むにつれて、「エージェントG」と「エージェントA」は、それぞれの貢献を統合する必要があることに気づきます。「エージェントG」は数値分析を専門とし、「エージェントA」は言語の要約に優れています。
「エージェントG」はA2A経由でGDP成長率データを伝達し、「エージェントA」はMCP経由でExcelスプレッドシートプラグインに接続し、データトレンドを検証し、要約段落で応答します。
このシナリオでは、A2Aはエージェント間のコミュニケーションを促進し、MCPはエージェントが外部ツールと情報にアクセスできるようにします。これらのプロトコルは連携して、AI版の国連向けのカスタマイズされたコミュニケーション合意を作成します。これらのプロトコルを導入することで、AIエージェントは効果的に連携し、相互接続されたAIエコシステムを形成できます。
A2Aは外交コミュニケーション専用のホットラインに似ており、エージェント間の直接的なコミュニケーションに対応しています。MCPは、同時通訳とリソース共有システムに似ており、インテリジェントエンティティが外部情報に接続するという問題に対処しています。
A2AとMCPの台頭は、AI業界が競争ではなくコラボレーションに向かって進化していることを告げています。無数のAIエージェントがWebサイトのように展開され、A2Aを通じて発見および通信し、MCPを通じてリソースにアクセスし、知識を共有します。