Agentコンセプトの勃興
近年、マイクロソフトがGitHub MCPサーバーを発表し、グーグルがA2Aエージェント間通信プロトコルを発表し、アリペイがMCPサーバーを立ち上げるなど、一連の出来事が発生し、Agent(エージェント)分野は市場からかつてないほどの注目を集めています。現在、Agentの定義については完全な合意に達していませんが、元OpenAIの研究者であるLilian Wengが提唱した「計画」、「記憶」、「ツール使用」という3つの主要コンポーネントが広く認識されており、Agentを理解するための重要な要素となっています。
人工知能の分野では、Agentの概念は目新しいものではありませんが、大規模言語モデル(LLM)の急速な発展に伴い、Agentの応用が新たなブレークスルーを迎えています。Agentは、環境を感知し、自主的に計画を立ててタスクを実行できるインテリジェントシステムと見なすことができます。その核心は、人間の意思決定プロセスをシミュレートし、さまざまなツールとリソースを利用して既定の目標を達成できることです。
Agentの発展現状:巨大な潜在力、浸透率の向上が待たれる
チャットボットの進化版として、現在のAgentアプリケーションのほとんどは、大規模モデルの有料サービスに統合されており、ManusやDevinなどのAgentだけが独立した有料サービスを提供しています。それでも、Deep ResearchやManusのような自律的な計画能力を備えたAgentは、使用に多くの制限があり、実際に体験できるユーザー数はそれほど多くない可能性があります。’爆発的な’アプリケーションが登場するまでには、まだまだ改善の余地があります。
しかし、大規模モデルの推論能力が向上するにつれて、Agentはアプリケーションイノベーションの焦点になりつつあります。ますます多くの開発者と研究者が、インテリジェントアシスタント、自動化されたワークフロー、データ分析など、さまざまな分野でのAgentの応用を探求し始めています。Agentの可能性は徐々に開拓されており、将来の発展の余地は非常に広いです。
Agentの大規模応用が間近:複数の有利な条件が原動力
モデル訓練側のブレークスルー
- コンテキストウィンドウの急速な成長: 大規模モデルのコンテキストウィンドウとは、モデルがテキストを処理する際に考慮できるテキストの最大長を指します。技術の進歩に伴い、モデルのコンテキストウィンドウは急速に拡大しており、モデルが長文のコンテキストをよりよく理解し、より正確な意思決定を行えるようになっています。
- 強化学習の深い応用: 強化学習は、報酬と罰を通じてAgentを訓練する方法です。近年、強化学習はAgentの訓練に広く応用されており、Agentが複雑な環境にうまく適応し、最適な戦略を学習できるようになっています。
- 推論モデルの成熟: 推論モデルはAgentの中核的な構成要素であり、入力された情報に基づいて推論と判断を行います。研究が進むにつれて、推論モデルはますます成熟し、Agentのさまざまなアプリケーションをより適切にサポートできるようになっています。
エコシステムの活発な発展
- MCPやA2Aなどのプロトコルが急速に発展: MCP(Model Communication Protocol)とA2A(Agent-to-Agent)は、2つの重要なAgent通信プロトコルです。これらのプロトコルの急速な発展により、Agentはさまざまなツールやサービスをより簡単に呼び出し、より複雑な機能を実装できるようになっています。
- Agentがツールをより簡単に呼び出せる: 技術の進歩に伴い、Agentが外部のツールやサービスを呼び出す方法がますます便利になっています。たとえば、API(アプリケーションプログラミングインターフェース)を使用すると、Agentはさまざまなデータソースやオンラインサービスに簡単にアクセスして、自身の能力を拡張できます。
2024年11月、AnthropicはMCPプロトコルを公開し、オープンソース化しました。これは、外部データとツールがモデルにコンテキストを提供する方法を標準化することを目的としています。この動きは、Agentエコシステムの発展を大きく促進し、Agentが外部リソースをより適切に利用できるようにします。
MCPとA2A:Agent相互接続の鍵
MCPプロトコル:Agentと外部世界を接続する
MCPプロトコルの主な目標は、Agentと外部データおよびツールを’ワンクリック’で相互接続できるようにすることです。MCPプロトコルを使用すると、Agentはデータベース、API、Webサービスなど、さまざまな外部リソースに簡単にアクセスできます。これにより、Agentは環境をよりよく理解し、より賢明な意思決定を行えるようになります。
A2Aプロトコル:Agent間の通信ブリッジを構築する
A2Aプロトコルの目標は、Agent間の通信を実現することです。A2Aプロトコルを使用すると、Agentは相互に連携して、複雑なタスクを共同で完了できます。これは、分散型インテリジェントシステムを構築する上で重要な意味を持ちます。
A2Aプロトコルの目標はAgent間の通信であり、MCPはAgentと外部ツールおよびデータとの通信ですが、’ツールもAgentとしてカプセル化される可能性がある’という複雑な状況下では、両者の機能が重複する可能性があります。しかし、この競争は、大規模モデルが外部ツールを呼び出して通信するためのコストを下げるのに役立ちます。この競争は技術の進歩を促進し、最終的にはAgentエコシステム全体に利益をもたらします。
Agentの発展展望
エンドツーエンドAgent:人手による介入は不要
現在、市場には大量の’インテリジェントエージェント’が存在しますが、そのかなりの部分は、CozeやDifyなどのプラットフォームに基づいて開発されており、人間が事前にワークフローを作成する必要があります。これらのAgentは、プロンプトエンジニアリングの重ね合わせのようなものであり、比較的初級レベルのAgentに属します。
より高度なAgentは’エンドツーエンド’であり、これは’Agentにタスクを入力すると、Agentが人間が必要とするタスクの結果を自動的に完了する’ことを意味します。たとえば、ユーザーがAgentに目標を入力するだけで、Agentは自律的に計画を立ててタスクを実行し、最終的に目標を達成できます。L3/L4/L5など、このような高度なAgentは、人間のニーズにより適合しており、将来のAgent開発の重要な方向性になるでしょう。
Agentはロボットと自動運転を支援
Agentの定義を具体化したインテリジェンスに適用すると、大規模モデルに支配されたロボットと車両もAgentであることがわかります。特にロボットの場合、現在のロボット開発のボトルネックは、’どのような物理的な動きをするか’という’小脳’ではなく、’どのような物理的な動きをするか’を考える’大脳’にあります。これはまさにAgentの射程範囲に入ります。
ロボット分野では、Agentはロボットが環境をよりよく理解し、より合理的な意思決定を行えるように支援できます。たとえば、Agentは環境内の物体や人物に基づいて、ロボットの移動経路を自律的に計画し、さまざまなタスクを実行できます。
自動運転の分野では、Agentは車両が周囲の環境をよりよく感知し、より安全な運転の意思決定を行えるように支援できます。たとえば、Agentは交通信号、他の車両、歩行者に基づいて、車両の速度と方向を自律的に調整して、交通事故を回避できます。
Agentの相互接続とAIネイティブネットワーク
将来的には、おそらくすべてのAgentが相互に通信でき、自己組織化、自己交渉し、既存のインターネットよりも低コストで高効率なコラボレーションネットワークを構築できるようになるはずです。中国の開発者コミュニティも、Agentインターネット時代のHTTPプロトコルとなることを目指して、ANPなどのプロトコルを構築しています。Agent間の認証については、DIDなどの技術を利用できます。
- Agentの相互接続: Agent間の相互接続は、リソースの共有とコラボレーションを実現し、システム全体の効率を向上させることができます。たとえば、異なるAgentはデータ、ツール、サービスを共有して、複雑なタスクを共同で完了できます。
- AIネイティブネットワーク: AIネイティブネットワークとは、人工知能アプリケーション専用に設計されたネットワークを指します。このネットワークは、より高い帯域幅、より低い遅延、より強力なセキュリティを提供し、Agentのさまざまなアプリケーションをより適切にサポートできます。
- DID技術: DID(Decentralized Identifier)は、分散型ID認証技術です。DID技術を使用すると、Agentは独自のIDを持つことができ、より安全で信頼性の高い通信を実現できます。
Agent技術の発展は、大きな変革をもたらすでしょう。将来のインターネットは、単なる情報伝達ネットワークではなく、インテリジェンスに満ちたコラボレーションネットワークになるでしょう。