L'Ère de l'Interconnexion des Agents IA

L’Essor du Concept d’Agent

Ces dernières années, le domaine des agents (agents intelligents) suscite un intérêt sans précédent du marché, comme en témoigne le lancement du serveur GitHub MCP par Microsoft, la publication du protocole de communication inter-agents A2A par Google et le lancement du serveur MCP par Alipay. Bien qu’il n’y ait pas encore de définition totalement unifiée de l’Agent, les trois composantes principales proposées par Lilian Weng, ancienne chercheuse chez OpenAI, à savoir la ‘planification’, la ‘mémoire’ et l’’utilisation d’outils’, sont largement reconnues et constituent des éléments clés pour comprendre l’Agent.

Dans le domaine de l’intelligence artificielle, le concept d’Agent n’est pas nouveau, mais avec le développement rapide des grands modèles de langage (LLM), les perspectives d’application de l’Agent connaissent une nouvelle percée. Un agent peut être considéré comme un système intelligent capable de percevoir l’environnement, de planifier de manière autonome et d’exécuter des tâches. Son cœur de métier réside dans sa capacité à simuler le processus de prise de décision humaine et à utiliser divers outils et ressources pour atteindre les objectifs fixés.

L’État Actuel du Développement des Agents : Un Potentiel Énorme, un Taux de Pénétration à Améliorer

En tant que version évoluée des chatbots, les applications actuelles des Agents sont principalement intégrées dans les services payants des grands modèles, et seuls quelques Agents tels que Manus et Devin proposent des services payants indépendants. Malgré cela, les Agents dotés de capacités de planification autonome comme Deep Research et Manus présentent encore de nombreuses limites d’utilisation, et le nombre d’utilisateurs qui peuvent réellement en faire l’expérience n’est peut-être pas très élevé, et il reste encore beaucoup de place pour l’amélioration avant l’émergence d’applications ‘phares’.

Cependant, avec l’amélioration constante des capacités de raisonnement des grands modèles, l’Agent devient progressivement un point central de l’innovation applicative. De plus en plus de développeurs et de chercheurs commencent à explorer les applications de l’Agent dans divers domaines, tels que les assistants intelligents, les flux de travail automatisés, l’analyse de données, etc. Le potentiel de l’Agent est progressivement mis en évidence, et l’espace de développement futur est très vaste.

L’Application à Grande Échelle des Agents Est Imminente : Des Conditions Multiples Favorables Stimulent

Les Percées du Côté de la Formation des Modèles

  • Croissance Rapide de la Fenêtre Contextuelle : La fenêtre contextuelle (Context Window) d’un grand modèle est la longueur maximale de texte que le modèle peut prendre en compte lors du traitement du texte. Avec les progrès de la technologie, la fenêtre contextuelle du modèle augmente rapidement, ce qui signifie que le modèle peut mieux comprendre le contexte des longs textes, et ainsi prendre des décisions plus précises.
  • Application Approfondie de l’Apprentissage par Renforcement : L’apprentissage par renforcement est une méthode d’entraînement des Agents par des récompenses et des punitions. Ces dernières années, l’apprentissage par renforcement a été largement appliqué à l’entraînement des Agents, ce qui permet aux Agents de mieux s’adapter aux environnements complexes et d’apprendre les stratégies optimales.
  • Les Modèles de Raisonnement Deviennent de Plus en Plus Matures : Le modèle de raisonnement est la composante centrale de l’Agent, responsable du raisonnement et du jugement en fonction des informations saisies. Avec l’approfondissement de la recherche, les modèles de raisonnement deviennent de plus en plus matures et peuvent mieux prendre en charge les diverses applications de l’Agent.

Le Développement Florissant de l’Écosystème

  • Les Protocoles MCP et A2A, etc., se Développent Rapidement : MCP (Model Communication Protocol) et A2A (Agent-to-Agent) sont deux protocoles de communication d’Agent importants. Le développement rapide de ces protocoles permet aux Agents d’appeler plus facilement divers outils et services, et ainsi de réaliser des fonctions plus complexes.
  • L’Appel d’Outils par les Agents Devient de Plus en Plus Facile : Avec les progrès de la technologie, la façon dont les Agents appellent des outils et des services externes devient de plus en plus pratique. Par exemple, grâce aux API (interfaces de programmation d’applications), les Agents peuvent facilement accéder à diverses sources de données et services en ligne, et ainsi étendre leurs propres capacités.

En novembre 2024, Anthropic a publié et mis en open source le protocole MCP, qui vise à standardiser la façon dont les données et les outils externes fournissent un contexte au modèle. Cette initiative stimulera considérablement le développement de l’écosystème Agent, permettant aux Agents de mieux utiliser les ressources externes.

MCP et A2A : La Clé de l’Interconnexion des Agents

Protocole MCP : Connecter l’Agent au Monde Extérieur

L’objectif principal du protocole MCP est de réaliser l’’interconnexion en un clic’ entre l’Agent et les données et outils externes. Grâce au protocole MCP, l’Agent peut facilement accéder à diverses ressources externes, telles que des bases de données, des API, des services Web, etc. Cela permet à l’Agent de mieux comprendre l’environnement et de prendre des décisions plus éclairées.

Protocole A2A : Construire un Pont de Communication entre les Agents

L’objectif du protocole A2A est de réaliser la communication entre les Agents. Grâce au protocole A2A, les Agents peuvent collaborer et réaliser ensemble des tâches complexes. Cela est d’une grande importance pour la construction de systèmes intelligents distribués.

Bien que l’objectif du protocole A2A soit la communication entre les Agents, et que le MCP soit destiné à l’Agent et aux outils et données externes, dans la situation complexe où ‘les outils peuvent également être encapsulés en Agents’, les deux fonctions peuvent se chevaucher, mais cette concurrence contribue à réduire le coût d’appel des outils externes et de la communication des grands modèles. Cette concurrence stimulera les progrès technologiques et profitera en fin de compte à l’ensemble de l’écosystème Agent.

Perspectives de Développement de l’Agent

Agent de Bout en Bout : Sans Intervention Humaine

Actuellement, il existe un grand nombre d’’agents intelligents’ sur le marché, mais une partie importante d’entre eux sont développés sur la base de plateformes telles que Coze et Dify, et nécessitent que les humains écrivent à l’avance le flux de travail. Ces Agents ressemblent davantage à une superposition d’ingénierie d’invite, et appartiennent à des Agents relativement primaires.

L’Agent le plus avancé est ‘de bout en bout’, ce qui signifie ‘entrer une tâche à l’Agent, et l’Agent effectue automatiquement les résultats de la tâche dont l’homme a besoin’. Par exemple, l’utilisateur n’a qu’à entrer un objectif à l’Agent, et l’Agent peut planifier et exécuter la tâche de manière autonome, et finalement atteindre l’objectif. Les Agents avancés tels que L3/L4/L5, etc., répondent mieux aux besoins humains et deviendront une direction importante du développement futur de l’Agent.

L’Agent Aide les Robots et la Conduite Autonome

Lorsque la définition de l’Agent est appliquée à l’intelligence incarnée, on constate que les robots et les véhicules dominés par les grands modèles sont également des Agents. En particulier les robots, le goulot d’étranglement du développement actuel des robots ne réside pas dans la façon de ‘faire des mouvements physiques’ du ‘cervelet’, mais dans la pensée de ‘quels mouvements physiques faire’ du ‘cerveau’, ce qui relève précisément de la portée de l’Agent.

Dans le domaine de la robotique, l’Agent peut aider les robots à mieux comprendre l’environnement et à prendre des décisions plus raisonnables. Par exemple, l’Agent peut planifier de manière autonome le chemin de déplacement du robot en fonction des objets et des personnes dans l’environnement, et exécuter diverses tâches.

Dans le domaine de la conduite autonome, l’Agent peut aider les véhicules à mieux percevoir l’environnement et à prendre des décisions de conduite plus sûres. Par exemple, l’Agent peut ajuster de manière autonome la vitesse et la direction du véhicule en fonction des feux de circulation, des autres véhicules et des piétons, afin d’éviter les accidents de la circulation.

Interconnexion des Agents et Réseau Natif de l’IA

À l’avenir, peut-être que tous les Agents devraient pouvoir communiquer entre eux, s’auto-organiser, s’auto-négocier et construire un réseau de collaboration à moindre coût et à plus haute efficacité que l’Internet existant. La communauté des développeurs chinois construit également des protocoles tels que ANP, qui visent à devenir le protocole HTTP de l’ère Internet des Agents. Et en ce qui concerne l’authentification d’identité entre les Agents, on peut utiliser des technologies telles que DID.

  • Interconnexion des Agents : L’interconnexion entre les Agents peut réaliser le partage des ressources et la collaboration, et ainsi améliorer l’efficacité de l’ensemble du système. Par exemple, différents Agents peuvent partager des données, des outils et des services, et ainsi réaliser ensemble des tâches complexes.
  • Réseau Natif de l’IA : Le réseau natif de l’IA est un réseau spécialement conçu pour les applications d’intelligence artificielle. Ce réseau peut fournir une bande passante plus élevée, une latence plus faible et une sécurité plus forte, et ainsi mieux prendre en charge les diverses applications de l’Agent.
  • Technologie DID : DID (Decentralized Identifier) est une technologie d’authentification d’identité décentralisée. Grâce à la technologie DID, l’Agent peut posséder sa propre identité, et ainsi réaliser une communication plus sûre et plus fiable.

Le développement de la technologie Agent apportera d’énormes changements, et l’Internet du futur ne sera plus un simple réseau de transmission d’informations, mais un réseau de collaboration rempli d’intelligence.