Googles Agent2Agent Protokoll enthüllt

Googles Agent2Agent Protokoll enthüllt: Ein tiefer Einblick in die Interoperabilität von KI-Agenten

Die Landschaft der Künstlichen Intelligenz (KI) entwickelt sich rasant, wobei KI-Agenten sich als eine zentrale Komponente herauskristallisieren. Ein KI-Agent kombiniert im Wesentlichen die kognitive Leistungsfähigkeit eines Large Language Model (LLM) mit einem Werkzeugkasten, der es ihm ermöglicht, Befehle auszuführen, Informationen abzurufen und Aufgaben autonom zu erledigen. Diese Agenten reagieren auf Anfragen von Benutzern oder interagieren mit anderen Agenten. Das Potenzial von KI-Agenten liegt in ihrer Fähigkeit, Operationen zu skalieren, komplizierte Prozesse zu automatisieren und die Effizienz in verschiedenen Geschäftsfunktionen zu steigern, was die individuelle Produktivität erheblich verbessert.

Es besteht Einigkeit darüber, dass ein universeller ‘One-Size-Fits-All’-Agent nicht effektiv mit den vielfältigen und komplexen Aufgaben umgehen kann, die von KI-Agenten erwartet werden. Die Lösung liegt in Agentic Workflows. Diese werden durch Netzwerke autonomer KI-Agenten erstellt, die Entscheidungen treffen, Aktionen ausführen und Aufgaben mit minimaler menschlicher Aufsicht koordinieren können.

Googles Vision für Agenten-Interoperabilität: Das Agent2Agent Protokoll (A2A)

Google hat am 9. April 2025 das Agent2Agent (A2A) Protokoll vorgestellt. Es wurde entwickelt, um eine nahtlose Kommunikation zwischen KI-Agenten zu ermöglichen, damit diese sicher Daten austauschen und komplexe Geschäftsprozesse automatisieren können. Dies wird durch die Interaktion mit Unternehmenssystemen und Drittanbieterplattformen erreicht.

Das A2A-Protokoll ist das Ergebnis einer Zusammenarbeit zwischen Google und über 50 Industriepartnern, die alle eine gemeinsame Vision für die Zukunft der KI-Agenten-Kollaboration teilen. Entscheidend ist, dass diese Zusammenarbeit über spezifische Technologien hinausgeht und auf offenen und sicheren Standards basiert.

Kerndesignprinzipien von A2A

Bei der Entwicklung des A2A-Protokolls ließen sich Google und seine Partner von mehreren grundlegenden Prinzipien leiten:

  • Offen und Herstellerneutral: Das A2A-Protokoll muss offen sein, d. h. seine Spezifikationen sind öffentlich zugänglich. Dies stellt sicher, dass jeder Entwickler oder jede Organisation das Protokoll ohne proprietäre Einschränkungen implementieren kann. Herstellerneutral bedeutet, dass das Protokoll nicht an die Technologie eines bestimmten Anbieters gebunden ist. Dies fördert gleiche Wettbewerbsbedingungen für alle Teilnehmer.
  • Natürliche Modalitäten für die Zusammenarbeit: A2A ermöglicht es Agenten, mit ihren inhärenten, unstrukturierten Kommunikationsmethoden zusammenzuarbeiten. Dies unterscheidet Agenten von Werkzeugen und unterscheidet A2A vom Model Context Protocol (MCP).
  • Aufbau auf bestehenden Standards: Um die Integration in bestehende IT-Infrastrukturen zu vereinfachen, basiert das Protokoll auf etablierten Standards wie HTTP, Server-Sent Events (SSE) und JSON-RPC.
  • Sicherheit durch Design: Sicherheit ist ein vorrangiges Anliegen. A2A beinhaltet Authentifizierungs- und Autorisierungsmechanismen auf Enterprise-Niveau, um sensible Daten zu schützen und sichere Interaktionen zu gewährleisten.
  • Datenmodalitätsagnostisch: A2A ist nicht auf textbasierte Kommunikation beschränkt. Es kann verschiedene Datentypen verarbeiten, darunter Bilder, Audio- und Videostreams.

A2As Funktionalitäten: Agenten-Kollaboration ermöglichen

A2A bietet eine Reihe integrierter Funktionen zur Rationalisierung von Agenteninteraktionen:

  • Capability Discovery (Fähigkeitserkennung): Dies ermöglicht es Agenten, ihre Fähigkeiten zu bewerben. Clients können leicht erkennen, welcher Agent am besten für eine bestimmte Aufgabe geeignet ist. Stellen Sie sich dies wie einen digitalen Marktplatz vor, auf dem Agenten ihre Fähigkeiten und ihr Fachwissen präsentieren.
  • Task and State Management (Aufgaben- und Zustandsverwaltung): Die Kommunikation zwischen einem Client und einem Agenten dreht sich um die Ausführung von Aufgaben. Diese Aufgaben werden durch das Protokoll definiert und haben einen genau definierten Lebenszyklus. Das Ergebnis einer Aufgabe wird als Artefakt bezeichnet. Die Verwaltung von Aufgaben und deren Zuständen gewährleistet einen zuverlässigen und nachverfolgbaren Workflow.
  • Secure Collaboration (Sichere Zusammenarbeit): Agenten können sicher Nachrichten austauschen, um Kontexte zu teilen, Antworten zu geben, Artefakte zu liefern oder Benutzeranweisungen weiterzuleiten. Dies fördert eine kollaborative Umgebung, in der Agenten nahtlos zusammenarbeiten können.
  • User Experience Negotiation (Verhandlung der Benutzererfahrung): Jede Nachricht enthält ‘Teile’, bei denen es sich um eigenständige Inhaltsstücke handelt, z. B. ein generiertes Bild. Jeder Teil hat einen angegebenen Inhaltstyp, der es sowohl dem Client als auch dem Remote-Agent ermöglicht, sich auf das erforderliche Format zu einigen. Diese Funktion umfasst auch die Aushandlung der UI-Funktionen des Benutzers, z. B. iFrames, Video und Webformulare.

Die Funktionen Capability Discovery und User Experience Negotiation sind besonders überzeugend, da sie den Weg für die Schaffung von Agenten-Marktplätzen ebnen. Auf diesen Marktplätzen können Anbieter ihre Agenten auflisten, und Clients können den am besten geeigneten Agenten auswählen, um bestimmte Aufgaben auszuführen.

Obwohl dieses Konzept äußerst vielversprechend und potenziell essenziell für das Wachstum des KI-Agenten-Marktes ist, erfordert die Verwirklichung dieser Vision mehr als nur die Definition eines Interaktionsprotokolls.

Agent2Agent Protokollkonzepte dekodieren

Das Verständnis der Kernkonzepte, die dem Protokoll zugrunde liegen, ist entscheidend für eine effektive Implementierung und Nutzung. Diese Konzepte werden vielen Entwicklern von KI-Agenten bereits bekannt sein:

  • Agent Card (Agentenkarte): Dies ist eine öffentliche Metadatendatei, die die Fähigkeiten, Fertigkeiten, Endpunkt-URL und Authentifizierungsanforderungen eines Agenten beschreibt. Die Agentenkarte spielt eine entscheidende Rolle in der Erkennungsphase, da sie es den Benutzern ermöglicht, den geeigneten Agenten auszuwählen und zu verstehen, wie sie mit ihm interagieren können.
  • Server: Ein Agent, der die A2A-Protokollmethoden implementiert, wie in der JSON-Spezifikation definiert. Im Wesentlichen ist der Server der Agent, der seine Dienste über das A2A-Protokoll anbietet.
  • Client: Dies kann eine Anwendung oder ein anderer Agent sein, der A2A-Dienste nutzt. Der Client initiiert Anfragen und nutzt die vom Server angebotenen Funktionen.
  • Task (Aufgabe): Die grundlegende Arbeitseinheit für den Agenten. Sie wird vom Client initiiert und vom Server ausgeführt und durchläuft im Laufe ihres Lebenszyklus verschiedene Zustände.
  • Message (Nachricht): Stellt den Kommunikationsaustausch zwischen dem Client und dem Agenten dar. Jede Nachricht hat eine definierte Rolle und besteht aus Teilen.
  • Part (Teil): Dies ist die grundlegende Inhaltseinheit innerhalb einer Nachricht oder eines Artefakts. Ein Teil kann Text, eine Datei oder strukturierte Daten sein. Dies ermöglicht eine flexible Kommunikation verschiedener Datentypen.
  • Artifact (Artefakt): Stellt die Ausgaben dar, die der Agent während der Erledigung einer Aufgabe generiert. Wie Nachrichten enthalten Artefakte Teile.
  • Streaming: Das Protokoll unterstützt Streaming, sodass der Server den Client in Echtzeit über den Status langwieriger Aufgaben informieren kann. Dies verbessert die Benutzererfahrung, indem es kontinuierliches Feedback liefert.

Die aktuelle Landschaft des Agent2Agent Projekts

A2A wurde erst kürzlich der Öffentlichkeit vorgestellt, und seine Spezifikationen sind jetzt auf GitHub verfügbar. Derzeit gibt es keinen offiziellen Fahrplan oder eine produktionsreife Implementierung des Protokolls. Google arbeitet jedoch aktiv mit Partnern zusammen, um später im Jahr 2025 eine produktionsreife Version auf den Markt zu bringen.

Das A2A GitHub Repository bietet mehrere Codebeispiele sowohl in TypeScript als auch in Python, zusammen mit einer umfassenden Demoanwendung. Diese Anwendung zeigt die Interaktion zwischen Agenten, die mit verschiedenen Agent Development Kits (ADK) entwickelt wurden.

Während dies eine Grundlage für Experimente bietet, muss A2A in das bestehende Ökosystem von Frameworks und Tools integriert werden, die für die Bereitstellung von Agentic Workflows verwendet werden, bevor es in unternehmenskritischen Anwendungen eingesetzt werden kann.

Die Unterstützung durch eine große Anzahl von wichtigen Akteuren (insbesondere ist keines der Unternehmen, die Foundation Models bereitstellen, vertreten), die mit Google an der Protokolldefinition arbeiten, deutet stark darauf hin, dass die notwendigen Tools bald verfügbar sein werden und dass A2A in die führenden Agenten-Frameworks integriert wird.

A2A vs. Model Context Protocol (MCP): Das Verständnis des Unterschieds

Das Model Context Protocol (MCP), das von Anthropic entwickelt wurde, ermöglicht es Anwendungen, Large Language Models Kontext bereitzustellen. Anthropic beschreibt MCP als den ‘USB-C-Anschluss für KI-Anwendungen’ und bietet eine standardisierte Möglichkeit, LLMs mit Datenquellen und Tools zu verbinden, ähnlich wie USB verschiedene Peripheriegeräte mit Geräten verbindet.

Laut Google ist A2A nicht dazu gedacht, MCP zu ersetzen. Es gibt nur minimale Überschneidungen zwischen den beiden Protokollen; sie adressieren unterschiedliche Probleme und operieren auf unterschiedlichen Abstraktionsebenen. A2A erleichtert die Interaktion zwischen Agenten, während MCP Large Language Models mit Tools verbindet, die sie wiederum mit Diensten und Daten verbinden. Die beiden Protokolle ergänzen sich also.

Agent2Agent und Model Context Protocol sind zwei Teile desselben Puzzles, und beide werden benötigt, um die zukünftige Vision für agentische Workflows und allgegenwärtige KI zu verwirklichen.