A2A: KI-Kollaboration erschließen

KI-Kollaboration freischalten: Ein tiefer Einblick in das Agent2Agent (A2A)-Protokoll

Die Welt der Künstlichen Intelligenz entwickelt sich rasant weiter, und KI-Agenten werden immer ausgefeilter und leistungsfähiger. Da diese Agenten immer häufiger eingesetzt werden, wird die Notwendigkeit einer nahtlosen Kommunikation und Zusammenarbeit zwischen ihnen immer wichtiger. Hier kommt das Agent2Agent (A2A)-Protokoll ins Spiel, Googles innovative Lösung, die die Interoperabilität und Teamarbeit zwischen KI-Agenten fördern soll.

A2A ist im Kern ein Framework, das es KI-Agenten ermöglicht, effektiv zu kommunizieren und zusammenzuarbeiten, unabhängig von ihrer zugrunde liegenden Architektur oder den Anbietern, die dahinter stehen. Es dient als universeller Übersetzer, der die Lücken zwischen verschiedenen KI-Systemen schließt und eine nahtlose Interaktion ermöglicht. Stellen Sie es sich als eine gemeinsame Sprache vor, die es KI-Agenten ermöglicht, harmonisch zusammenzuarbeiten und neue Möglichkeiten für komplexe Problemlösungen und Automatisierung zu erschließen.

Die Entstehung von A2A: Bewältigung der Herausforderungen der KI-Integration

Um die Bedeutung von A2A voll und ganz zu würdigen, ist es wichtig, den Kontext zu verstehen, der zu seiner Entstehung geführt hat. Der Aufstieg leistungsstarker Sprachmodelle wie GPT-3.5 markierte einen Wendepunkt bei der Einführung von KI, da Entwickler nach Wegen suchten, ihre Fähigkeiten über einfache Chat-Schnittstellen hinaus zu erweitern.

Eine frühe Lösung war das Function Calling, das es Large Language Models (LLMs) ermöglichte, sich auf einer Eins-zu-Eins-Basis mit externen APIs zu verbinden. Dieser Ansatz führte jedoch schnell zu einem fragmentierten Ökosystem, in dem verschiedene KI-Anbieter und -Implementierer unterschiedliche Integrationsmethoden einführten, was zu einer begrenzten Interoperabilität führte.

Anthropic’s Model Context Protocol (MCP) kristallisierte sich als potenzielle Lösung für das ‘NxM-Problem’ heraus, bei dem die Anzahl der Agenten/KI-Systeme (N) mit der Anzahl der Tools/Datenquellen (M) multipliziert wird. MCP zielte darauf ab, den Kontext zu standardisieren und die Integration zu vereinfachen, aber Google erkannte die Notwendigkeit eines Protokolls, das es Agenten ermöglichen würde, direkt miteinander zu kommunizieren.

Hier kommt A2A ins Spiel. Wie MCP vereinheitlicht A2A die Art und Weise, wie KI-Agenten interagieren, aber anstatt sich darauf zu konzentrieren, Agenten mit Tools und Daten zu verbinden, konzentriert es sich darauf, Agenten mit anderen Agenten zu verbinden. Es ist ein entscheidender Schritt beim Aufbau wirklich kollaborativer KI-Systeme.

Enthüllung des Wesens von A2A: Eine universelle Sprache für KI-Agenten

A2A ist ein offenes Protokoll, das es KI-Agenten ermöglicht, miteinander zu kommunizieren, unabhängig von ihrer Herkunft oder ihrem Design. Es fungiert als Übersetzer, der verschiedene Sprachen und Frameworks wie LangChain, AutoGen und LlamaIndex versteht und interpretiert.

A2A wurdeim April 2025 eingeführt und in Zusammenarbeit mit über 50 Technologiepartnern entwickelt, darunter Branchenriesen wie Atlassian, Salesforce, SAP und MongoDB. Dieser kollaborative Ansatz stellt sicher, dass A2A nicht nur eine Google-Initiative ist, sondern ein breiteres Branchenbemühen um Standardisierung.

Im Kern behandelt A2A jeden KI-Agenten als einen vernetzten Dienst mit einer Standardschnittstelle. Dies ist analog dazu, wie Webbrowser und Server über HTTP kommunizieren, aber anstelle von Websites ist es für KI-Agenten. So wie MCP das NxM-Problem angeht, vereinfacht A2A den Prozess der Verbindung verschiedener Agenten, ohne dass für jede Paarung benutzerdefinierter Code erforderlich ist.

Entschlüsselung der Kernfähigkeiten von A2A: Ermöglichung nahtloser Zusammenarbeit

A2A baut auf vier Schlüsselfähigkeiten auf, die die Zusammenarbeit von Agenten Realität werden lassen. Um diese Fähigkeiten zu verstehen, ist es wichtig, einige Schlüsselbegriffe zu definieren:

  • Client-Agent/A2A-Client: Die App oder der Agent, der A2A-Dienste nutzt. Dies ist der ‘Haupt’-Agent, der Aufgaben initiiert und mit anderen Agenten kommuniziert.
  • Remote-Agent/A2A-Server: Ein Agent, der einen HTTP-Endpunkt über das A2A-Protokoll bereitstellt. Dies sind die ergänzenden Agenten, die die Aufgabenerledigung übernehmen.

Mit diesen Definitionen im Hinterkopf wollen wir die vier Kernfähigkeiten von A2A untersuchen:

  1. Capability Discovery: Diese Fähigkeit beantwortet die Frage: ‘Was kannst du tun?’ Sie ermöglicht es Agenten, ihre Fähigkeiten über ‘Agent Cards’ zu bewerben, das sind JSON-Dateien, die ein maschinenlesbares Profil der Fähigkeiten und Dienste des Agenten bereitstellen. Dies hilft Client-Agenten, den besten Remote-Agenten für eine bestimmte Aufgabe zu identifizieren.
  2. Task Management: Diese Fähigkeit beantwortet die Frage: ‘Arbeiten alle zusammen und wie ist dein Status?’ Sie stellt sicher, dass die Kommunikation zwischen Client- und Remote-Agenten auf die Aufgabenerledigung ausgerichtet ist, mit einem spezifischen Aufgabenobjekt und Lebenszyklus. Bei lang andauernden Aufgaben können Agenten kommunizieren, um synchron zu bleiben.
  3. Collaboration: Diese Fähigkeit konzentriert sich auf die Frage: ‘Was ist der Kontext, die Antwort, die Aufgabenleistung (Artefakte) oder die Benutzeranweisung?’ Sie ermöglicht es Agenten, Nachrichten hin und her zu senden und so einen Gesprächsfluss zu erzeugen.
  4. User Experience Negotiation: Diese Fähigkeit beantwortet die Frage: ‘Wie soll ich dem Benutzer Inhalte anzeigen?’ Jede Nachricht enthält ‘Parts’ mit spezifischen Inhaltstypen, die es Agenten ermöglichen, das korrekte Format auszuhandeln und UI-Fähigkeiten wie iFrames, Video und Webformulare zu verstehen. Agenten passen an, wie sie Informationen präsentieren, basierend darauf, was der empfangende Agent (Client) verarbeiten kann.

Entmystifizierung der inneren Funktionsweise von A2A: Ein Client-Server-Modell für die KI-Kommunikation

A2A arbeitet nach einem Client-Server-Modell, bei dem Agenten über Standard-Webprotokolle wie HTTP mit strukturierten JSON-Nachrichten kommunizieren. Dieser Ansatz gewährleistet die Kompatibilität mit der bestehenden Infrastruktur und standardisiert gleichzeitig die Agentenkommunikation.

Um zu verstehen, wie A2A seine Ziele erreicht, wollen wir die Kernkomponenten des Protokolls aufschlüsseln und das Konzept der ‘opaken’ Agenten untersuchen.

Kernkomponenten von A2A: Bausteine für die KI-Zusammenarbeit

  • Agent Card: Diese JSON-Datei, die typischerweise unter einer bekannten URL gehostet wird (z. B. /.well-known/agent.json), beschreibt die Fähigkeiten, Fertigkeiten, Endpunkt-URL und Authentifizierungsanforderungen eines Agenten. Sie dient als maschinenlesbarer ‘Lebenslauf’ eines Agenten und hilft anderen Agenten zu entscheiden, ob sie mit ihm interagieren sollen.
  • A2A-Server: Ein Agent, der HTTP-Endpunkte über das A2A-Protokoll bereitstellt. Dies ist der ‘Remote-Agent’ in A2A, der Anfragen vom Client-Agenten empfängt und Aufgaben bearbeitet. Server bewerben ihre Fähigkeiten über Agent Cards.
  • A2A-Client: Die App oder das KI-System, das A2A-Dienste nutzt. Der Client erstellt Aufgaben und verteilt sie an die entsprechenden Server, basierend auf ihren Fähigkeiten und Fertigkeiten. Dies ist der ‘Client-Agent’ in A2A, der Workflows mit spezialisierten Servern orchestriert.
  • Task: Die zentrale Arbeitseinheit in A2A. Jede Aufgabe hat eine eindeutige ID und durchläuft definierte Zustände (z. B. submitted, working, completed). Aufgaben dienen als Container für die Arbeit, die angefordert und ausgeführt wird.
  • Message: Ein Kommunikationsaustausch zwischen dem Client und dem Agenten. Nachrichten werden im Kontext einer Aufgabe ausgetauscht und enthalten Parts, die Inhalte liefern.
  • Part: Die fundamentale Inhaltseinheit innerhalb einer Message oder eines Artifacts. Parts können sein:
    • TextPart: Für reinen Text oder formatierten Inhalt
    • FilePart: Für binäre Daten (mit Inline-Bytes oder einem URI-Verweis)
    • DataPart: Für strukturierte JSON-Daten (wie Formulare)
  • Artifact: Die Ausgabe, die von einem Agenten während einer Aufgabe generiert wird. Artifacts enthalten ebenfalls Parts und repräsentieren das finale Ergebnis vom Server zurück zum Client.

Das Konzept der opaken Agenten: Schutz des geistigen Eigentums und Gewährleistung der Sicherheit

Der Begriff ‘opak’ im Kontext von A2A bedeutet, dass Agenten bei Aufgaben zusammenarbeiten können, ohne ihre interne Logik preiszugeben. Das bedeutet:

  • Ein Agent muss nur offenlegen, welche Aufgaben er ausführen kann, nicht wie er sie ausführt.
  • Proprietäre Algorithmen oder Daten können privat bleiben.
  • Agenten können durch alternative Implementierungen ausgetauscht werden, solange sie die gleichen Fähigkeiten unterstützen.
  • Organisationen können Agenten von Drittanbietern ohne Sicherheitsbedenken integrieren.

Der Ansatz von A2A vereinfacht die Entwicklung komplexer Multi-Agenten-Systeme und wahrt gleichzeitig hohe Sicherheitsstandards und schützt Geschäftsgeheimnisse.

Ein typischer A2A-Interaktionsfluss: Eine Schritt-für-Schritt-Anleitung

Wenn Agenten über A2A kommunizieren, folgen sie einer strukturierten Abfolge:

  1. Discovery Phase: Stellen Sie sich vor, ein Benutzer fragt seinen Haupt-KI-Agenten: ‘Kannst du mir helfen, eine Geschäftsreise nach Tokio nächsten Monat zu planen?’ Die KI erkennt die Notwendigkeit, spezialisierte Agenten für Flüge, Hotels und lokale Aktivitäten zu finden. Der Client-Agent identifiziert Remote-Agenten, die bei jeder Aufgabe helfen können, und ruft deren Agent Cards ab, um ihre Eignung zu beurteilen.
  2. Task Initiation: Nachdem das Team zusammengestellt ist, ist es an der Zeit, Aufgaben zuzuweisen. Der Client-Agent könnte dem Reisebuchungsagenten sagen: ‘Finde Flüge nach Tokio vom 15. bis 20. Mai.’ Der Client sendet eine Anfrage an den Endpunkt des Servers (typischerweise ein POST an /taskssend), wodurch eine neue Aufgabe mit einer eindeutigen ID erstellt wird. Dies beinhaltet die anfängliche Nachricht, die detailliert beschreibt, was der Client vom Server erwartet.
  3. Processing: Der Buchungsspezialisten-Agent (Server/Remote-Agent) beginnt mit der Suche nach verfügbaren Flügen, die den Kriterien entsprechen. Er könnte:
    • Die Aufgabe sofort abschließen und ein Artifact zurückgeben: ‘Hier sind die verfügbaren Flüge.’
    • Weitere Informationen anfordern (den Status auf input-required setzen): ‘Bevorzugen Sie eine bestimmte Fluggesellschaft?’
    • Mit der Bearbeitung einer lang andauernden Aufgabe beginnen (den Status auf working setzen): ‘Ich vergleiche die Preise, um das beste Angebot für Sie zu finden.’
  4. Multi-Turn Conversations: Wenn weitere Informationen benötigt werden, tauschen der Client und der Server zusätzliche Nachrichten aus. Der Server könnte klärende Fragen stellen (‘Sind Verbindungen in Ordnung?’), und der Client antwortet (‘Nein, nur Direktflüge.’), alles im Kontext derselben Aufgaben-ID.
  5. Status Updates: Für Aufgaben, deren Abschluss Zeit in Anspruch nimmt, unterstützt A2A mehrere Benachrichtigungsmechanismen:
    • Polling: Der Client überprüft regelmäßig den Aufgabenstatus.
    • Server-Sent Events (SSE): Der Server streamt Echtzeit-Updates, wenn der Client abonniert ist.
    • Push notifications: Der Server kann Updates an eine Callback-URL POSTEN, falls diese bereitgestellt wird.
  6. Task Completion: Wenn der Server fertig ist, markiert er die Aufgabe als completed und gibt ein Artifact mit den Ergebnissen zurück. Alternativ kann er die Aufgabe als failed markieren, wenn er auf Probleme gestoßen ist, oder als canceled, wenn die Aufgabe beendet wurde.

Während dieses Prozesses könnte der Haupt-Agent gleichzeitig mit anderen Spezialisten-Agenten zusammenarbeiten: einem Hotelexperten, einem lokalen Transportguru, einem Aktivitäts-Mastermind. Der Haupt-Agent erstellt eine Reiseroute, indem er all diese Ergebnisse zu einem umfassenden Reiseplan zusammenfasst und ihn dann dem Benutzer präsentiert.

Im Wesentlichen ermöglicht A2A mehreren Agenten, zu einem gemeinsamen Ziel beizutragen und zusammenzuarbeiten, wobei ein Client-Agent ein Ergebnis zusammenstellt, das die Summe seiner Teile übertrifft.

A2A vs. MCP: Eine synergetische Partnerschaft für die KI-Integration

Während A2A und MCP möglicherweise um den gleichen Raum konkurrieren, sind sie so konzipiert, dass sie zusammenarbeiten. Sie adressieren unterschiedliche, aber sich ergänzende Aspekte der KI-Integration:

  • MCP verbindet LLMs (oder Agenten) mit Tools und Datenquellen (vertikale Integration).
  • A2A verbindet Agenten mit anderen Agenten (horizontale Integration).

Google hat A2A bewusst als komplementär zu MCP positioniert. Diese Designphilosophie zeigt sich in der Einführung ihres Vertex AI Agent Builders mit integrierter MCP-Unterstützung neben A2A.

Um diesen Punkt zu veranschaulichen, stellen Sie sich folgende Analogie vor: Wenn MCP es Agenten ermöglicht, Tools zu verwenden, dann ist A2A ihr Gespräch während der Arbeit. MCP stattet einzelne Agenten mit Fähigkeiten aus, während A2A ihnen hilft, diese Fähigkeiten als Team zu koordinieren.

In einem umfassenden Setup könnte ein Agent MCP verwenden, um Informationen aus einer Datenbank abzurufen, und dann A2A verwenden, um diese Informationen zur Analyse an einen anderen Agenten weiterzugeben. Die beiden Protokolle können zusammenarbeiten, um umfassendere Lösungen für komplexe Aufgaben zu erstellen und gleichzeitig die Entwicklungsherausforderungen zu vereinfachen, die seit dem Aufkommen von LLMs bestehen.

A2A-Sicherheitsstandards: Gewährleistung von Schutz auf Unternehmensebene

A2A wurde mit dem Fokus auf Unternehmenssicherheit entwickelt. Zusätzlich zur ausschließlichen Verwendung opaker Agenten gibt jede Agent Card die erforderliche Authentifizierungsmethode (API-Schlüssel, OAuth usw.) an, und die gesamte Kommunikation ist so konzipiert, dass sie über HTTPS erfolgt. Dies ermöglicht es Unternehmen, Richtlinien festzulegen, die regeln, welche Agenten miteinander kommunizieren können und welche Daten sie austauschen können.

Ähnlich wie die MCP-Spezifikation für die Autorisierung nutzt A2A bestehende Websicherheitsstandards, anstatt neue Modalitäten zu erstellen, wodurch die sofortige Kompatibilität mit aktuellen Identitätssystemen gewährleistet wird. Da alle Interaktionen über klar definierte Endpunkte erfolgen, wird die Beobachtbarkeit unkompliziert, sodass Unternehmen ihre bevorzugten Überwachungstools integrieren und einen einheitlichen Audit-Trail erhalten können.

A2A-Ökosystem und -Einführung: Eine wachsende Community von Unterstützung

Das A2A-Protokoll wurde mit erheblicher Unterstützung von über 50 Technologiepartnern gestartet, von denen viele A2A entweder derzeit unterstützen oder beabsichtigen, A2A mit ihren eigenen Agenten zu unterstützen. Google hat A2A in seine Vertex AI-Plattform und ADK integriert und bietet Entwicklern, die sich bereits im Google Cloud-Ökosystem befinden, einen vereinfachten Einstiegspunkt.

Organisationen, die eine A2A-Implementierung in Erwägung ziehen, sollten Folgendes berücksichtigen:

  1. Reduzierte Integrationskosten: Anstatt benutzerdefinierten Code für jede Agentenpaarung zu erstellen, können Entwickler A2A universell implementieren, wodurch die Integrationskosten gesenkt werden.
  2. Relativ aktuelle Veröffentlichung: A2A befindet sich noch in einem frühen Stadium der breiten Veröffentlichung, was bedeutet, dass es noch nicht den umfangreichen Praxistests unterzogen wurde, die erforderlich sind, um potenzielle Mängel in großem Maßstab aufzudecken.
  3. Zukunftssicherheit: Als offenes Protokoll ermöglicht A2A die Integration neuer und alter Agenten in sein Ökosystem, ohne dass zusätzlicher Aufwand erforderlich ist.
  4. Agentenbeschränkungen: Während A2A einen bedeutenden Schritt nach vorn für wirklich autonome KI darstellt, bleibt es aufgabenorientiert und arbeitet nicht vollständig unabhängig.
  5. Anbieterunabhängigkeit: A2A bindet Unternehmen nicht an ein bestimmtes Modell, Framework oder einen bestimmten Anbieter, sondern ermöglicht es ihnen, im gesamten KI-Bereich zu mischen und anzupassen.

Die Zukunft des Agent2Agent-Protokolls: Eine Vision für nahtlose KI-Kollaboration

Mit Blick auf die Zukunft wird erwartet, dass A2A weitere Verbesserungen erfahren wird, wie im Fahrplan des Protokolls dargelegt. Geplante Erweiterungen umfassen:

  • Formalisierte Autorisierungsschemata und optionale Anmeldeinformationen direkt innerhalb von Agent Cards.
  • Dynamische UX-Verhandlung innerhalb laufender Aufgaben (z. B. Hinzufügen von Audio/Video während des Gesprächs).
  • Verbesserte Streaming-Leistung und Push-Benachrichtigungsmechaniken.

Die vielleicht aufregendste langfristige Möglichkeit ist, dass A2A für die Agentenentwicklung das wird, was HTTP für die Webkommunikation war: ein Katalysator für eine Explosion von Innovationen. Mit zunehmender Verbreitung sehen wir möglicherweise vorgefertigte ‘Teams’ von Agenten, die auf bestimmte Branchen spezialisiert sind, und schließlich ein nahtloses globales Netzwerk von KI-Agenten, das Kunden nutzen können.

Für Entwickler und Organisationen, die die KI-Implementierung untersuchen, ist jetzt der ideale Zeitpunkt, um mit A2A zu lernen und zu entwickeln. Zusammen repräsentieren A2A und MCP den Beginn eines standardisierteren, sichereren und unternehmenstauglicheren Ansatzes für KI.