A2A & MCP: Agentenprotokolle entschlüsselt

Kürzlich hat Google ein neues offenes Protokoll für Agenten vorgestellt, das Agent2Agent oder kurz A2A genannt wird. Gleichzeitig hat Alibaba Clouds Bailian ebenfalls seinen Einstieg in MCP angekündigt. Lassen Sie uns näher darauf eingehen, worum es sich bei A2A und MCP handelt.

Um diese Protokolle zu verstehen, betrachten Sie die Analogie der Diplomatie zwischen Nationen. Stellen Sie sich jeden KI-Agenten als ein kleines Land mit seiner eigenen Sprache und seinen eigenen Bräuchen vor. Diese ‘Länder’ haben Botschaften im selben Gebäude untergebracht und versuchen, zu kommunizieren, Handel zu treiben und Informationen auszutauschen.

In einem idealen Szenario würden diese Nationen freundschaftliche Beziehungen pflegen und sich an klare diplomatische Regeln halten, die es ihnen ermöglichen, nahtlos zu interagieren, Vereinbarungen zu unterzeichnen und an internationalen Projekten rund um einen Konferenztisch zusammenzuarbeiten.

Die Realität sieht jedoch so aus, dass jede Botschaft unabhängig voneinander mit unterschiedlichen Protokollen arbeitet. Folglich erfordert die Einleitung eines einfachen Handelsabkommens mit ‘Land A’ die Erfüllung einer Vielzahl von Anforderungen, einschliesslich Bestimmungen, Zertifizierungen, Übersetzungen und spezialisierten Schlüsseln. Die Zusammenarbeit mit ‘Land B’ und ‘Land C’ erfordert die mehrmalige Wiederholung ähnlicher Verfahren. Dieser Ad-hoc-, fragmentierte und facettenreiche Ansatz treibt die Kommunikationskosten in die Höhe, wobei jede Interaktion mit einem zusätzlichen ‘Informationstarif’ verbunden ist.

In der Vergangenheit begegneten KI-Agenten ähnlichen Schwierigkeiten, wenn sie versuchten, zusammenzuarbeiten.

Beispielsweise könnte man einen Agenten haben, der automatisch auf E-Mails antwortet, und einen anderen, der in eine Kalenderanwendung integriert ist, um bei der Terminplanung zu helfen. Diese KI-Entitäten haben jedoch Schwierigkeiten, direkt zu kommunizieren, was das manuelle Kopieren und Einfügen von Informationen oder das Vertrauen auf massgeschneiderte Schnittstellen erforderlich macht.

Infolgedessen arbeiten KI-Agenten isoliert und weisen eine schlechte Interoperabilität auf. Diese Fragmentierung frustriert Benutzer, die zwischen mehreren KI-Anwendungen navigieren müssen, und begrenzt das Potenzial von KI. Komplexe Aufgaben, die durch die Zusammenarbeit mehrerer Agenten erledigt werden könnten, sind künstlich auf einzelne Silos beschränkt.

Diese Situation spiegelt die Landschaft nach dem Zweiten Weltkrieg wider, in der jeder KI-Agent autonom agiert, ohne einheitliche Regeln und mit Kommunikationsbarrieren konfrontiert ist. Das aktuelle KI-Ökosystem ähnelt einer Nachkriegswüste, die die Einhaltung spezifischer Schnittstellen und Protokolle für den Zugriff auf Daten und Funktionalitäten erfordert. Das Fehlen von Standards führt zu zusätzlichen ‘Zöllen’ bei jeder neuen Zusammenarbeit, was zu einem unzusammenhängenden und ineffizienten KI-Ökosystem führt, das von Isolation und Eigeninteresse geprägt ist.

Die KI-Industrie untersucht die Möglichkeit, ein allgemein akzeptiertes Protokoll zu etablieren, um die nahtlose Interaktion zwischen Agenten und externen Tools zu ermöglichen. Google und Anthropic haben sich als Vorreiter herauskristallisiert und jeweils eine Lösung vorgeschlagen: das A2A-Protokoll und das MCP-Protokoll.

Das A2A-Protokoll

Das A2A-Protokoll, kurz für Agent2Agent, ermöglicht es KI-Agenten, direkt zu kommunizieren und zusammenzuarbeiten.

Das Hauptziel des A2A-Protokolls ist es, Agenten unterschiedlicher Herkunft und Anbieter in die Lage zu versetzen, einander zu verstehen und zusammenzuarbeiten, ähnlich wie die Bemühungen der Welthandelsorganisation, Handelsbarrieren abzubauen.

Durch die Einführung von A2A können Agenten verschiedener Anbieter und Frameworks einer Freihandelszone beitreten, in einer gemeinsamen Sprache kommunizieren und nahtlos zusammenarbeiten, um komplexe Aufgaben zu erfüllen, die über die Fähigkeiten einzelner Agenten hinausgehen.

Um zu veranschaulichen, wie A2A funktioniert, betrachten Sie die folgenden Analogien:

1. Agent = Nationaler Diplomat

Jeder Agent fungiert als Diplomat, der die Botschaft eines Landes vertritt. Das A2A-Protokoll zielt darauf ab, einheitliche diplomatische Etikette und Kommunikationsverfahren zu etablieren. Zuvor kommunizierten Diplomaten aus ‘Land A’ ausschliesslich auf Französisch, während Diplomaten aus ‘Land B’ kyrillische Schrift verwendeten und ‘Land C’ Korrespondenz über antike Goldblattbriefe verlangte. Das A2A-Protokoll stellt sicher, dass alle Teilnehmer in einer vorab vereinbarten Sprache kommunizieren, Dokumente im gleichen Format einreichen und vereinbarte Ergebnisse erzielen können.

2. Agentenkarte = Diplomatische Akkreditierung / Visitenkarte des Botschafters

Innerhalb des A2A-Frameworks muss jeder Agent eine ‘Agentenkarte’ veröffentlichen, analog zu einer Visitenkarte eines Diplomaten, die Details wie den Namen des Agenten, die Version, die Fähigkeiten und die unterstützten Sprachen oder Formate enthält.

Ähnlich wie die Visitenkarte eines Diplomaten seine Rolle und Zugehörigkeit kennzeichnet, listet die Agentenkarte die Fähigkeiten, Authentifizierungsmethoden und Ein-/Ausgabeformate des Agenten auf. Dies ermöglicht es anderen Diplomaten, Fähigkeiten schnell zu identifizieren und zu verstehen, wodurch Kommunikationsbarrieren minimiert werden.

3. Aufgabe = Bilaterales oder multilaterales diplomatisches Projekt

Das Aufgabenkonzept ist von zentraler Bedeutung für A2A. Wenn ein Agent beabsichtigt, eine Aufgabe an einen anderen Agenten zu delegieren, stellt er eine ‘Absichtserklärung für ein Kooperationsprojekt’ aus. Nach der Annahme erfassen beide Parteien eine Aufgaben-ID, um den Fortschritt zu verfolgen und Informationen bis zum Abschluss auszutauschen.

In diplomatischen Begriffen könnte eine Nation einer anderen vorschlagen: ‘Wir möchten beim Bau einer grenzüberschreitenden Hochgeschwindigkeitsbahnlinie zusammenarbeiten; bitte entsenden Sie Ihr Ingenieurteam.’ Dies spiegelt eine A2A-Aufgabe wider, bei der die initiierende Partei die Anforderungen umreisst, der Remote-Agent akzeptiert und beide Parteien den Fortschritt während des gesamten Projekts regelmässig aktualisieren.

Nachrichten stellen Kommunikationen dar, die während der anfänglichen oder fortgeschrittenen Phasen des Projekts ausgetauscht werden, ähnlich wie diplomatische Depeschen, Notizen und Gesandtenaustausche.

4. Push-Benachrichtigungen = Diplomatische Botschaftsbulletins

Wenn eine Aufgabe in A2A ein langfristiges Projekt ist, das eine längere Bearbeitungszeit erfordert, kann der Remote-Agent die initiierende Partei durch Push-Benachrichtigungen aktualisieren, ähnlich wie ein Land regelmässige Updates zu einem langfristigen Infrastrukturprojekt bereitstellt. Dies verbessert die asynchronen Zusammenarbeitsfunktionen.

5. Authentifizierung und Sicherheit = Diplomatische Privilegien und Protokolle

A2A verwendet Authentifizierungsstrategien auf Unternehmensebene, die es erfordern, dass beide kommunizierenden Parteien Anmeldeinformationen überprüfen, um die Nachahmung oder das böswillige Abhören zu verhindern. Dieser Mechanismus entspricht diplomatischen Privilegien und Protokollen.

Im Wesentlichen spiegelt A2A die Dynamik der internationalen Diplomatie oder der geschäftlichen Zusammenarbeit wider und betont standardisierte Kommunikation und Sicherheit.

Das MCP-Protokoll

Das MCP-Protokoll oder Model Context Protocol ist ein Standard, der von Anthropic im November 2024 eingeführt und als Open Source veröffentlicht wurde.

Während A2A den Kommunikationsprozess zwischen KI-Diplomaten anspricht, bleibt eine hartnäckige Herausforderung bestehen: das Fehlen zuverlässiger Informationsquellen. Selbst der eloquenteste Diplomat oder Geschäftsführer ist schlecht gerüstet, um effektiv zu arbeiten, ohne genaue Informationen über die internationale Landschaft und die Ressourcenallokation.

Moderne Diplomaten verlassen sich auf externe Tools wie Visumsysteme, internationale Abrechnungssysteme und Geheimdienstdatenbanken, um ihre Aufgaben zu erfüllen. In ähnlicher Weise muss ein Agent, der komplexe Verantwortlichkeiten übernimmt, sich mit verschiedenen Datenbanken, Dokumentensystemen, Unternehmensanwendungen und sogar Hardwaregeräten verbinden.

Dies lässt sich mit der Einrichtung einer umfassenden Geheimdienstagentur für Diplomaten und der Gewährung des Zugriffs auf Tools zur Erleichterung ihrer Arbeit vergleichen.

Zuvor mussten Agenten benutzerdefinierte Plugins entwickeln und sich tief in verschiedene Tools integrieren, was sowohl mühsam als auch zeitaufwändig war. MCP ist jetzt jedoch verfügbar, um den Prozess zu rationalisieren.

MCP standardisiert die Interaktionen zwischen grossen Sprachmodellen und externen Datenquellen und Tools. Anthropic vergleicht MCP mit einem USB-C-Anschluss für KI-Anwendungen.

USB-C dient als universelle Schnittstelle für Geräte und wickelt das Laden und die Datenübertragung über einen einzigen Anschluss ab. MCP zielt darauf ab, eine universelle Schnittstelle im KI-Bereich zu schaffen, die es verschiedenen Modellen und externen Systemen ermöglicht, sich über dasselbe Protokoll zu verbinden, anstatt jedes Mal benutzerdefinierte Integrationslösungen zu entwickeln.

KI-Modelle, die sich mit Datenbanken, Suchmaschinen oder Anwendungen von Drittanbietern verbinden, können nahtlos kommunizieren, wenn sie alle MCP unterstützen.

MCP verwendet eine Client-Server-Architektur:

1. MCP-Server = Konsolidierte Geheimdienstagentur

Organisationen oder Einzelpersonen können Datenbanken, Dateisysteme, Kalender und Dienste von Drittanbietern in MCP-Server einkapseln. Diese Server halten sich an das MCP-Protokoll und stellen einheitlich formatierte Zugriffsendpunkte bereit, die es jedem Agenten ermöglichen, der mit den MCP-Clientstandards kompatibel ist, Anforderungen zu senden, Informationen abzurufen oder Operationen auszuführen.

2. MCP-Client = Terminalausrüstung, die von Diplomaten verwendet wird

Ein Agentendiplomat führt spezielle Terminalausrüstung mit sich, die es ihm ermöglicht, Befehle einzugeben, wie z. B. ‘Inventardaten aus dem Finanzsystem abrufen’, ‘Eine Anfrage an eine API senden’ oder ‘Ein PDF-Dokument abrufen’.

Ohne MCP erfordert die Integration mit verschiedenen Systemen das Schreiben verschiedener Zugriffscodes, was umständlich ist. Mit MCP können Clients, die das Protokoll unterstützen, jedoch einfach zwischen verschiedenen MCP-Servern wechseln, Informationen abrufen und Geschäftsprozesse ausführen.

Im Wesentlichen erleichtert MCP die nahtlose Integration zwischen KI-Agenten und externen Ressourcen.

Der Unterschied zwischen A2A und MCP

Um den Unterschied zwischen A2A und MCP zu verdeutlichen, betrachten Sie einen hypothetischen internationalen Gipfel, auf dem sich Staats- und Regierungschefs (die die KI-Agenten der Unternehmen repräsentieren) versammeln, um an einer transnationalen Aufgabe zusammenzuarbeiten, z. B. der Erstellung eines globalen Wirtschaftsanalyseberichts.

Ohne ein universelles Protokoll wäre ein solches Treffen praktisch unmöglich, da jeder Vertreter eine andere Sprache spricht. Mit dem A2A-Protokoll unterzeichnen jedoch alle Vertreter vor dem Betreten des Treffens die ‘A2A Wiener Diplomatenkonvention’ und vereinbaren, in einem einheitlichen Format zu kommunizieren, sich auszuweisen, ihre Absichten zu äussern und frühere Äusserungen beim Antworten zu zitieren.

Dies ermöglicht es ‘Agent G’, eine Nachricht im A2A-Format an ‘Agent O’ zu senden, und ‘Agent O’ antwortet entsprechend. Dies ist der erste Fall ungehinderter Kommunikation zwischen KI-Agenten verschiedener Unternehmen.

Während der Diskussionen müssen die KI-Vertreter Daten konsultieren oder Tools für die Analyse verwenden. ‘Agent A’ von Anthropic schlägt vor, das MCP-System für externe Daten- oder Tool-Unterstützung zu verwenden.

Ein ‘MCP-Simultandolmetschraum’ wird neben dem Konferenzsaal eingerichtet, der mit Experten besetzt ist, die nach Erhalt von Anfragen in einer einheitlichen Sprache über MCP antworten können.

Beispielsweise muss ‘Agent Q’ für Berechnungen auf seine Cloud-Datenbank zugreifen. Anstatt jemanden zurück in das Land zu schicken, sendet er eine MCP-Anfrage für Daten aus Datenbank X. Der MCP-Datenbankadministrator übersetzt die Anfrage, ruft die Ergebnisse ab und antwortet ‘Agent Q’ in der MCP-Sprache. Der gesamte Prozess ist für die anderen Agenten transparent, die die von ‘Agent Q’ zitierten Daten verstehen, da die MCP-Übersetzung in einem anerkannten Format vorliegt.

Während des Fortschritts des Berichtsschreibens stellen ‘Agent G’ und ‘Agent A’ fest, dass sie ihre jeweiligen Beiträge integrieren müssen. ‘Agent G’ ist auf numerische Analyse spezialisiert, während ‘Agent A’ sich in der Sprachzusammenfassung auszeichnet.

‘Agent G’ übermittelt die BIP-Wachstumsratendaten über A2A, und ‘Agent A’ verbindet sich über MCP mit einem Excel-Tabellen-Plugin, überprüft die Datentrends und antwortet mit einem zusammenfassenden Absatz.

In diesem Szenario erleichtert A2A die Kommunikation zwischen Agenten, während MCP es Agenten ermöglicht, auf externe Tools und Informationen zuzugreifen. Zusammen schaffen die Protokolle eine massgeschneiderte Kommunikationsvereinbarung für eine KI-Version der Vereinten Nationen. Mit diesen Protokollen können KI-Agenten effektiv zusammenarbeiten und ein vernetztes KI-Ökosystem bilden.

A2A ist wie eine dedizierte Hotline für diplomatische Kommunikation, die die direkte Agentenkommunikation adressiert. MCP ähnelt einem Simultanübersetzungs- und Ressourcenteilungssystem, das das Problem der Verbindung intelligenter Entitäten mit externen Informationen adressiert.

Der Aufstieg von A2A und MCP kündigt die Entwicklung der KI-Industrie in Richtung Zusammenarbeit statt Wettbewerb an. Unzählige KI-Agenten werden wie Websites eingesetzt, die über A2A entdecken und kommunizieren und über MCP auf Ressourcen zugreifen und Wissen austauschen.