KI-Agenten: MCP & A2A für ein neues Zeitalter

Der Aufstieg des Agentenkonzepts

In den letzten Jahren hat der Bereich der Agenten (intelligente Agenten) aufgrund einer Reihe von Ereignissen, wie der Einführung von GitHub MCP-Servern durch Microsoft, der Veröffentlichung des A2A-Kommunikationsprotokolls zwischen intelligenten Agenten durch Google und der Einführung von MCP-Servern durch Alipay, eine beispiellose Aufmerksamkeit vom Markt erhalten. Obwohl es derzeit keine vollständig einheitliche Definition von Agenten gibt, werden die drei Kernkomponenten ‘Planung’, ‘Gedächtnis’ und ‘Werkzeugnutzung’, die von der ehemaligen OpenAI-Forscherin Lilian Weng vorgeschlagen wurden, weithin anerkannt und sind entscheidend für das Verständnis von Agenten.

Im Bereich der künstlichen Intelligenz ist das Konzept des Agenten nicht neu, aber mit der rasanten Entwicklung großer Sprachmodelle (LLM) haben sich neue Anwendungsperspektiven für Agenten eröffnet. Ein Agent kann als ein intelligentes System betrachtet werden, das seine Umgebung wahrnehmen, autonom planen und Aufgaben ausführen kann. Der Kern liegt darin, den menschlichen Entscheidungsprozess zu simulieren und verschiedene Werkzeuge und Ressourcen zu nutzen, um festgelegte Ziele zu erreichen.

Aktuelle Situation der Agentenentwicklung: Enormes Potenzial, verbesserungsbedürftige Durchdringungsrate

Als weiterentwickelte Version von Chatbots werden die aktuellen Agentenanwendungen meist in die kostenpflichtigen Dienste großer Modelle integriert, und nur wenige Agenten wie Manus und Devin bieten unabhängige kostenpflichtige Dienste an. Trotzdem gibt es bei Agenten wie Deep Research und Manus, die über autonome Planungsfähigkeiten verfügen, noch viele Einschränkungen bei der Nutzung, und die Anzahl der Benutzer, die sie tatsächlich erleben können, ist möglicherweise nicht sehr groß, und es gibt noch viel Raum für Verbesserungen, bis eine ‘Blockbuster’-Anwendung entsteht.

Mit der kontinuierlichen Verbesserung der Inferenzfähigkeiten großer Modelle werden Agenten jedoch zunehmend zum Fokus von Anwendungsinnovationen. Immer mehr Entwickler und Forscher beginnen, die Anwendung von Agenten in verschiedenen Bereichen zu erforschen, wie z. B. intelligente Assistenten, automatisierte Prozesse, Datenanalyse usw. Das Potenzial von Agenten wird schrittweise erschlossen, und der zukünftige Entwicklungsraum ist sehr breit.

Großflächige Anwendung von Agenten steht bevor: Mehrere günstige Bedingungen treiben die Entwicklung voran

Durchbrüche auf der Modelltrainingsseite

  • Kontextfenster wachsen rasant: Das Kontextfenster großer Modelle bezieht sich auf die maximale Textlänge, die das Modell bei der Verarbeitung von Text berücksichtigen kann. Mit dem technologischen Fortschritt wächst das Kontextfenster der Modelle rasant, was bedeutet, dass das Modell den Kontext von langen Texten besser verstehen und somit genauere Entscheidungen treffen kann.
  • Verstärkungslernen wird intensiv eingesetzt: Verstärkungslernen ist eine Methode zum Trainieren von Agenten durch Belohnung und Bestrafung. In den letzten Jahren hat das Verstärkungslernen breite Anwendung im Agententraining gefunden, wodurch sich Agenten besser an komplexe Umgebungen anpassen und optimale Strategien erlernen können.
  • Inferenzmodelle werden immer ausgereifter: Das Inferenzmodell ist die Kernkomponente des Agenten und ist für das Ableiten und Beurteilen von Informationen verantwortlich. Mit zunehmender Forschung werden die Inferenzmodelle immer ausgereifter und können die verschiedenen Anwendungen von Agenten besser unterstützen.

Das florierende Ökosystem

  • MCP und A2A sowie andere Protokolle entwickeln sich rasant: MCP (Model Communication Protocol) und A2A (Agent-to-Agent) sind zwei wichtige Agentenkommunikationsprotokolle. Die rasante Entwicklung dieser Protokolle ermöglicht es Agenten, verschiedene Werkzeuge und Dienste bequemer aufzurufen und somit komplexere Funktionen zu realisieren.
  • Agenten können Werkzeuge immer einfacher aufrufen: Mit dem technologischen Fortschritt wird die Art und Weise, wie Agenten externe Werkzeuge und Dienste aufrufen, immer bequemer. Beispielsweise kann ein Agent über APIs (Application Programming Interfaces) einfach auf verschiedene Datenquellen und Online-Dienste zugreifen und so seine eigenen Fähigkeiten erweitern.

Im November 2024 veröffentlichte und lizenzierte Anthropic das MCP-Protokoll mit dem Ziel, zu standardisieren, wie externe Daten und Werkzeuge Kontext für Modelle bereitstellen. Dieser Schritt wird die Entwicklung des Agentenökosystems erheblich fördern und es Agenten ermöglichen, externe Ressourcen besser zu nutzen.

MCP und A2A: Der Schlüssel zur Agenteninterkonnektivität

MCP-Protokoll: Verbindung von Agenten mit der Außenwelt

Das Hauptziel des MCP-Protokolls ist es, eine ‘One-Click-Interkonnektivität’ zwischen Agenten und externen Daten und Werkzeugen zu realisieren. Über das MCP-Protokoll können Agenten bequem auf verschiedene externe Ressourcen zugreifen, wie z. B. Datenbanken, APIs, Webdienste usw. Dies ermöglicht es Agenten, die Umgebung besser zu verstehen und intelligentere Entscheidungen zu treffen.

A2A-Protokoll: Aufbau einer Kommunikationsbrücke zwischen Agenten

Das Ziel des A2A-Protokolls ist es, die Kommunikation zwischen Agenten zu realisieren. Über das A2A-Protokoll können Agenten zusammenarbeiten, um komplexe Aufgaben gemeinsam zu erledigen. Dies ist von großer Bedeutung für den Aufbau verteilter intelligenter Systeme.

Obwohl das Ziel des A2A-Protokolls die Kommunikation zwischen Agenten ist und das MCP-Protokoll die Kommunikation zwischen Agenten und externen Werkzeugen und Daten, können sich die Funktionen unter der komplexen Situation, dass ‘Werkzeuge auch als Agenten verpackt werden können’, überschneiden. Dieser Wettbewerb trägt jedoch dazu bei, die Kosten für den Aufruf externer Werkzeuge und die Kommunikation durch große Modelle zu senken. Dieser Wettbewerb wird den technologischen Fortschritt vorantreiben und letztendlich dem gesamten Agentenökosystem zugute kommen.

Entwicklungsperspektiven für Agenten

End-to-End-Agenten: Keine menschliche Intervention erforderlich

Derzeit gibt es eine große Anzahl von ‘intelligenten Agenten’ auf dem Markt, aber ein erheblicher Teil davon wurde auf Plattformen wie Coze und Dify entwickelt und erfordert, dass Menschen im Voraus Workflows schreiben. Diese Agenten ähneln eher der Überlagerung von Prompt-Engineering und gehören zu relativ einfachen Agenten.

Ein höherwertiger Agent ist jedoch ein ‘End-to-End’-Agent, was bedeutet, dass ‘dem Agenten eine Aufgabe gegeben wird und der Agent automatisch die vom Menschen benötigten Aufgabenergebnisse erledigt’. Beispielsweise muss der Benutzer dem Agenten nur ein Ziel eingeben, und der Agent kann die Aufgabe autonom planen und ausführen, um das Ziel schließlich zu erreichen. L3/L4/L5 und andere derartige High-Level-Agenten entsprechen eher den menschlichen Bedürfnissen und werden zu einer wichtigen Richtung für die zukünftige Agentenentwicklung.

Agenten unterstützen Roboter und autonomes Fahren

Wenn die Definition von Agenten auf verkörperte Intelligenz angewendet wird, wird man feststellen, dass von großen Modellen gesteuerte Roboter und Fahrzeuge ebenfalls Agenten sind. Insbesondere bei Robotern liegt das aktuelle Entwicklungsengpass nicht in dem ‘Kleinhirn’, das ‘wie man physische Aktionen ausführt’, sondern in dem ‘Gehirn’, das darüber nachdenkt, ‘welche physischen Aktionen auszuführen sind’, und dies fällt genau in den Bereich der Agenten.

Im Bereich der Robotik können Agenten Robotern helfen, die Umgebung besser zu verstehen und fundiertere Entscheidungen zu treffen. Beispielsweise kann ein Agent die Bewegungsbahn des Roboters autonom planen und verschiedene Aufgaben ausführen, basierend auf den Objekten und Personen in der Umgebung.

Im Bereich des autonomen Fahrens können Agenten Fahrzeugen helfen, die Umgebung besser wahrzunehmen und sicherere Fahrentscheidungen zu treffen. Beispielsweise kann ein Agent die Geschwindigkeit und Richtung des Fahrzeugs autonom anpassen, basierend auf Verkehrssignalen, anderen Fahrzeugen und Fußgängern, um Verkehrsunfälle zu vermeiden.

Agenteninterkonnektivität und KI-natives Netzwerk

In Zukunft sollten möglicherweise alle Agenten miteinander kommunizieren, sich selbst organisieren und selbst verhandeln können, um ein Kollaborationsnetzwerk zu schaffen, das kostengünstiger und effizienter ist als das bestehende Internet. Die chinesische Entwicklergemeinschaft arbeitet auch an der Entwicklung von Protokollen wie ANP, die darauf abzielen, das HTTP-Protokoll im Agenten-Internet-Zeitalter zu werden. Und in Bezug auf die Agentenidentifizierung kann die DID-Technologie genutzt werden.

  • Agenteninterkonnektivität: Die Interkonnektivität von Agenten kann die gemeinsame Nutzung von Ressourcen und die Zusammenarbeit ermöglichen und somit die Effizienz des gesamten Systems verbessern. Beispielsweise können verschiedene Agenten Daten, Werkzeuge und Dienste gemeinsam nutzen, um komplexe Aufgaben gemeinsam zu erledigen.
  • KI-natives Netzwerk: Ein KI-natives Netzwerk ist ein Netzwerk, das speziell für Anwendungen der künstlichen Intelligenz entwickelt wurde. Dieses Netzwerk kann eine höhere Bandbreite, eine geringere Latenz und eine stärkere Sicherheit bieten und somit die verschiedenen Anwendungen von Agenten besser unterstützen.
  • DID-Technologie: DID (Decentralized Identifier) ist eine dezentrale Identifizierungstechnologie. Über die DID-Technologie können Agenten ihre eigene Identität haben und somit eine sicherere und zuverlässigere Kommunikation realisieren.

Die Entwicklung der Agententechnologie wird einen enormen Wandel mit sich bringen, und das zukünftige Internet wird nicht mehr nur ein einfaches Netzwerk zur Informationsübertragung sein, sondern ein intelligentes Kollaborationsnetzwerk.