Googles Ironwood TPU: KI-Sprung

Googles Ironwood TPU: Ein Quantensprung in der KI-Rechenleistung

Die Landschaft der künstlichen Intelligenz (KI) entwickelt sich ständig weiter, wobei Fortschritte in der Hardware eine entscheidende Rolle bei der Erschließung neuer Möglichkeiten spielen. Google, ein Vorreiter bei KI-Innovationen, hat kürzlich seine siebte Generation der Tensor Processing Unit (TPU) vorgestellt, mit dem Codenamen Ironwood, die einen bedeutenden Fortschritt in der KI-Rechenleistung darstellt. Dieser hochmoderne KI-Beschleuniger verfügt über eine Rechenleistung, die selbst die schnellsten Supercomputer der Welt bei groß angelegten Einsätzen um den erstaunlichen Faktor 24 übertrifft.

Ironwood wurde auf der Google Cloud Next ‘25 Konferenz angekündigt und stellt eine strategische Neuausrichtung in Googles zehnjähriger Entwicklung von KI-Chips dar. Im Gegensatz zu seinen Vorgängern, die hauptsächlich für KI-Trainings- und Inferenz-Workloads konzipiert waren, wurde Ironwood speziell für Inferenzaufgaben entwickelt und läutet eine neue Ära KI-gesteuerter Anwendungen ein.

Laut Amin Vahdat, Vice President und General Manager of Machine Learning, Systems, and Cloud AI bei Google, ist ‘Ironwood darauf ausgelegt, die nächste Phase der generativen KI und ihre enormen Rechen- und Kommunikationsanforderungen zu unterstützen. Dies ist das, was wir die ‘Inferenz-Ära’ nennen, in der KI-Agenten proaktiv Daten abrufen und generieren, um gemeinsam Erkenntnisse und Antworten zu liefern, nicht nur Daten.’

Enthüllung der beispiellosen Fähigkeiten von Ironwood

Die technischen Spezifikationen von Ironwood sind schlichtweg außergewöhnlich. Bei einer Skalierung auf einen Pod mit 9.216 Chips kann er erstaunliche 42,5 Exaflops an KI-Rechenleistung liefern. Diese Zahl übertrifft die 1,7 Exaflops von El Capitan, dem aktuellen Titelträger für den schnellsten Supercomputer der Welt. Jeder einzelne Ironwood-Chip verfügt über eine maximale Rechenkapazität von 4.614 TFLOPs.

Über die reine Rechenleistung hinaus bietet Ironwood auch deutliche Verbesserungen in Bezug auf Speicher und Bandbreite. Jeder Chip ist mit 192 GB High-Bandwidth Memory (HBM) ausgestattet, einer sechsfachen Steigerung gegenüber der vorherigen TPU-Generation, Trillium, die letztes Jahr veröffentlicht wurde. Darüber hinaus erreicht die Speicherbandbreite pro Chip 7,2 Terabit/s, was einer 4,5-fachen Verbesserung gegenüber Trillium entspricht.

In einer Ära, in der Datenzentren expandieren und der Stromverbrauch zu einem kritischen Problem wird, zeichnet sich Ironwood auch durch seine Energieeffizienz aus. Seine Leistung pro Watt ist doppelt so hoch wie die von Trillium und fast 30-mal höher als die der ersten 2018 eingeführten TPU.

Die Betonung der Inferenzoptimierung kennzeichnet einen entscheidenden Wandel in der KI-Landschaft. In den letzten Jahren haben sich führende KI-Labore hauptsächlich auf den Aufbau immer größerer Foundation-Modelle mit steigender Parameteranzahl konzentriert. Googles Fokus auf Inferenzoptimierung deutet auf einen Übergang zu einer neuen Phase hin, die sich auf Bereitstellungseffizienz und Inferenzfähigkeiten konzentriert.

Während das Modelltraining weiterhin von entscheidender Bedeutung ist, ist die Anzahl der Trainingsiterationen begrenzt. Im Gegensatz dazu wird erwartet, dass Inferenzoperationen Milliarden Mal täglich stattfinden, da KI-Technologien zunehmend in verschiedene Anwendungen integriert werden. Da Modelle immer komplexer werden, ist die wirtschaftliche Rentabilität dieser Anwendungen untrennbar mit den Inferenzkosten verbunden.

In den letzten acht Jahren hat sich Googles Bedarf an KI-Rechenleistung verzehnfacht und erstaunliche 100 Millionen erreicht. Ohne spezialisierte Architekturen wie Ironwood würde selbst der unaufhaltsame Fortschritt des Moore’schen Gesetzes Schwierigkeiten haben, mit diesem exponentiellen Wachstum Schritt zu halten.

Bemerkenswert ist, dass Googles Ankündigung seinen Fokus auf ‘mentale Modelle’ hervorhebt, die in der Lage sind, komplexe Denkaufgaben auszuführen, anstatt einfache Mustererkennung. Dies deutet darauf hin, dass Google sich eine Zukunft vorstellt, in der KI über größere Modelle hinausgeht und Modelle umfasst, die Probleme zerlegen, mehrstufige Schlussfolgerungen ziehen und menschenähnliche Denkprozesse emulieren können.

Die nächste Generation großer Modelle antreiben

Google positioniert Ironwood als die grundlegende Infrastruktur für seine fortschrittlichsten KI-Modelle, darunter Gemini 2.5, das nativ integrierte Denkfähigkeiten aufweist.

Google hat kürzlich auch Gemini 2.5 Flash vorgestellt, eine kleinere Variante seines Flaggschiffmodells, die für latenzsensitive, alltägliche Anwendungen entwickelt wurde. Gemini 2.5 Flash kann seine Denktiefe dynamisch an die Komplexität der Eingabeaufforderung anpassen.

Google präsentierte außerdem seine umfassende Suite multimodaler generativer Modelle, darunter Text-zu-Bild, Text-zu-Video und die neu vorgestellte Text-zu-Musik-Funktion Lyria. Eine Demo veranschaulichte, wie diese Tools kombiniert werden können, um ein komplettes Werbevideo für ein Konzert zu erstellen.

Ironwood ist nur eine Komponente von Googles umfassenderer KI-Infrastrukturstrategie. Google kündigte außerdem Cloud WAN an, einen verwalteten Wide-Area-Network-Dienst, der es Unternehmen ermöglicht, auf Googles globale private Netzwerkinfrastruktur zuzugreifen.

Darüber hinaus erweitert Google sein Softwareangebot für KI-Workloads, einschließlich Pathways, einer von Google DeepMind entwickelten Machine-Learning-Runtime. Mit Pathways können Kunden jetzt die Modellbereitstellung über Hunderte von TPUs skalieren.

Förderung der KI-Agenten-Kollaboration mit A2A

Über Hardware-Fortschritte hinaus hat Google auch seine Vision für ein KI-Ökosystem umrissen, das sich um Multi-Agenten-Systeme dreht. Um die Entwicklung intelligenter Agenten zu erleichtern, hat Google das Agent-to-Agent (A2A)-Protokoll eingeführt, das die sichere und standardisierte Kommunikation zwischen verschiedenen KI-Agenten ermöglichen soll.

Google glaubt, dass 2025 ein transformatives Jahr für KI sein wird, in dem sich generative KI-Anwendungen von der Beantwortung einzelner Fragen zur Lösung komplexer Probleme durch Agentensysteme entwickeln werden.

Das A2A-Protokoll ermöglicht die Interoperabilität zwischen Agenten über verschiedene Plattformen und Frameworks hinweg und bietet ihnen eine gemeinsame ‘Sprache’ und sichere Kommunikationskanäle. Dieses Protokoll kann als Netzwerkschicht für intelligente Agenten betrachtet werden, die darauf abzielt, die Agentenkollaboration in komplexen Workflows zu vereinfachen. Indem es spezialisierten KI-Agenten ermöglicht, bei Aufgaben unterschiedlicher Komplexität und Dauer zusammenzuarbeiten, zielt A2A darauf ab, die Gesamtkompetenzen durch Zusammenarbeit zu verbessern.

A2A funktioniert, indem es eine standardisierte Möglichkeit für Agenten etabliert, Informationen auszutauschen und Aktionen zu koordinieren, ohne dass sie zugrunde liegenden Code oder Datenstrukturen gemeinsam nutzen müssen. Dies ermöglicht die Erstellung modularerer und flexiblerer KI-Systeme, in denen Agenten bei Bedarf einfach hinzugefügt, entfernt oder rekonfiguriert werden können.

Google hat in einem Blogbeitrag einen Vergleich zwischen MCP- und A2A-Protokollen gezogen.

  • MCP (Model Context Protocol) ist für die Tool- und Ressourcenverwaltung konzipiert.
    • Es verbindet Agenten mit Tools, APIs und Ressourcen durch strukturierte Ein-/Ausgabe.
    • Das Google ADK unterstützt MCP-Tools und ermöglicht es verschiedenen MCP-Servern, mit Agenten zusammenzuarbeiten.
  • A2A (Agent2Agent Protocol) ist für die Zusammenarbeit zwischen Agenten konzipiert.
    • Es ermöglicht die dynamische, multimodale Kommunikation zwischen Agenten, ohne Speicher, Ressourcen oder Tools gemeinsam zu nutzen.
    • Es ist ein offener Standard, der von der Community vorangetrieben wird.
    • Beispiele können mit Google ADK, LangGraph, Crew.AI und anderen Tools angezeigt werden.

Im Wesentlichen sind A2A und MCP komplementär: MCP bietet Agenten Tool-Unterstützung, während A2A es diesen mit Tools ausgestatteten Agenten ermöglicht, miteinander zu kommunizieren und zusammenzuarbeiten.

Nach den ersten Partnern zu urteilen, scheint A2A die gleiche Aufmerksamkeit zu erregen wie MCP. Über 50 Unternehmen sind der ersten Zusammenarbeit beigetreten, darunter führende Technologieunternehmen und globale Top-Beratungs- und Systemintegrationsdienstleister.

Google betont die Offenheit des Protokolls und positioniert es als Standardmethode für die Zusammenarbeit von Agenten, unabhängig vom zugrunde liegenden Technologieframework oder Dienstanbieter. Google skizzierte fünf Schlüsselprinzipien, die die Gestaltung des Protokolls in Zusammenarbeit mit seinen Partnern leiteten:

  1. Agentenfähigkeiten nutzen: A2A konzentriert sich darauf, Agenten die Zusammenarbeit auf natürliche, unstrukturierte Weise zu ermöglichen, auch wenn sie keine Erinnerungen, Tools und Kontexte gemeinsam nutzen. Das Protokoll zielt darauf ab, echte Multi-Agenten-Szenarien zu ermöglichen, anstatt Agenten auf bloße ‘Tools’ zu beschränken.
  2. Auf bestehenden Standards aufbauen: Das Protokoll baut auf bestehenden gängigen Standards auf, darunter HTTP, SSE und JSON-RPC, wodurch die Integration in bestehende IT-Stacks, die von Unternehmen häufig verwendet werden, vereinfacht wird.
  3. Standardmäßig sicher: A2A ist so konzipiert, dass es Authentifizierung und Autorisierung auf Unternehmensebene unterstützt, vergleichbar mit den Authentifizierungsschemata von OpenAPI beim Start.
  4. Unterstützung für lang andauernde Aufgaben: A2A ist flexibel konzipiert und unterstützt eine Vielzahl von Szenarien, von schnellen Aufgaben bis hin zu eingehenden Recherchen, die Stunden oder sogar Tage dauern können (wenn Menschen beteiligt sind). Während des gesamten Prozesses kann A2A Benutzern Echtzeit-Feedback, Benachrichtigungen und Statusaktualisierungen liefern.
  5. Modalitätsagnostisch: Die Welt der Agenten ist nicht auf Text beschränkt, weshalb A2A so konzipiert ist, dass es verschiedene Modalitäten unterstützt, darunter Audio- und Videostreams.

Google liefert ein Beispiel dafür, wie A2A den Einstellungsprozess erheblich rationalisieren kann.

In einer einheitlichen Schnittstelle wie Agentspace kann ein Personalmanager einen Agenten damit beauftragen, basierend auf den Stellenanforderungen geeignete Kandidaten zu finden. Dieser Agent kann mit spezialisierten Agenten interagieren, um Kandidaten zu finden, Vorstellungsgespräche zu vereinbaren und sogar andere spezialisierte Agenten hinzuziehen, um bei Hintergrundüberprüfungen zu helfen, wodurch die intelligente Automatisierung des gesamten Einstellungsprozesses über verschiedene Systeme hinweg ermöglicht wird.

Akzeptanz des Model Context Protocol (MCP)

Zusätzlich zu seinen Bemühungen zur Entwicklung von A2A akzeptiert Google auch das Model Context Protocol (MCP). Nur wenige Wochen nachdem OpenAI seine Akzeptanz von MCP angekündigt hatte, zog Google nach.

Demis Hassabis, CEO von Google DeepMind, gab kürzlich auf X bekannt, dass Google seine Gemini-Modelle und SDKs um Unterstützung für MCP erweitern wird. Er nannte jedoch keinen konkreten Zeitplan.

Hassabis erklärte, dass ‘MCP ein ausgezeichnetes Protokoll ist, das sich schnell zum offenen Standard für die KI-Agenten-Ära entwickelt. Ich freue mich darauf, mit dem MCP-Team und anderen Partnern in der Branche zusammenzuarbeiten, um diese Technologie voranzutreiben.’

Seit seiner Veröffentlichung im November 2024 hat MCP schnell an Bedeutung gewonnen und sich zu einer einfachen und standardisierten Möglichkeit entwickelt, Sprachmodelle mit Tools und Daten zu verbinden.

MCP ermöglicht es KI-Modellen, auf Daten aus Quellen wie Unternehmens-Tools und Software zuzugreifen, um Aufgaben zu erledigen, sowie auf Inhaltsbibliotheken und Anwendungsentwicklungsumgebungen zuzugreifen. Das Protokoll ermöglicht es Entwicklern, bidirektionale Verbindungen zwischen Datenquellen und KI-gestützten Anwendungen wie Chatbots herzustellen.

Entwickler können Datenschnittstellen über MCP-Server bereitstellen und MCP-Clients (wie Anwendungen und Workflows) erstellen, um sich mit diesen Servern zu verbinden. Seit Anthropic MCP als Open Source veröffentlicht hat, haben mehrere Unternehmen die MCP-Unterstützung in ihre Plattformen integriert.