Googles Ironwood TPU: KI-Leistungssprung

Googles Ironwood TPU: Ein Quantensprung in der KI-Rechenleistung

Die Landschaft der künstlichen Intelligenz wurde mit der Vorstellung von Googles siebter Generation der Tensor Processing Unit (TPU), getauft Ironwood, neu definiert. Dieser hochmoderne KI-Beschleuniger verfügt über eine Rechenleistung, die selbst die leistungsstärksten Supercomputer der Welt in den Schatten stellt. In einem groß angelegten Einsatz übertreffen die Fähigkeiten von Ironwood die des schnellsten Supercomputers um das erstaunliche 24-fache.

Die Enthüllung von Ironwood auf der Google Cloud Next ‘25-Veranstaltung markiert einen Wendepunkt in Googles zehnjährigem Streben nach Innovationen im Bereich KI-Chips. Während frühere TPU-Iterationen in erster Linie auf die Trainings- und Inferenz-Workloads von KI-Modellen ausgerichtet waren, zeichnet sich Ironwood als erster Chip aus, der sorgfältig für Inferenzaufgaben entwickelt und optimiert wurde.

Laut Amin Vahdat, Vice President und General Manager of Machine Learning, Systems, and Cloud AI bei Google: ‘Ironwood wurde entwickelt, um die nächste Phase der generativen KI voranzutreiben und deren immense Rechen- und Kommunikationsanforderungen zu erfüllen. Wir treten in das ein, was wir die ‘Inferenz-Ära’ nennen, in der KI-Agenten proaktiv Daten abrufen und generieren, um gemeinsam Erkenntnisse und Antworten zu liefern, die die Fähigkeiten bloßer Datenverarbeitung übertreffen.’

Entfesselung beispielloser Rechenleistung: Ein Einblick in die Fähigkeiten von Ironwood

Die technischen Spezifikationen von Ironwood lesen sich wie eine Wunschliste für KI-Forscher und -Entwickler. Ironwood skaliert auf einen Pod von 9.216 Chips und liefert erstaunliche 42,5 Exaflops an KI-Rechenleistung. Um dies ins rechte Licht zu rücken: Es übertrifft die Fähigkeiten des aktuellen Supercomputer-Champions El Capitan, der eine Spitzenleistung von 1,7 Exaflops erreicht, bei weitem. Jeder einzelne Ironwood-Chip verfügt über eine Spitzenrechenkapazität von 4614 TFLOPs.

Über die reine Rechenleistung hinaus bietet Ironwood signifikante Verbesserungen in Bezug auf Speicher und Bandbreite. Jeder Chip ist mit 192 GB High Bandwidth Memory (HBM) ausgestattet, einer Versechsfachung im Vergleich zur vorherigen TPU-Generation, Trillium. Die Speicherbandbreite wurde ebenfalls drastisch verbessert und erreicht 7,2 Terabit/s pro Chip, das 4,5-fache von Trillium.

In einer Zeit, in der Rechenzentren expandieren und der Stromverbrauch zu einem immer wichtigeren Faktor wird, demonstriert Ironwood eine bemerkenswerte Energieeffizienz. Seine Leistung pro Watt ist doppelt so hoch wie die von Trillium und fast 30-mal besser als die der ersten 2018 eingeführten TPU.

Diese Verlagerung hin zur Inferenzoptimierung stellt einen bedeutenden Meilenstein in der Entwicklung der KI dar. In den letzten Jahren haben sich führende KI-Labore auf den Aufbau von Basismodellen mit immer größer werdenden Parameterzahlen konzentriert. Googles Schwerpunkt auf Inferenzoptimierung signalisiert eine Verlagerung hin zur Priorisierung der Bereitstellungseffizienz und der realen Inferenzfähigkeiten.

Während das Training von KI-Modellen eine relativ seltene Aktivität ist, finden Inferenzoperationen täglich milliardenfach statt, da KI-Technologien immer allgegenwärtiger werden. Die wirtschaftliche Rentabilität von KI-gestützten Unternehmen ist untrennbar mit den Inferenzkosten verbunden, insbesondere wenn Modelle immer komplexer werden.

In den letzten acht Jahren ist Googles Bedarf an KI-Rechenleistung exponentiell gestiegen, hat sich verzehnfacht und erreicht erstaunliche 100 Millionen. Ohne spezielle Architekturen wie Ironwood kann das Mooresche Gesetz allein diese Wachstumsentwicklung nicht aufrechterhalten.

Googles Schwerpunkt auf ‘Reasoning Models’, die zu komplexen Inferenzaufgaben fähig sind, anstatt auf einfacher Mustererkennung, ist besonders bemerkenswert. Dies deutet darauf hin, dass Google sich eine Zukunft vorstellt, in der KI nicht nur durch größere Modelle, sondern auch durch Modelle, die in der Lage sind, Probleme aufzuschlüsseln, mehrstufige Schlussfolgerungen zu ziehen und menschenähnliche Denkprozesse zu emulieren, brilliert.

Die nächste Generation von Large Language Models befeuern

Google positioniert Ironwood als die grundlegende Infrastruktur für seine fortschrittlichsten KI-Modelle, einschließlich Gemini 2.5, das über ‘native Reasoning Capabilities’ verfügt.

Neben Ironwood stellte Google Gemini 2.5 Flash vor, eine optimierte Version seines Flaggschiffmodells, die für latenzempfindliche, alltägliche Anwendungen entwickelt wurde. Gemini 2.5 Flash kann seine Reasoning Depth dynamisch an die Komplexität der Anfrage anpassen.

Google präsentierte auch seine Suite von multimodalen generativen Modellen, die Text-zu-Bild, Text-zu-Video und die neu eingeführte Text-zu-Musik-Funktionalität Lyria umfasst. Eine überzeugende Demo zeigte, wie diese Tools kombiniert werden können, um ein komplettes Werbevideo für ein Konzert zu erstellen.

Ironwood ist nur eine Komponente von Googles umfassender KI-Infrastrukturstrategie. Das Unternehmen stellte außerdem Cloud WAN vor, einen verwalteten Wide Area Network-Dienst, der es Unternehmen ermöglicht, Googles private Netzwerkinfrastruktur von globalem Maßstab zu nutzen.

Google erweitert auch sein Softwareangebot für KI-Workloads, darunter Pathways, eine von Google DeepMind entwickelte Machine-Learning-Laufzeitumgebung, die es Kunden ermöglicht, die Modellbereitstellung über Hunderte von TPUs zu skalieren.

Eine Vision der kollaborativen Intelligenz: Einführung von A2A- und MCP-Support

Über Hardware-Fortschritte hinaus artikulierte Google seine Vision für KI, die auf Multi-Agenten-Systemen basiert, und führte das Agent-to-Agent (A2A)-Protokoll ein, das entwickelt wurde, um eine sichere und standardisierte Kommunikation zwischen verschiedenen KI-Agenten zu fördern.

Google erwartet 2025 als ein transformatives Jahr für KI, in dem sich generative KI-Anwendungen von der Beantwortung einzelner Fragen zur Lösung komplexer Probleme durch miteinander verbundene Agentensysteme entwickeln.

Das A2A-Protokoll ermöglicht Interoperabilität über Plattformen und Frameworks hinweg und bietet KI-Agenten eine gemeinsame ‘Sprache’ und sichere Kommunikationskanäle. Stellen Sie es sich als eine Netzwerkschicht für KI-Agenten vor, die die Zusammenarbeit in komplexen Workflows vereinfacht und es spezialisierten KI-Agenten ermöglicht, gemeinsam Aufgaben unterschiedlicher Komplexität und Dauer zu bewältigen, wodurch die Gesamtleistung durch Zusammenarbeit gesteigert wird.

Wie A2A funktioniert

Google hat einen vergleichenden Überblick über die MCP- und A2A-Protokolle gegeben:

  • MCP (Model Context Protocol): Konzentriert sich auf das Tool- und Ressourcenmanagement.
    • Verbindet Agenten mit Tools, APIs und Ressourcen durch strukturierte Ein-/Ausgabe.
    • Google ADK unterstützt MCP-Tools und erleichtert die nahtlose Interaktion zwischen MCP-Servern und Agenten.
  • A2A (Agent2Agent Protocol): Erleichtert die Zusammenarbeit zwischen Agenten.
    • Ermöglicht die dynamische, multimodale Kommunikation zwischen Agenten, ohne dass ein gemeinsamer Speicher, Ressourcen oder Tools erforderlich sind.
    • Es handelt sich um einen offenen Standard, der von der Community vorangetrieben wird.
    • Beispiele können mit Tools wie Google ADK, LangGraph und Crew.AI untersucht werden.

A2A und MCP ergänzen sich. MCP stattet Agenten mit Werkzeugen aus, während A2A diese ausgestatteten Agenten in die Lage versetzt, sich zu unterhalten und zusammenzuarbeiten.

Googles erste Partnerliste deutet darauf hin, dass A2A ähnliche Aufmerksamkeit wie MCP erhalten wird. Die Initiative hat bereits über 50 Organisationen angezogen, darunter führende Technologieunternehmen sowie globale Beratungs- und Systemintegrationsanbieter.

Google betont die Offenheit des Protokolls und positioniert es als Standard für die Inter-Agent-Zusammenarbeit, der die zugrunde liegenden Technologie-Frameworks oder Dienstanbieter transzendiert. Google hob fünf Leitprinzipien hervor, die das Design des Protokolls geprägt haben:

  1. Agentenfunktionen nutzen: A2A priorisiert die Aktivierung von Agenten, um auf natürliche Weise zusammenzuarbeiten, auch ohne gemeinsame Speicher, Tools oder Kontext. Ziel ist es, echte Multi-Agenten-Szenarien zu ermöglichen und Agenten nicht einfach auf die Rolle von ‘Tools’ zu beschränken.
  2. Auf bestehenden Standards aufbauen: Das Protokoll nutzt bestehende, weit verbreitete Standards, darunter HTTP, SSE und JSON-RPC, was die Integration in bestehende IT-Stacks vereinfacht.
  3. Standardmäßig sicher: A2A wurde entwickelt, um Authentifizierung und Autorisierung auf Unternehmensebene zu unterstützen, vergleichbar mit den Authentifizierungsschemata von OpenAPI.
  4. Lang andauernde Aufgaben unterstützen: Die Flexibilität von A2A ermöglicht die Unterstützung einer Vielzahl von Szenarien, von schnellen Aufgaben bis hin zu eingehenden Recherchen, die Stunden oder sogar Tage dauern können (insbesondere wenn menschliches Eingreifen erforderlich ist). Während des gesamten Prozesses kann A2A Benutzern Echtzeit-Feedback, Benachrichtigungen und Statusaktualisierungen bereitstellen.
  5. Modalitätsagnostisch: In Anerkennung der Tatsache, dass die Welt der Agenten über Text hinausgeht, unterstützt A2A verschiedene Modalitäten, darunter Audio- und Videostreams.

Google hat ein Beispiel dafür geliefert, wie A2A den Einstellungsprozess rationalisiert.

In einer einheitlichen Oberfläche wie Agentspace kann ein Einstellungsmanager einen Agenten beauftragen, geeignete Kandidaten basierend auf den Stellenanforderungen zu identifizieren. Dieser Agent kann mit spezialisierten Agenten interagieren, um Kandidaten zu beschaffen. Benutzer können Agenten auch anweisen, Vorstellungsgespräche zu planen und andere spezialisierte Agenten hinzuzuziehen, um bei Hintergrundüberprüfungen zu helfen, wodurch eine vollständig automatisierte und intelligente Rekrutierung über Systeme hinweg ermöglicht wird.

Das Model Context Protocol (MCP) nutzen

Google setzt auch auf MCP. Kurz nachdem OpenAI die Einführung von Anthropic’s Model Context Protocol (MCP) angekündigt hatte, zog Google nach.

Demis Hassabis, CEO von Google DeepMind, gab auf X (ehemals Twitter) bekannt, dass Google die Unterstützung für MCP in seinen Gemini-Modellen und im SDK hinzufügen würde, obwohl er keinen konkreten Zeitplan nannte.

Hassabis erklärte, dass ‘MCP ein ausgezeichnetes Protokoll ist, das sich schnell zu einem offenen Standard für das Zeitalter der KI-Agenten entwickelt. Wir freuen uns darauf, mit dem MCP-Team und anderen Partnern in der Branche zusammenzuarbeiten, um diese Technologie voranzutreiben.’

Seit seiner Veröffentlichung im November 2024 hat MCP als einfache, standardisierte Möglichkeit, Sprachmodelle mit Tools und Daten zu verbinden, erheblich an Bedeutung gewonnen.

MCP ermöglicht KI-Modellen den Zugriff auf Daten aus Enterprise-Tools und Software, um Aufgaben zu erledigen und auf Inhaltsbibliotheken und Anwendungsentwicklungsumgebungen zuzugreifen. Das Protokoll ermöglicht es Entwicklern, bidirektionale Verbindungen zwischen Datenquellen und KI-gestützten Anwendungen wie Chatbots herzustellen.

Entwickler können Datenschnittstellen über MCP-Server verfügbar machen und MCP-Clients (wie Anwendungen und Workflows) erstellen, um sich mit diesen Servern zu verbinden. Seit Anthropic MCP als Open Source veröffentlicht hat, haben mehrere Unternehmen die MCP-Unterstützung in ihre Plattformen integriert.

Ironwood: Der Beginn einer neuen Ära in der KI

Googles Ironwood TPU stellt einen bedeutenden Fortschritt in der KI-Berechnung dar. Seine beispiellose Leistung, optimierte Architektur und Unterstützung für neue Protokolle wie A2A und MCP positionieren es als einen Schlüsselfaktor für die nächste Welle der KI-Innovation. Da KI-Modelle immer komplexer und anspruchsvoller werden, bietet Ironwood die rohe Leistung und Flexibilität, die erforderlich sind, um neue Möglichkeiten zu erschließen und Branchen auf der ganzen Welt zu verändern. Es ist nicht nur ein neuer Chip; es ist eine Grundlage für eine Zukunft, die von intelligenten Maschinen angetrieben wird, die gemeinsam arbeiten, um komplexe Probleme zu lösen und unser Leben zu verbessern.