Googles TPU Ironwood: 24x schneller!

Googles neuer Tensor Processing Unit (TPU) der siebten Generation, bekannt als Ironwood, verändert die Landschaft der künstlichen Intelligenz (KI) Verarbeitung grundlegend. Dieser hochmoderne KI-Beschleuniger verfügt über Rechenkapazitäten, die in großen Bereitstellungen den schnellsten Supercomputer der Welt um mehr als das 24-fache übertreffen.

Dieser neue Chip, der auf der Google Cloud Next ‘25 Konferenz vorgestellt wurde, markiert einen entscheidenden Moment in Googles zehnjähriger Strategie zur Entwicklung von KI-Chips. Im Gegensatz zu seinen Vorgängern, die primär für KI-Trainings- und Inferenz-Workloads entwickelt wurden, ist Ironwood speziell für Inferenz konzipiert, was einen strategischen Wandel hin zur Optimierung der Effizienz von KI-Bereitstellungen signalisiert.

Amin Vahdat, Vice President und General Manager of Machine Learning, Systems, and Cloud AI bei Google, betonte diesen Übergang und erklärte: ‘Ironwood wurde entwickelt, um die nächste Phase der generativen KI und ihre immensen Rechen- und Kommunikationsanforderungen zu unterstützen. Dies ist, was wir die ‘Inferenz-Ära’ nennen, in der KI-Agenten proaktiv Daten abrufen und generieren, um gemeinsam Erkenntnisse und Antworten zu liefern, anstatt nur Daten zu verarbeiten.’

Durchbruch mit 42,5 Exaflops Rechenleistung

Die technischen Spezifikationen von Ironwood sind wirklich beeindruckend. Bei der Skalierung auf einen Pod mit 9.216 Chips liefert er erstaunliche 42,5 Exaflops an KI-Rechenleistung. Um dies in Perspektive zu setzen: Er übertrifft den derzeit schnellsten Supercomputer der Welt, El Capitan, der mit 1,7 Exaflops arbeitet, bei Weitem. Jeder einzelne Ironwood-Chip kann eine maximale Rechenleistung von 4614 TFLOPs erreichen.

Über die reine Rechenleistung hinaus verbessert Ironwood Speicher und Bandbreite erheblich. Jeder Chip ist mit 192 GB High-Bandwidth Memory (HBM) ausgestattet, was einer Versechsfachung im Vergleich zum Vorgänger-TPU Trillium entspricht, der letztes Jahr veröffentlicht wurde. Die Speicherbandbreite pro Chip erreicht 7,2 Terabit/s, das 4,5-fache von Trillium.

  • Rechenleistung: 42,5 Exaflops (pro Pod mit 9.216 Chips)
  • Maximale Rechenleistung pro Chip: 4614 TFLOPs
  • Speicher: 192GB HBM pro Chip
  • Speicherbandbreite: 7,2 Terabit/s pro Chip

In einer Ära, in der Rechenzentren expandieren und der Stromverbrauch ein wachsendes Problem darstellt, zeigt Ironwood auch deutliche Verbesserungen in der Energieeffizienz. Er bietet die doppelte Leistung pro Watt im Vergleich zu Trillium und fast das 30-fache der ersten TPU, die 2018 eingeführt wurde.

Diese Optimierung für Inferenz stellt einen entscheidenden Wendepunkt in der Entwicklung der KI dar. In den letzten Jahren haben sich führende KI-Labore auf die Entwicklung immer größerer Foundation Models mit stetig wachsender Parameteranzahl konzentriert. Googles Fokus auf die Optimierung der Inferenz deutet auf eine Verlagerung hin zu einem neuen Paradigma hin, das sich auf die Effizienz der Bereitstellung und die Inferenzfähigkeiten konzentriert.

Während das Modelltraining unerlässlich bleibt, sind Inferenzoperationen weitaus häufiger und finden täglich Milliarden Male statt, da KI-Technologien immer weiter verbreitet werden. Für Unternehmen, die KI nutzen, sind die Wirtschaftlichkeit untrennbar mit den Inferenzkosten verbunden, da Modelle immer komplexer werden.

Googles KI-Rechenbedarf hat sich in den letzten acht Jahren verzehnfacht und erreicht erstaunliche 100 Millionen. Ohne spezialisierte Architekturen wie Ironwood wäre es unmöglich, diesen Wachstumskurs durch traditionelle Fortschritte im Bereich des Mooreschen Gesetzes allein aufrechtzuerhalten.

Bemerkenswert ist, dass Googles Ankündigung einen Fokus auf ‘Reasoning Models’ betonte, die in der Lage sind, komplexe Inferenzaufgaben auszuführen und nicht nur einfache Mustererkennung. Dies deutet auf die Überzeugung hin, dass die Zukunft der KI nicht nur in größeren Modellen liegt, sondern auch in Modellen, die in der Lage sind, Probleme zu zerlegen, sich in mehrstufigen Schlussfolgerungen zu engagieren und menschenähnliche Denkprozesse zu emulieren.

Stromversorgung der nächsten Generation großer Modelle

Google positioniert Ironwood als die grundlegende Infrastruktur für seine fortschrittlichsten KI-Modelle, einschließlich seines eigenen Gemini 2.5, das über ‘native Reasoning Abilities’ verfügt.

Das Unternehmen hat kürzlich auch Gemini 2.5 Flash vorgestellt, eine kleinere Version seines Flaggschiffmodells, die entwickelt wurde, um ‘die Reasoning Depth basierend auf der Komplexität der Eingabeaufforderung anzupassen’. Dieses Modell ist auf alltägliche Anwendungen ausgerichtet, die schnelle Reaktionszeiten erfordern.

Google präsentierte außerdem seine umfassende Suite von multimodalen Generierungsmodellen, die Text-to-Image, Text-to-Video und die neu vorgestellte Text-to-Music-Funktion Lyria umfassen. Eine Demo veranschaulichte, wie diese Tools kombiniert werden können, um ein komplettes Werbevideo für ein Konzert zu erstellen.

Ironwood ist nur eine Komponente von Googles umfassenderer KI-Infrastrukturstrategie. Das Unternehmen kündigte außerdem Cloud WAN an, einen verwalteten Wide Area Network-Dienst, der Unternehmen Zugang zu Googles global skalierbarer privater Netzwerkinfrastruktur bietet.

Google erweitert auch sein Softwareangebot für KI-Workloads, einschließlich Pathways, einer von Google DeepMind entwickelten Machine-Learning-Laufzeitumgebung. Pathways ermöglicht es Kunden nun, das Modell Serving über Hunderte von TPUs zu skalieren.

Einführung von A2A: Förderung eines Ökosystems intelligenter Agenten-Kollaboration

Über Hardware-Fortschritte hinaus präsentierte Google seine Vision für KI, die sich auf Multi-Agent-Systeme konzentriert, und stellte ein Protokoll vor, um die Entwicklung intelligenter Agenten zu erleichtern: Agent-to-Agent (A2A). Dieses Protokoll wurde entwickelt, um eine sichere und standardisierte Kommunikation zwischen verschiedenen KI-Agenten zu fördern.

Google ist davon überzeugt, dass 2025 ein transformatives Jahr für KI sein wird, in dem sich die Anwendung von generativer KI von der Beantwortung einzelner Fragen zur Lösung komplexer Probleme durch intelligente Agentensysteme weiterentwickelt.

Das A2A-Protokoll ermöglicht die Interoperabilität über Plattformen und Frameworks hinweg und bietet Agenten eine gemeinsame ‘Sprache’ und sichere Kommunikationskanäle. Dieses Protokoll kann als die Netzwerkschicht für intelligente Agenten betrachtet werden, die darauf abzielt, die Zusammenarbeit von Agenten in komplexen Workflows zu vereinfachen. Es ermöglicht spezialisierten KI-Agenten, bei Aufgaben unterschiedlicher Komplexität und Dauer zusammenzuarbeiten, wodurch die Gesamtcapabilities durch Zusammenarbeit verbessert werden.

Wie A2A funktioniert

Google stellte in seinem Blogbeitrag einen Vergleich zwischen MCP- und A2A-Protokollen bereit:

  • MCP (Model Context Protocol): Für Tool- und Ressourcenmanagement
    • Verbindet Agenten über strukturierte Ein-/Ausgabe mit Tools, APIs und Ressourcen.
    • Google ADK unterstützt MCP-Tools, wodurch verschiedene MCP-Server mit Agenten zusammenarbeiten können.
  • A2A (Agent2Agent Protocol): Für die Zusammenarbeit zwischen Agenten
    • Ermöglicht die dynamische multimodale Kommunikation zwischen Agenten, ohne Speicher, Ressourcen oder Tools zu teilen.
    • Ein offener Standard, der von der Community vorangetrieben wird.
    • Beispiele können mit Tools wie Google ADK, LangGraph und Crew.AI angezeigt werden.

Im Wesentlichen ergänzen sich A2A und MCP. MCP bietet Agenten Tool-Support, während A2A es diesen ausgestatteten Agenten ermöglicht, miteinander zu kommunizieren und zusammenzuarbeiten.

Die von Google angekündigte Liste der Partner deutet darauf hin, dass A2A ähnliche Aufmerksamkeit erhalten wird wie MCP. Die Initiative hat bereits über 50 Unternehmen für ihre erste Kollaborationskohorte gewonnen, darunter führende Technologieunternehmen und Top-Beratungs- und Systemintegrationsdienstleister.

Google betonte die Offenheit des Protokolls und positionierte es als die Standardmethode für Agenten, unabhängig von zugrunde liegenden Technologie-Frameworks oder Dienstleistern zusammenzuarbeiten. Das Unternehmen gab an, dass es bei der Gestaltung des Protokolls mit seinen Partnern die folgenden fünf Schlüsselprinzipien einhielt:

  1. Agent Capabilities nutzen: A2A konzentriert sich darauf, Agenten zu ermöglichen, auf natürliche, unstrukturierte Weise zusammenzuarbeiten, auch wenn sie keinen Speicher, keine Tools und keinen Kontext teilen. Ziel ist es, echte Multi-Agent-Szenarien zu ermöglichen, ohne Agenten auf bloße ‘Tools’ zu beschränken.
  2. Auf bestehenden Standards aufbauen: Das Protokoll baut auf bestehenden gängigen Standards auf, darunter HTTP, SSE und JSON-RPC, wodurch die Integration in bestehende IT-Stacks von Unternehmen vereinfacht wird.
  3. Standardmäßig sicher: A2A ist so konzipiert, dass es Authentifizierung und Autorisierung auf Enterprise-Niveau unterstützt, vergleichbar mit den Authentifizierungsschemas von OpenAPI zum Start.
  4. Lang andauernde Aufgaben unterstützen: A2A ist mit Flexibilität konzipiert, um ein breites Spektrum von Szenarien zu unterstützen, von schnellen Aufgaben bis hin zu eingehenden Recherchen, die Stunden oder sogar Tage dauern können (wenn Menschen beteiligt sind). Während des gesamten Prozesses kann A2A Benutzern Echtzeit-Feedback, Benachrichtigungen und Statusaktualisierungen liefern.
  5. Modalitätsagnostisch: Die Welt der Agenten ist nicht auf Text beschränkt, weshalb A2A so konzipiert ist, dass es verschiedene Modalitäten unterstützt, darunter Audio- und Videostreams.

Beispiel: Optimierter Einstellungsprozess über A2A

Ein von Google bereitgestelltes Beispiel veranschaulicht, wie A2A den Einstellungsprozess erheblich rationalisieren kann.

Innerhalb einer einheitlichen Benutzeroberfläche wie Agentspace kann ein Hiring Manager einen Agenten beauftragen, geeignete Kandidaten basierend auf den Jobanforderungen zu finden. Dieser Agent kann mit spezialisierten Agenten in bestimmten Bereichen interagieren, um die Kandidatensuche abzuschließen. Der Benutzer kann den Agenten auch anweisen, Vorstellungsgespräche zu planen und andere spezialisierte Agenten zu aktivieren, um bei Hintergrundüberprüfungen zu helfen, wodurch eine vollständig automatisierte, systemübergreifende kollaborative Einstellung ermöglicht wird.

MCP nutzen: Dem Model Context Protocol Ecosystem beitreten

Gleichzeitig nimmt Google auch MCP an. Nur wenige Wochen nachdem OpenAI die Einführung von Anthropic’s Model Context Protocol (MCP) angekündigt hatte, zog Google nach und trat der Initiative bei.

Google DeepMind CEO Demis Hassabis gab auf X bekannt, dass Google die Unterstützung für MCP zu seinen Gemini-Modellen und SDKs hinzufügen wird, obwohl kein konkreter Zeitplan genannt wurde.

Hassabis erklärte: ‘MCP ist ein ausgezeichnetes Protokoll, das sich schnell zum offenen Standard für das Zeitalter der KI-Agenten entwickelt. Wir freuen uns darauf, mit dem MCP-Team und anderen Partnern in der Branche zusammenzuarbeiten, um die Entwicklung dieser Technologie voranzutreiben.’

Seit seiner Veröffentlichung im November 2024 hat MCP schnell an Popularität und breiter Aufmerksamkeit gewonnen und sich als einfache und standardisierte Möglichkeit herauskristallisiert, Sprachmodelle mit Tools und Daten zu verbinden.

MCP ermöglicht KI-Modellen den Zugriff auf Daten aus Datenquellen wie Enterprise-Tools und Software, um Aufgaben zu erledigen und auf Content-Bibliotheken und Anwendungsentwicklungsumgebungen zuzugreifen. Das Protokoll ermöglicht es Entwicklern, bidirektionale Verbindungen zwischen Datenquellen und KI-gesteuerten Anwendungen wie Chatbots herzustellen.

Entwickler können Datenschnittstellen über MCP-Server bereitstellen und MCP-Clients (wie Anwendungen und Workflows) erstellen, um sich mit diesen Servern zu verbinden. Seit Anthropic MCP als Open Source veröffentlicht hat, haben mehrere Unternehmen die MCP-Unterstützung in ihre Plattformen integriert.

Verbesserte Aufschlüsselung der Schlüsselkonzepte:

Um die Auswirkungen und Bedeutung der jüngsten Ankündigungen von Google weiter zu verdeutlichen, wollen wir tiefer in die Kernkomponenten eintauchen: Ironwood, A2A und MCP.

Ironwood: Ein tiefer Einblick in die Inferenz-Ära

Die Verlagerung von der primären Konzentration auf das Training von Modellen hin zur Optimierung für die Inferenz ist eine entscheidende Entwicklung in der KI-Landschaft. Das Training umfasst das Einspeisen großer Datenmengen in ein Modell, um ihm beizubringen, Muster zu erkennen und Vorhersagen zu treffen. Inferenz hingegen ist der Prozess der Verwendung eines trainierten Modells, um Vorhersagen über neue, unbekannte Daten zu treffen.

Während das Training ein ressourcenintensives, einmaliges (oder seltenes) Ereignis ist, findet die Inferenz kontinuierlich und in großem Maßstab in realen Anwendungen statt. Betrachten Sie Anwendungen wie:

  • Chatbots: Beantworten von Benutzeranfragen in Echtzeit.
  • Empfehlungssysteme: Vorschlagen von Produkten oder Inhalten basierend auf Benutzerpräferenzen.
  • Betrugserkennung: Identifizieren betrügerischer Transaktionen, sobald sie auftreten.
  • Bilderkennung: Analysieren von Bildern zur Identifizierung von Objekten, Personen oder Szenen.

Diese Anwendungen erfordern eine schnelle, effiziente Inferenz, um eine nahtlose Benutzererfahrung zu bieten. Ironwood wurde speziell entwickelt, um sich bei diesen Aufgaben auszuzeichnen.

Hauptvorteile von Ironwood für die Inferenz:

  • Hoher Durchsatz: Die enorme Rechenleistung (42,5 Exaflops) ermöglicht es Ironwood, ein großes Volumen von Inferenzanfragen gleichzeitig zu verarbeiten.
  • Geringe Latenz: Der High-Bandwidth Memory (HBM) und die effiziente Architektur minimieren die Zeit, die zum Verarbeiten jeder Inferenzanfrage benötigt wird.
  • Energieeffizienz: Die verbesserte Leistung pro Watt reduziert die Betriebskosten, die mit dem Ausführen von groß angelegten Inferenzbereitstellungen verbunden sind.

Durch die Optimierung für die Inferenz ermöglicht Google es Unternehmen, KI-gestützte Anwendungen effizienter und kostengünstiger bereitzustellen.

A2A: Die Grundlage für kollaborative KI

Das Agent-to-Agent (A2A)-Protokoll stellt einen bedeutenden Schritt hin zur Schaffung ausgefeilterer und kollaborativerer KI-Systeme dar. In einem Multi-Agent-System arbeiten mehrere KI-Agenten zusammen, um ein komplexes Problem zu lösen. Jeder Agent kann über eigene spezialisierte Fähigkeiten und Kenntnisse verfügen, und sie kommunizieren und koordinieren miteinander, um ein gemeinsames Ziel zu erreichen.

Betrachten Sie ein Szenario mit automatisiertem Kundensupport:

  • Agent 1: Versteht die erste Anfrage des Kunden und identifiziert das zugrunde liegende Problem.
  • Agent 2: Greift auf eine Wissensdatenbank zu, um relevante Informationen zu finden.
  • Agent 3: Vereinbart bei Bedarf einen Folgetermin mit einem menschlichen Agenten.

Diese Agenten müssen in der Lage sein, nahtlos zu kommunizieren und Informationen auszutauschen, um ein zusammenhängendes Kundenerlebnis zu bieten. A2A bietet den Rahmen für diese Art der Zusammenarbeit.

Hauptvorteile von A2A:

  • Interoperabilität: Ermöglicht die Kommunikation zwischen Agenten, die auf verschiedenen Plattformen und Frameworks entwickelt wurden.
  • Standardisierung: Bietet eine gemeinsame ‘Sprache’ und eine Reihe von Protokollen für die Agentenkommunikation.
  • Sicherheit: Gewährleistet eine sichere Kommunikation zwischen Agenten und schützt sensible Daten.
  • Flexibilität: Unterstützt ein breites Spektrum von Kommunikationsmodalitäten, darunter Text, Audio und Video.

Durch die Förderung der Zusammenarbeit zwischen KI-Agenten ermöglicht A2A die Entwicklung leistungsfähigerer und vielseitigerer KI-Systeme.

MCP: Überbrückung der Lücke zwischen KI und Daten

Das Model Context Protocol (MCP) adressiert die Herausforderung, KI-Modelle mit den riesigen Datenmengen zu verbinden, die erforderlich sind, um ihre Aufgaben effektiv auszuführen. KI-Modelle benötigen Zugriff auf Echtzeitdaten aus verschiedenen Quellen wie Datenbanken, APIs und Cloud-Diensten, um genaue Vorhersagen zu treffen und fundierte Entscheidungen zu treffen.

MCP bietet eine standardisierte Möglichkeit für KI-Modelle, auf diese Datenquellen zuzugreifen und mit ihnen zu interagieren. Es definiert eine Reihe von Protokollen für:

  • Datenermittlung: Identifizieren der verfügbaren Datenquellen.
  • Datenzugriff: Abrufen von Daten aus den Datenquellen.
  • Datentransformation: Konvertieren der Daten in ein Format, das das KI-Modell verstehen kann.

Durch die Bereitstellung einer standardisierten Schnittstelle für den Datenzugriff vereinfacht MCP den Prozess der Integration von KI-Modellen mit realen Daten.

Hauptvorteile von MCP:

  • Vereinfachte Integration: Erleichtert das Verbinden von KI-Modellen mit Datenquellen.
  • Standardisierung: Bietet eine gemeinsame Reihe von Protokollen für den Datenzugriff.
  • Erhöhte Effizienz: Reduziert den Zeit- und Arbeitsaufwand, der zum Zugreifen auf Daten und zum Transformieren von Daten erforderlich ist.
  • Verbesserte Genauigkeit: Ermöglicht KI-Modellen den Zugriff auf die aktuellsten Informationen, was zu genaueren Vorhersagen führt.

Indem MCP KI-Modelle mit den Daten verbindet, die sie benötigen, ermöglicht es ihnen, effektiver zu arbeiten und einen größeren Mehrwert zu liefern.