Krajobraz sztucznej inteligencji został na nowo zdefiniowany wraz z prezentacją przez Google siódmej generacji jednostki przetwarzania tensorów (TPU), ochrzczonej imieniem Ironwood. Ten najnowocześniejszy akcelerator AI szczyci się mocą obliczeniową, która przyćmiewa nawet najpotężniejsze superkomputery na świecie. Wdrożony na dużą skalę, potencjał Ironwooda przewyższa możliwości najszybszego superkomputera aż 24 razy.
Premiera Ironwooda podczas wydarzenia Google Cloud Next ‘25 to przełomowy moment w trwającym od dekady dążeniu Google do innowacji w dziedzinie chipów AI. Podczas gdy poprzednie iteracje TPU były przeznaczone głównie do obciążeń związanych z trenowaniem i wnioskowaniem modeli AI, Ironwood wyróżnia się jako pierwszy chip starannie zaprojektowany i zoptymalizowany do zadań związanych z wnioskowaniem.
Według Amina Vahdata, wiceprezesa i dyrektora generalnego ds. uczenia maszynowego, systemów i Cloud AI w Google, ‘Ironwood został zaprojektowany, aby napędzać następną fazę generatywnej sztucznej inteligencji, odpowiadając na jej ogromne wymagania obliczeniowe i komunikacyjne. Wkraczamy w to, co nazywamy ‘Erą Wnioskowania’, gdzie agenci AI będą proaktywnie pobierać i generować dane, aby wspólnie dostarczać spostrzeżenia i odpowiedzi, przewyższając możliwości zwykłego przetwarzania danych.’
Uwolnienie bezprecedensowej mocy obliczeniowej: Zanurzenie się w możliwości Ironwooda
Specyfikacje techniczne Ironwooda brzmią jak lista życzeń dla badaczy i programistów AI. Skalując się do poda składającego się z 9216 chipów, Ironwood dostarcza oszałamiające 42,5 eksaflopów mocy obliczeniowej AI. Aby to ująć w perspektywie, znacznie przewyższa to możliwości obecnego mistrza superkomputerów, El Capitana, który osiąga szczyt na poziomie 1,7 eksaflopów. Indywidualnie każdy chip Ironwooda szczyci się szczytową mocą obliczeniową wynoszącą 4614 TFLOPs.
Oprócz surowej mocy obliczeniowej Ironwood wprowadza znaczące ulepszenia w zakresie pamięci i przepustowości. Każdy chip jest wyposażony w 192 GB pamięci High Bandwidth Memory (HBM), co stanowi sześciokrotny wzrost w porównaniu z poprzednią generacją TPU, Trillium. Przepustowość pamięci również została radykalnie ulepszona, osiągając 7,2 terabitów/s na chip, czyli 4,5 razy więcej niż Trillium.
W erze, w której centra danych rozwijają się, a zużycie energii staje się coraz bardziej krytycznym czynnikiem, Ironwood demonstruje niezwykłą efektywność energetyczną. Jego wydajność na wat jest dwukrotnie wyższa niż Trillium i prawie 30 razy lepsza niż w przypadku początkowego TPU wprowadzonego w 2018 roku.
To przesunięcie w kierunku optymalizacji wnioskowania stanowi znaczący kamień milowy w ewolucji AI. W ostatnich latach wiodące laboratoria AI skupiły się na budowaniu modeli fundamentowych z coraz większą liczbą parametrów. Nacisk Google na optymalizację wnioskowania sygnalizuje przesunięcie w kierunku priorytetowego traktowania wydajności wdrożeniowej i możliwości wnioskowania w świecie rzeczywistym.
Podczas gdy trenowanie modeli AI jest stosunkowo rzadką czynnością, operacje wnioskowania mają miejsce miliardy razy dziennie, ponieważ technologie AI stają się coraz bardziej rozpowszechnione. Opłacalność biznesów opartych na AI jest nierozerwalnie związana z kosztami wnioskowania, zwłaszcza gdy modele stają się coraz bardziej złożone.
W ciągu ostatnich ośmiu lat zapotrzebowanie Google na moc obliczeniową AI rosło wykładniczo, zwiększając się dziesięciokrotnie i osiągając oszałamiającą liczbę 100 milionów. Bez wyspecjalizowanych architektur, takich jak Ironwood, samo prawo Moore’a nie może utrzymać tej ścieżki wzrostu.
Nacisk Google na ‘modele rozumowania’ zdolne do złożonych zadań wnioskowania, a nie do prostego rozpoznawania wzorców, jest szczególnie godny uwagi. Sugeruje to, że Google przewiduje przyszłość, w której AI wyróżnia się nie tylko poprzez większe modele, ale także poprzez modele zdolne do rozkładania problemów, przeprowadzania wieloetapowego rozumowania i naśladowania procesów myślowych podobnych do ludzkich.
Zasilanie następnej generacji dużych modeli językowych
Google pozycjonuje Ironwooda jako podstawową infrastrukturę dla swoich najbardziej zaawansowanych modeli AI, w tym Gemini 2.5, który szczyci się ‘natywnymi możliwościami rozumowania’.
Oprócz Ironwooda Google zaprezentowało Gemini 2.5 Flash, usprawnioną wersję swojego flagowego modelu, zaprojektowaną do codziennych aplikacji wrażliwych na opóźnienia. Gemini 2.5 Flash może dynamicznie dostosowywać głębokość rozumowania w zależności od złożoności podpowiedzi.
Google zaprezentowało również swój pakiet multimodalnych modeli generatywnych, obejmujących funkcje tekst-obraz, tekst-wideo i nowo wprowadzoną funkcję tekst-muzyka, Lyria. Przekonująca demonstracja pokazała, jak te narzędzia można łączyć, aby stworzyć kompletny film promocyjny koncertu.
Ironwood to tylko jeden element kompleksowej strategii infrastruktury AI Google. Firma wprowadziła również Cloud WAN, zarządzaną usługę rozległej sieci, która umożliwia firmom korzystanie z prywatnej infrastruktury sieciowej Google o zasięgu globalnym.
Google rozszerza również swoją ofertę oprogramowania dla obciążeń AI, w tym Pathways, środowisko wykonawcze uczenia maszynowego opracowane przez Google DeepMind, które pozwala klientom skalować obsługę modeli na setkach TPU.
Wizja inteligentnej współpracy: Wprowadzenie obsługi A2A i MCP
Oprócz postępu w sprzęcie Google przedstawiło swoją wizję AI skoncentrowaną wokół systemów multiagentowych i wprowadziło protokół Agent-to-Agent (A2A), zaprojektowany w celu wspierania bezpiecznej i standardowej komunikacji między różnymi agentami AI.
Google przewiduje, że rok 2025 będzie rokiem transformacji dla AI, a aplikacje generatywnej AI ewoluują od odpowiadania na pojedyncze pytania do rozwiązywania złożonych problemów za pośrednictwem połączonych systemów agentów.
Protokół A2A umożliwia interoperacyjność między platformami i frameworkami, zapewniając agentom AI wspólny ‘język’ i bezpieczne kanały komunikacji. Pomyśl o tym jak o warstwie sieci dla agentów AI, upraszczającej współpracę w złożonych przepływach pracy i umożliwiającej wyspecjalizowanym agentom AI wspólne wykonywanie zadań o różnej złożoności i czasie trwania, zwiększając w ten sposób ogólne możliwości poprzez współpracę.
Jak działa A2A
Google przedstawiło porównawcze omówienie protokołów MCP i A2A:
- MCP (Model Context Protocol): Koncentruje się na zarządzaniu narzędziami i zasobami.
- Łączy agentów z narzędziami, interfejsami API i zasobami za pośrednictwem ustrukturyzowanego wejścia/wyjścia.
- Google ADK obsługuje narzędzia MCP, ułatwiając bezproblemową interakcję między serwerami MCP i agentami.
- A2A (Agent2Agent Protocol): Ułatwia współpracę między agentami.
- Umożliwia dynamiczną, multimodalną komunikację między agentami bez konieczności współdzielenia pamięci, zasobów lub narzędzi.
- Jest to otwarty standard napędzany przez społeczność.
- Przykłady można znaleźć za pomocą narzędzi takich jak Google ADK, LangGraph i Crew.AI.
A2A i MCP wzajemnie się uzupełniają. MCP wyposaża agentów w narzędzia, podczas gdy A2A umożliwia tym wyposażonym agentom rozmawianie i współpracę.
Wstępna lista partnerów Google sugeruje, że A2A zyska podobną uwagę jak MCP. Inicjatywa przyciągnęła już ponad 50 organizacji, w tym wiodące firmy technologiczne oraz globalnych dostawców usług konsultingowych i integracji systemów.
Google podkreśla otwartość protokołu, pozycjonując go jako standard współpracy między agentami, który wykracza poza podstawowe frameworki technologiczne lub dostawców usług. Google podkreśliło pięć zasad przewodnich, które ukształtowały projekt protokołu:
- Wykorzystaj możliwości agentów: A2A priorytetowo traktuje umożliwienie agentom naturalnej współpracy, nawet bez współdzielenia pamięci, narzędzi lub kontekstu. Celem jest umożliwienie prawdziwych scenariuszy multiagentowych, a nie po prostu ograniczenie agentów do roli ‘narzędzi’.
- Opieraj się na istniejących standardach: Protokół wykorzystuje istniejące, szeroko przyjęte standardy, w tym HTTP, SSE i JSON-RPC, upraszczając integrację z istniejącymi stosami IT.
- Bezpieczeństwo domyślne: A2A jest zaprojektowany do obsługi uwierzytelniania i autoryzacji klasy korporacyjnej, porównywalnej ze schematami uwierzytelniania OpenAPI.
- Obsługa długotrwałych zadań: Elastyczność A2A pozwala na obsługę szerokiego zakresu scenariuszy, od szybkich zadań po dogłębne badania, które mogą trwać godzinami, a nawet dniami (zwłaszcza gdy wymagane jest zaangażowanie człowieka). Przez cały proces A2A może zapewniać użytkownikom informacje zwrotne w czasie rzeczywistym, powiadomienia i aktualizacje statusu.
- Agnostyczność modalności: Uznając, że świat agentów wykracza poza tekst, A2A obsługuje różne modalności, w tym strumienie audio i wideo.
Google podało przykład, jak A2A usprawnia proces rekrutacji.
W ujednoliconym interfejsie, takim jak Agentspace, menedżer ds. rekrutacji może przypisać agenta do identyfikacji odpowiednich kandydatów na podstawie wymagań stanowiska. Ten agent może wchodzić w interakcje z wyspecjalizowanymi agentami w celu pozyskiwania kandydatów. Użytkownicy mogą również instruować agentów, aby planowali rozmowy kwalifikacyjne i angażowali innych wyspecjalizowanych agentów do pomocy w sprawdzaniu przeszłości, umożliwiając w pełni zautomatyzowaną i inteligentną rekrutację w systemach.
Wykorzystanie Model Context Protocol (MCP)
Google również wykorzystuje MCP. Krótko po tym, jak OpenAI ogłosiło przyjęcie Model Context Protocol (MCP) firmy Anthropic, Google poszło w jego ślady.
Demis Hassabis, dyrektor generalny Google DeepMind, ogłosił na X (dawniej Twitter), że Google doda obsługę MCP w swoich modelach Gemini i SDK, chociaż nie podał konkretnego harmonogramu.
Hassabis stwierdził, że ‘MCP to doskonały protokół, który szybko staje się otwartym standardem dla ery agentów AI. Z niecierpliwością czekamy na współpracę z zespołem MCP i innymi partnerami w branży, aby rozwijać tę technologię.’
Od czasu premiery w listopadzie 2024 r. MCP zyskał znaczną popularność jako prosty, ustandaryzowany sposób łączenia modeli językowych z narzędziami i danymi.
MCP umożliwia modelom AI dostęp do danych z narzędzi i oprogramowania korporacyjnego w celu wykonywania zadań oraz uzyskiwania dostępu do bibliotek zawartości i środowisk programistycznych. Protokół umożliwia programistom tworzenie dwukierunkowych połączeń między źródłami danych a aplikacjami opartymi na AI, takimi jak chatboty.
Programiści mogą udostępniać interfejsy danych za pośrednictwem serwerów MCP i budować klientów MCP (takich jak aplikacje i przepływy pracy) w celu łączenia się z tymi serwerami. Ponieważ Anthropic udostępniło MCP jako otwarte oprogramowanie, kilka firm zintegrowało obsługę MCP ze swoimi platformami.
Ironwood: Początek nowej ery w AI
Ironwood TPU firmy Google stanowi znaczący krok naprzód w obliczeniach AI. Jego bezprecedensowa wydajność, zoptymalizowana architektura i obsługa wschodzących protokołów, takich jak A2A i MCP, pozycjonują go jako kluczowy czynnik umożliwiający kolejną falę innowacji w dziedzinie AI. Wraz ze wzrostem złożoności i wymagań modeli AI, Ironwood zapewnia surową moc i elastyczność potrzebną do odblokowania nowych możliwości i przekształcenia branż na całym świecie. To nie tylko nowy chip; to fundament przyszłości opartej na inteligentnych maszynach współpracujących w celu rozwiązywania złożonych problemów i poprawy naszego życia.