W krajobrazie sztucznej inteligencji (AI), który nieustannie ewoluuje, postęp w dziedzinie sprzętu odgrywa kluczową rolę w odblokowywaniu nowych możliwości. Google, lider innowacji w dziedzinie AI, niedawno zaprezentował swoją siódmą generację Tensor Processing Unit (TPU), o nazwie kodowej Ironwood, co stanowi znaczący krok naprzód w możliwościach obliczeniowych AI. Ten najnowocześniejszy akcelerator AI szczyci się mocą obliczeniową, która przewyższa nawet najszybsze superkomputery na świecie o oszałamiający współczynnik 24 wdrożeń na dużą skalę.
Ironwood, ogłoszony na konferencji Google Cloud Next ‘25, stanowi strategiczny zwrot w dziesięcioletniej historii rozwoju układów AI firmy Google. W przeciwieństwie do swoich poprzedników, które były przeznaczone głównie do zadań związanych z uczeniem i wnioskowaniem AI, Ironwood został specjalnie zaprojektowany do doskonałości w zadaniach wnioskowania, zwiastując nową erę aplikacji opartych na AI.
Według Amina Vahdata, wiceprezesa i dyrektora generalnego ds. uczenia maszynowego, systemów i Cloud AI w Google, ‘Ironwood został zaprojektowany, aby wspierać następną fazę generatywnej AI oraz jej ogromne wymagania obliczeniowe i komunikacyjne. To właśnie nazywamy ‘Erą Wnioskowania’, w której agenci AI będą proaktywnie pobierać i generować dane, aby wspólnie dostarczać spostrzeżenia i odpowiedzi, a nie tylko dane’.
Odkrywanie Bezprecedensowych Możliwości Ironwood
Specyfikacje techniczne Ironwood są wręcz niezwykłe. Po przeskalowaniu do klastra 9 216 układów, może dostarczyć oszałamiające 42,5 eksaflopów mocy obliczeniowej AI. Liczba ta przyćmiewa 1,7 eksaflopów oferowanych przez El Capitana, obecnego posiadacza tytułu najszybszego superkomputera na świecie. Każdy indywidualny układ Ironwood szczyci się szczytową mocą obliczeniową wynoszącą 4 614 TFLOPs.
Poza samą mocą obliczeniową, Ironwood oferuje również znaczne ulepszenia w zakresie pamięci i przepustowości. Każdy układ jest wyposażony w 192 GB pamięci o dużej przepustowości (HBM), co stanowi sześciokrotny wzrost w porównaniu z TPU poprzedniej generacji, Trillium, który został wydany w zeszłym roku. Ponadto przepustowość pamięci na układ osiąga 7,2 terabitów/s, co stanowi 4,5-krotną poprawę w stosunku do Trillium.
W erze, w której centra danych się rozrastają, a zużycie energii staje się krytycznym problemem, Ironwood wyróżnia się również energooszczędnością. Jego wydajność na wat jest dwukrotnie wyższa niż w przypadku Trillium i prawie 30 razy wyższa niż w przypadku pierwszego TPU wprowadzonego w 2018 roku.
Nacisk na optymalizację wnioskowania oznacza zasadniczą zmianę w krajobrazie AI. W ostatnich latach wiodące laboratoria AI skupiały się przede wszystkim na budowaniu coraz większych modeli podstawowych z rosnącą liczbą parametrów. Nacisk Google na optymalizację wnioskowania sugeruje przejście do nowej fazy skupionej na wydajności wdrażania i możliwościach wnioskowania.
Chociaż uczenie modeli pozostaje kluczowe, liczba iteracji uczenia jest skończona. W przeciwieństwie do tego, ponieważ technologie AI są coraz bardziej zintegrowane z różnymi aplikacjami, oczekuje się, że operacje wnioskowania będą wykonywane miliardy razy dziennie. Wraz ze wzrostem złożoności modeli, ekonomiczna rentowność tych aplikacji staje się nierozerwalnie związana z kosztami wnioskowania.
W ciągu ostatnich ośmiu lat zapotrzebowanie Google na obliczenia AI wzrosło dziesięciokrotnie, osiągając oszałamiającą liczbę 100 milionów. Bez wyspecjalizowanych architektur, takich jak Ironwood, nawet nieustanny postęp prawa Moore’a miałby trudności z nadążeniem za tym wykładniczym wzrostem.
Warto zauważyć, że ogłoszenie Google podkreśla jego skupienie się na ‘modelach mentalnych’ zdolnych do wykonywania złożonych zadań rozumowania, a nie tylko prostego rozpoznawania wzorców. Sugeruje to, że Google przewiduje przyszłość, w której AI wykracza poza większe modele i obejmuje modele, które mogą dekomponować problemy, wykonywać wieloetapowe rozumowanie i naśladować ludzkie procesy myślowe.
Zasilanie Następnej Generacji Dużych Modeli
Google pozycjonuje Ironwood jako podstawową infrastrukturę dla swoich najbardziej zaawansowanych modeli AI, w tym Gemini 2.5, który szczyci się natywnie wbudowanymi możliwościami rozumowania.
Google wprowadził również niedawno Gemini 2.5 Flash, mniejszy wariant swojego flagowego modelu, przeznaczony do codziennych aplikacji wrażliwych na opóźnienia. Gemini 2.5 Flash może dynamicznie dostosowywać głębokość rozumowania w oparciu o złożoność monitu.
Google zaprezentował również swój kompleksowy zestaw multimodalnych modeli generatywnych, w tym tekst-na-obraz, tekst-na-wideo i nowo zaprezentowaną funkcję tekst-na-muzykę, Lyria. Prezentacja zilustrowała, w jaki sposób te narzędzia można połączyć, aby wyprodukować kompletny film promocyjny koncertu.
Ironwood to tylko jeden z elementów szerszej strategii infrastruktury AI firmy Google. Google ogłosił również Cloud WAN, zarządzaną usługę sieci rozległej, która umożliwia przedsiębiorstwom dostęp do globalnej prywatnej infrastruktury sieciowej Google.
Ponadto Google rozszerza swoją ofertę oprogramowania dla obciążeń AI, w tym Pathways, środowisko uruchomieniowe uczenia maszynowego opracowane przez Google DeepMind. Pathways umożliwia teraz klientom skalowanie obsługi modeli na setkach TPU.
Wspieranie Współpracy Agentów AI z A2A
Oprócz postępu w sprzęcie, Google nakreślił również swoją wizję ekosystemu AI skupionego wokół systemów wieloagentowych. Aby ułatwić rozwój inteligentnych agentów, Google wprowadził protokół Agent-to-Agent (A2A), zaprojektowany w celu umożliwienia bezpiecznej i standardowej komunikacji między różnymi agentami AI.
Google uważa, że rok 2025 będzie rokiem transformacji dla AI, a aplikacje generatywnej AI ewoluują od odpowiadania na pojedyncze pytania do rozwiązywania złożonych problemów za pośrednictwem systemów agentów.
Protokół A2A umożliwia interoperacyjność między agentami na różnych platformach i ramach, zapewniając im wspólny ‘język’ i bezpieczne kanały komunikacji. Protokół ten można postrzegać jako warstwę sieciową dla inteligentnych agentów, mającą na celu uproszczenie współpracy agentów w złożonych przepływach pracy. Umożliwiając wyspecjalizowanym agentom AI współpracę nad zadaniami o różnej złożoności i czasie trwania, A2A ma na celu zwiększenie ogólnych możliwości poprzez współpracę.
A2A działa poprzez ustanowienie standardowego sposobu wymiany informacji i koordynowania działań przez agentów, bez konieczności udostępniania przez nich bazowego kodu lub struktur danych. Umożliwia to tworzenie bardziej modułowych i elastycznych systemów AI, w których agenci mogą być łatwo dodawani, usuwani lub rekonfigurowani w razie potrzeby.
Google porównał protokoły MCP i A2A w poście na blogu.
- MCP (Model Context Protocol) jest przeznaczony do zarządzania narzędziami i zasobami.
- Łączy agentów z narzędziami, interfejsami API i zasobami za pośrednictwem ustrukturyzowanego wejścia/wyjścia.
- Google ADK obsługuje narzędzia MCP, umożliwiając różnym serwerom MCP pracę z agentami.
- A2A (Agent2Agent Protocol) jest przeznaczony do współpracy między agentami.
- Umożliwia dynamiczną, multimodalną komunikację między agentami bez udostępniania pamięci, zasobów lub narzędzi.
- Jest to otwarty standard napędzany przez społeczność.
- Przykłady można wyświetlić za pomocą Google ADK, LangGraph, Crew.AI i innych narzędzi.
Zasadniczo A2A i MCP uzupełniają się: MCP zapewnia agentom wsparcie narzędziowe, a A2A umożliwia tym agentom wyposażonym w narzędzia komunikację i współpracę ze sobą.
Oceniając po wstępnych partnerach, A2A wydaje się gotowy do zebrania podobnej uwagi jak MCP. Ponad 50 firm dołączyło do wstępnej współpracy, w tym wiodące firmy technologiczne i czołowi globalni dostawcy usług doradczych i integracji systemów.
Google podkreśla otwartość protokołu, pozycjonując go jako standardowy sposób współpracy agentów, niezależnie od bazowej ramy technologicznej lub dostawcy usług. Google nakreślił pięć kluczowych zasad, które kierowały projektowaniem protokołu we współpracy z jego partnerami:
- Wykorzystaj Możliwości Agenta: A2A koncentruje się na umożliwieniu agentom współpracy w ich naturalny, nieustrukturyzowany sposób, nawet jeśli nie udostępniają pamięci, narzędzi i kontekstu. Protokół ma na celu umożliwienie prawdziwych scenariuszy wieloagentowych, zamiast ograniczania agentów do bycia jedynie ‘narzędziami’.
- Buduj na Istniejących Standardach: Protokół opiera się na istniejących popularnych standardach, w tym HTTP, SSE i JSON-RPC, co ułatwia integrację z istniejącymi stosami IT powszechnie używanymi przez przedsiębiorstwa.
- Bezpieczny Domyślnie: A2A został zaprojektowany do obsługi uwierzytelniania i autoryzacji klasy korporacyjnej, porównywalnych do schematów uwierzytelniania OpenAPI w momencie uruchomienia.
- Obsługa Długotrwałych Zadań: A2A został zaprojektowany tak, aby był elastyczny, obsługując szeroki zakres scenariuszy, od szybkich zadań po dogłębne badania, które mogą trwać godziny, a nawet dni (gdy zaangażowani są ludzie). Przez cały proces A2A może zapewniać użytkownikom informacje zwrotne w czasie rzeczywistym, powiadomienia i aktualizacje statusu.
- Agnostyczny Modality: Świat agentów nie ogranicza się do tekstu, dlatego A2A został zaprojektowany do obsługi różnych modalności, w tym strumieni audio i wideo.
Google podaje przykład, jak A2A może znacznie usprawnić proces rekrutacji.
W ujednoliconym interfejsie, takim jak Agentspace, menedżer ds. rekrutacji może przypisać agenta do znalezienia odpowiednich kandydatów na podstawie wymagań dotyczących stanowiska. Ten agent może wchodzić w interakcje z wyspecjalizowanymi agentami w celu pozyskiwania kandydatów, planowania rozmów kwalifikacyjnych, a nawet angażowania innych wyspecjalizowanych agentów do pomocy w sprawdzaniu przeszłości, umożliwiając inteligentną automatyzację całego procesu rekrutacji w różnych systemach.
Korzystanie z Protokołu Kontekstu Modelu (MCP)
Oprócz wysiłków w rozwój A2A, Google korzysta również z Protokołu Kontekstu Modelu (MCP). Zaledwie kilka tygodni po tym, jak OpenAI ogłosił przyjęcie MCP, Google poszedł w jego ślady.
Demis Hassabis, dyrektor generalny Google DeepMind, ogłosił niedawno na X, że Google doda obsługę MCP do swoich modeli Gemini i zestawów SDK. Nie podał jednak konkretnego harmonogramu.
Hassabis stwierdził, że ‘MCP to doskonały protokół, który szybko staje się otwartym standardem dla ery agentów AI. Nie mogę się doczekać współpracy z zespołem MCP i innymi partnerami w branży, aby rozwijać tę technologię’.
Od czasu premiery w listopadzie 2024 roku, MCP szybko zyskał popularność, stając się prostym i standardowym sposobem łączenia modeli językowych z narzędziami i danymi.
MCP umożliwia modelom AI dostęp do danych ze źródeł, takich jak narzędzia i oprogramowanie dla przedsiębiorstw, w celu wykonywania zadań, a także dostęp do bibliotek treści i środowisk programistycznych. Protokół umożliwia programistom ustanawianie dwukierunkowych połączeń między źródłami danych a aplikacjami opartymi na AI, takimi jak chatboty.
Programiści mogą udostępniać interfejsy danych za pośrednictwem serwerów MCP i budować klientów MCP (takich jak aplikacje i przepływy pracy) w celu łączenia się z tymi serwerami. Ponieważ Anthropic udostępnił MCP jako open source, wiele firm zintegrowało obsługę MCP ze swoimi platformami.