Wraz z prezentacją siódmej generacji jednostki przetwarzania tensorów (TPU) Google, znanej jako Ironwood, krajobraz przetwarzania sztucznej inteligencji (AI) uległ znaczącej zmianie. Ten najnowocześniejszy akcelerator AI charakteryzuje się możliwościami obliczeniowymi, które w zastosowaniach na dużą skalę przewyższają najszybszy superkomputer na świecie ponad 24-krotnie.
Ten nowy chip, zaprezentowany na konferencji Google Cloud Next ‘25, stanowi przełomowy moment w dziesięcioletniej strategii Google w zakresie rozwoju chipów AI. W przeciwieństwie do swoich poprzedników, które były przeznaczone głównie do obciążeń związanych z trenowaniem i wnioskowaniem AI, Ironwood jest specjalnie zaprojektowany do wnioskowania, co sygnalizuje strategiczne przesunięcie w kierunku optymalizacji efektywności wdrażania AI.
Amin Vahdat, wiceprezes i dyrektor generalny ds. uczenia maszynowego, systemów i chmury AI w Google, podkreślił to przejście, stwierdzając: ‘Ironwood został zaprojektowany, aby wspierać następną fazę generatywnej AI i jej ogromne zapotrzebowanie na moc obliczeniową i komunikację. To jest to, co nazywamy ‘Erą Wnioskowania’, gdzie agenci AI będą proaktywnie pobierać i generować dane, aby wspólnie dostarczać spostrzeżenia i odpowiedzi, a nie jedynie przetwarzać dane.’
Przełamywanie Barier z 42,5 Eksafloppami Mocy Obliczeniowej
Specyfikacje techniczne Ironwood są naprawdę imponujące. Skalowany do podu 9216 chipów, zapewnia oszałamiające 42,5 eksaflopów obliczeń AI. Aby to zobrazować, przyćmiewa obecny najszybszy superkomputer na świecie, El Capitan, który działa z prędkością 1,7 eksaflopa. Każdy pojedynczy chip Ironwood może osiągnąć szczytową moc obliczeniową 4614 TFLOPs.
Oprócz samej mocy obliczeniowej, Ironwood znacznie zwiększa pamięć i przepustowość. Każdy chip jest wyposażony w 192 GB pamięci o dużej przepustowości (HBM), co stanowi sześciokrotny wzrost w porównaniu z poprzednią generacją TPU, Trillium, wydaną w zeszłym roku. Przepustowość pamięci na chip osiąga 7,2 terabitów/s, czyli 4,5 razy więcej niż Trillium.
- Moc obliczeniowa: 42,5 eksaflopów (na pod 9216 chipów)
- Szczytowa moc obliczeniowa na chip: 4614 TFLOPs
- Pamięć: 192 GB HBM na chip
- Przepustowość pamięci: 7,2 terabitów/s na chip
W erze, w której centra danych się rozrastają, a zużycie energii jest coraz większym problemem, Ironwood wykazuje również znaczne ulepszenia w zakresie efektywności energetycznej. Oferuje dwukrotnie większą wydajność na wat w porównaniu z Trillium i prawie 30 razy większą niż pierwszy TPU wprowadzony w 2018 roku.
Ta optymalizacja pod kątem wnioskowania sygnalizuje krytyczny punkt zwrotny w ewolucji AI. W ostatnich latach wiodące laboratoria AI koncentrowały się na opracowywaniu coraz większych modeli bazowych z coraz większą liczbą parametrów. Skupienie się Google na optymalizacji wnioskowania sugeruje przejście w kierunku nowego paradygmatu skoncentrowanego na efektywności wdrażania i możliwościach wnioskowania.
Chociaż trenowanie modeli pozostaje niezbędne, operacje wnioskowania są znacznie częstsze, występują miliardy razy dziennie, ponieważ technologie AI stają się coraz bardziej powszechne. Dla firm wykorzystujących AI ekonomia jest nierozerwalnie związana z kosztami wnioskowania, ponieważ modele stają się bardziej złożone.
Zapotrzebowanie Google na moc obliczeniową AI wzrosło dziesięciokrotnie w ciągu ostatnich ośmiu lat, osiągając oszałamiającą liczbę 100 milionów. Bez wyspecjalizowanych architektur, takich jak Ironwood, niemożliwe byłoby utrzymanie tej ścieżki wzrostu poprzez tradycyjne postępy w prawie Moore’a.
Warto zauważyć, że ogłoszenie Google’a podkreślało skupienie się na ‘modelach rozumowania’ zdolnych do wykonywania złożonych zadań wnioskowania, a nie prostego rozpoznawania wzorców. Sugeruje to przekonanie, że przyszłość AI leży nie tylko w większych modelach, ale także w modelach zdolnych do rozkładania problemów, angażowania się w wieloetapowe rozumowanie i emulowania procesów myślowych podobnych do ludzkich.
Zasilanie Modeli Dużych Następnej Generacji
Google pozycjonuje Ironwood jako podstawową infrastrukturę dla swoich najbardziej zaawansowanych modeli AI, w tym własnego Gemini 2.5, który szczyci się ‘natywnymi zdolnościami rozumowania’.
Firma niedawno wprowadziła również Gemini 2.5 Flash, mniejszą wersję swojego flagowego modelu, zaprojektowaną do ‘dostosowywania głębokości rozumowania w oparciu o złożoność zapytania’. Model ten jest przeznaczony do codziennych aplikacji wymagających szybkiego czasu reakcji.
Google zaprezentował ponadto swój kompleksowy zestaw multimodalnych modeli generowania, obejmujących tekst na obraz, tekst na wideo i nowo zaprezentowaną możliwość tekst na muzykę, Lyria. Demonstracja pokazała, jak te narzędzia można łączyć, aby stworzyć kompletny film promocyjny koncertu.
Ironwood to tylko jeden z elementów szerszej strategii Google w zakresie infrastruktury AI. Firma ogłosiła również Cloud WAN, zarządzaną usługę sieci rozległej, która zapewnia przedsiębiorstwom dostęp do globalnej infrastruktury sieci prywatnej Google.
Google rozszerza również swoją ofertę oprogramowania dla obciążeń AI, w tym Pathways, środowisko uruchomieniowe uczenia maszynowego opracowane przez Google DeepMind. Pathways umożliwia teraz klientom skalowanie obsługi modelu na setkach TPU.
Wprowadzenie A2A: Wspieranie Ekosystemu Inteligentnej Współpracy Agentów
Oprócz postępów w sprzęcie, Google przedstawił swoją wizję AI skoncentrowaną wokół systemów wieloagentowych, ujawniając protokół ułatwiający rozwój inteligentnych agentów: Agent-to-Agent (A2A). Protokół ten ma na celu promowanie bezpiecznej i ustandaryzowanej komunikacji między różnymi agentami AI.
Google uważa, że 2025 rok będzie rokiem transformacji dla AI, a zastosowanie generatywnej AI ewoluuje od odpowiadania na pojedyncze pytania do rozwiązywania złożonych problemów za pomocą inteligentnych systemów agentów.
Protokół A2A umożliwia interoperacyjność między platformami i frameworkami, zapewniając agentom wspólny ‘język’ i bezpieczne kanały komunikacji. Protokół ten można postrzegać jako warstwę sieciową dla inteligentnych agentów, której celem jest uproszczenie współpracy agentów w złożonych przepływach pracy. Umożliwia wyspecjalizowanym agentom AI współpracę nad zadaniami o różnym stopniu złożoności i czasie trwania, ostatecznie zwiększając ogólne możliwości dzięki współpracy.
Jak Działa A2A
Google przedstawił porównanie protokołów MCP i A2A w swoim wpisie na blogu:
- MCP (Model Context Protocol): Do zarządzania narzędziami i zasobami
- Łączy agentów z narzędziami, interfejsami API i zasobami za pomocą ustrukturyzowanego wejścia/wyjścia.
- Google ADK obsługuje narzędzia MCP, umożliwiając różnym serwerom MCP pracę z agentami.
- A2A (Agent2Agent Protocol): Do współpracy między agentami
- Umożliwia dynamiczną, multimodalną komunikację między agentami bez udostępniania pamięci, zasobów lub narzędzi.
- Otwarty standard napędzany przez społeczność.
- Przykłady można przeglądać za pomocą narzędzi takich jak Google ADK, LangGraph i Crew.AI.
Zasadniczo A2A i MCP są komplementarne. MCP zapewnia agentom obsługę narzędzi, podczas gdy A2A pozwala tym wyposażonym agentom komunikować się i współpracować ze sobą.
Lista partnerów ogłoszona przez Google sugeruje, że A2A zyska podobną uwagę jak MCP. Inicjatywa przyciągnęła już ponad 50 firm do swojej wstępnej kohorty współpracy, w tym wiodące firmy technologiczne i najlepsi globalni dostawcy usług konsultingowych i integracji systemów.
Google podkreślił otwartość protokołu, pozycjonując go jako standardową metodę współpracy agentów, niezależną od podstawowych frameworków technologicznych lub dostawców usług. Firma oświadczyła, że przestrzega następujących pięciu kluczowych zasad przy projektowaniu protokołu ze swoimi partnerami:
- Wykorzystaj Możliwości Agenta: A2A koncentruje się na umożliwieniu agentom współpracy w ich naturalny, nieustrukturyzowany sposób, nawet jeśli nie udostępniają pamięci, narzędzi i kontekstu. Celem jest umożliwienie prawdziwych scenariuszy wieloagentowych bez ograniczania agentów do zwykłych ‘narzędzi’.
- Buduj na Istniejących Standardach: Protokół opiera się na istniejących popularnych standardach, w tym HTTP, SSE i JSON-RPC, co ułatwia integrację z istniejącymi stosami IT używanymi przez przedsiębiorstwa.
- Bezpieczny Domyślnie: A2A został zaprojektowany w celu obsługi uwierzytelniania i autoryzacji klasy korporacyjnej, porównywalnych ze schematami uwierzytelniania OpenAPI w momencie uruchomienia.
- Obsługa Długotrwałych Zadań: A2A został zaprojektowany z elastycznością, aby obsługiwać szeroki zakres scenariuszy, od szybkich zadań po dogłębne badania, które mogą trwać godzinami, a nawet dniami (gdy zaangażowani są ludzie). W trakcie procesu A2A może dostarczać użytkownikom informacje zwrotne w czasie rzeczywistym, powiadomienia i aktualizacje statusu.
- Agnostyczny Modalnie: Świat agentów nie ogranicza się do tekstu, dlatego A2A został zaprojektowany w celu obsługi różnych modalności, w tym strumieni audio i wideo.
Przykład: Usprawniony Proces Rekrutacji za Pomocą A2A
Przykład podany przez Google ilustruje, jak A2A może znacznie usprawnić proces rekrutacji.
W ramach ujednoliconego interfejsu, takiego jak Agentspace, menedżer ds. rekrutacji może przypisać agenta do znalezienia odpowiednich kandydatów w oparciu o wymagania dotyczące stanowiska. Agent ten może wchodzić w interakcje ze specjalistycznymi agentami w określonych dziedzinach, aby zakończyć pozyskiwanie kandydatów. Użytkownik może również polecić agentowi zaplanowanie rozmów kwalifikacyjnych i włączenie innych wyspecjalizowanych agentów do pomocy w sprawdzaniu przeszłości, umożliwiając w ten sposób w pełni zautomatyzowaną, międzysystemową współpracę w zakresie rekrutacji.
Korzystanie z MCP: Dołączenie do Ekosystemu Model Context Protocol
Równocześnie Google korzysta również z MCP. Zaledwie kilka tygodni po tym, jak OpenAI ogłosiło przyjęcie Model Context Protocol (MCP) Anthropic, Google poszedł w jego ślady i dołączył do inicjatywy.
Dyrektor generalny Google DeepMind, Demis Hassabis, ogłosił na X, że Google doda obsługę MCP do swoich modeli Gemini i zestawów SDK, chociaż nie podano konkretnego harmonogramu.
Hassabis stwierdził: ‘MCP to doskonały protokół, który szybko staje się otwartym standardem dla ery agentów AI. Z niecierpliwością czekamy na współpracę z zespołem MCP i innymi partnerami w branży, aby przyspieszyć rozwój tej technologii.’
Od czasu swojej premiery w listopadzie 2024 r. MCP szybko zyskał popularność i powszechne zainteresowanie, stając się prostym i ustandaryzowanym sposobem łączenia modeli językowych z narzędziami i danymi.
MCP umożliwia modelom AI dostęp do danych ze źródeł danych, takich jak narzędzia i oprogramowanie korporacyjne, w celu wykonywania zadań oraz dostęp do bibliotek zawartości i środowisk programistycznych aplikacji. Protokół umożliwia programistom nawiązywanie dwukierunkowych połączeń między źródłami danych i aplikacjami opartymi na AI, takimi jak chatboty.
Programiści mogą udostępniać interfejsy danych za pośrednictwem serwerów MCP i budować klientów MCP (takich jak aplikacje i przepływy pracy), aby łączyć się z tymi serwerami. Ponieważ Anthropic udostępnił MCP na zasadach open source, kilka firm zintegrowało obsługę MCP ze swoimi platformami.
Rozszerzona Analiza Kluczowych Koncepcji:
Aby jeszcze bardziej wyjaśnić wpływ i znaczenie ostatnich ogłoszeń Google, zagłębmy się w podstawowe komponenty: Ironwood, A2A i MCP.
Ironwood: Głębokie Zanurzenie w Erę Wnioskowania
Przejście od skupiania się przede wszystkim na trenowaniu modeli do optymalizacji pod kątem wnioskowania jest kluczową ewolucją w krajobrazie AI. Trenowanie polega na wprowadzaniu ogromnych ilości danych do modelu, aby nauczyć go rozpoznawania wzorców i dokonywania prognoz. Wnioskowanie, z drugiej strony, to proces wykorzystywania wytrenowanego modelu do dokonywania prognoz na podstawie nowych, niewidocznych danych.
Chociaż trenowanie jest zasobochłonnym, jednorazowym (lub sporadycznym) zdarzeniem, wnioskowanie odbywa się w sposób ciągły i na dużą skalę w rzeczywistych zastosowaniach. Rozważ aplikacje takie jak:
- Chatboty: Odpowiadanie na zapytania użytkowników w czasie rzeczywistym.
- Systemy Rekomendacji: Sugerowanie produktów lub treści na podstawie preferencji użytkownika.
- Wykrywanie Oszustw: Identyfikacja oszukańczych transakcji w miarę ich występowania.
- Rozpoznawanie Obrazów: Analiza obrazów w celu identyfikacji obiektów, osób lub scen.
Aplikacje te wymagają szybkiego, wydajnego wnioskowania, aby zapewnić bezproblemową obsługę użytkownika. Ironwood został zaprojektowany specjalnie, aby wyróżniać się w tych zadaniach.
Kluczowe Zalety Ironwood dla Wnioskowania:
- Wysoka Przepustowość: Ogromna moc obliczeniowa (42,5 eksaflopów) pozwala Ironwood na jednoczesną obsługę dużej liczby żądań wnioskowania.
- Niskie Opóźnienia: Pamięć o dużej przepustowości (HBM) i wydajna architektura minimalizują czas potrzebny do przetworzenia każdego żądania wnioskowania.
- Efektywność Energetyczna: Ulepszona wydajność na wat zmniejsza koszty operacyjne związane z uruchamianiem wdrożeń wnioskowania na dużą skalę.
Optymalizując pod kątem wnioskowania, Google umożliwia firmom wdrażanie aplikacji opartych na AI wydajniej i bardziej efektywnie kosztowo.
A2A: Fundament dla Współpracującej AI
Protokół Agent-to-Agent (A2A) stanowi znaczący krok w kierunku tworzenia bardziej wyrafinowanych i współpracujących systemów AI. W systemie wieloagentowym wielu agentów AI współpracuje ze sobą w celu rozwiązania złożonego problemu. Każdy agent może mieć swoje własne specjalistyczne umiejętności i wiedzę, a oni komunikują się i koordynują ze sobą, aby osiągnąć wspólny cel.
Rozważmy scenariusz obejmujący zautomatyzowaną obsługę klienta:
- Agent 1: Rozumie wstępne zapytanie klienta i identyfikuje podstawowy problem.
- Agent 2: Uzyskuje dostęp do bazy wiedzy, aby znaleźć odpowiednie informacje.
- Agent 3: Planuje wizytę kontrolną u ludzkiego agenta, jeśli to konieczne.
Agenci ci muszą być w stanie bezproblemowo komunikować się i udostępniać informacje, aby zapewnić spójną obsługę klienta. A2A zapewnia ramy dla tego typu współpracy.
Kluczowe Korzyści A2A:
- Interoperacyjność: Umożliwia agentom opracowanym na różnych platformach i frameworkach komunikowanie się ze sobą.
- Standaryzacja: Zapewnia wspólny ‘język’ i zestaw protokołów dla komunikacji agentów.
- Bezpieczeństwo: Zapewnia bezpieczną komunikację między agentami, chroniąc wrażliwe dane.
- Elastyczność: Obsługuje szeroki zakres modalności komunikacji, w tym tekst, audio i wideo.
Wspierając współpracę między agentami AI, A2A umożliwia rozwój potężniejszych i wszechstronnych systemów AI.
MCP: Łączenie Luki Między AI i Danymi
Protokół Model Context Protocol (MCP) rozwiązuje problem łączenia modeli AI z ogromnymi ilościami danych potrzebnych do efektywnego wykonywania ich zadań. Modele AI potrzebują dostępu do danych w czasie rzeczywistym z różnych źródeł, takich jak bazy danych, interfejsy API i usługi w chmurze, aby dokonywać dokładnych prognoz i podejmować świadome decyzje.
MCP zapewnia ustandaryzowany sposób dostępu i interakcji modeli AI z tymi źródłami danych. Definiuje zestaw protokołów dla:
- Wykrywanie Danych: Identyfikacja dostępnych źródeł danych.
- Dostęp do Danych: Pobieranie danych ze źródeł danych.
- Transformacja Danych: Konwersja danych do formatu zrozumiałego dla modelu AI.
Zapewniając ustandaryzowany interfejs dostępu do danych, MCP upraszcza proces integracji modeli AI z rzeczywistymi danymi.
Kluczowe Zalety MCP:
- Uproszczona Integracja: Ułatwia łączenie modeli AI ze źródłami danych.
- Standaryzacja: Zapewnia wspólny zestaw protokołów dostępu do danych.
- Zwiększona Wydajność: Zmniejsza czas i wysiłek potrzebny do uzyskania dostępu i przekształcenia danych.
- Poprawiona Dokładność: Umożliwia modelom AI dostęp do najbardziej aktualnych informacji, co prowadzi do dokładniejszych prognoz.
Łącząc modele AI z danymi, których potrzebują, MCP umożliwia im wydajniejsze działanie i dostarczanie większej wartości.