Google Ironwood: 24x над суперкомпютър | bg

Google промени значително пейзажа на обработката на изкуствен интелект (AI) с представянето на седмото поколение Tensor Processing Unit (TPU) на Google, известен като Ironwood. Този авангарден AI ускорител може да се похвали с изчислителни възможности, които в мащабни разгръщания надминават най-бързия суперкомпютър в света с повече от 24 пъти.

Този нов чип, разкрит на конференцията Google Cloud Next ‘25, бележи ключов момент в десетгодишната стратегия на Google в развитието на AI чипове. За разлика от своите предшественици, които бяха проектирани основно за AI обучение и за inferred workloads, Ironwood е специално проектиран за inference, сигнализирайки за стратегическа промяна към оптимизиране на ефективността на AI внедряването.

Амин Вахдат, вицепрезидент и генерален мениджър на машинното обучение, системите и Cloud AI на Google, подчерта този преход, като заяви: ‘Ironwood е проектиран да поддържа следващата фаза на генеративния AI и неговите огромни изчислителни и комуникационни нужди. Това е, което наричаме ‘Ера на inference’, където AI агентите ще извличат и генерират данни проактивно, за да предоставят съвместно прозрения и отговори, а не просто да обработват данни.’

Преодоляване на бариерите с 42,5 екзафлопа изчислителна мощност

Техническите спецификации на Ironwood са наистина впечатляващи. Когато се мащабира до pod от 9216 чипа, той осигурява зашеметяващите 42,5 екзафлопа AI изчисления. За да се постави това в перспектива, то засенчва текущия най-бърз суперкомпютър в света, El Capitan, който работи с 1,7 екзафлопа. Всеки отделен чип Ironwood може да постигне пикова изчислителна способност от 4614 TFLOPs.

Освен суровата изчислителна мощност, Ironwood значително подобрява паметта и честотната лента. Всеки чип е оборудван със 192 GB памет с висока честотна лента (HBM), шесткратно увеличение в сравнение с предишното поколение TPU, Trillium, пуснат миналата година. Честотната лента на паметта на чип достига 7,2 терабита/s, 4,5 пъти повече от тази на Trillium.

Изчислителна мощност: 42,5 екзафлопа (на pod от 9 216 чипа)
Пикова изчислителна мощност на чип: 4614 TFLOPs
Памет: 192 GB HBM на чип
Честотна лента на паметта: 7,2 терабита/s на чип

В епоха, когато центровете за данни се разширяват и консумацията на енергия е нарастваща грижа, Ironwood също демонстрира значителни подобрения в енергийната ефективност. Той предлага два пъти по-добра производителност на ват в сравнение с Trillium и почти 30 пъти повече от първия TPU, въведен през 2018 г.

Тази оптимизация за inference сигнализира за критичен обрат в еволюцията на AI. През последните години водещите AI лаборатории се концентрираха върху разработването на все по-големи foundation models с непрекъснато разширяващ се брой параметри. Фокусът на Google върху inference оптимизацията предполага преминаване към нова парадигма, центрирана върху ефективността на разгръщането и inferred capabilities.

Въпреки че model training остава от съществено значение, inferred operations са много по-чести, случващи се милиарди пъти дневно, тъй като AI технологиите стават все по-разпространени. За бизнеса, използващ AI, икономиката е неразривно свързана с inferred costs, тъй като моделите стават по-сложни.

AI изчислителното търсене на Google е нараснало десетократно през последните осем години, достигайки зашеметяващите 100 милиона. Без специализирани архитектури като Ironwood би било невъзможно да се поддържа тази траектория на растеж само чрез традиционния напредък в закона на Мур.

Забележително е, че съобщението на Google подчерта фокуса върху ‘reasoning models’, способни да изпълняват сложни inferred tasks, а не просто разпознаване на образи. Това предполага убеждението, че бъдещето на AI се крие не само в по-големи модели, но и в модели, способни да разбиват проблеми, да се занимават с multi-step reasoning и да емулират човешки мисловни процеси.

Захранване на следващото поколение големи модели

Google позиционира Ironwood като основна инфраструктура за най-напредналите си AI модели, включително собствения си Gemini 2.5, който може да се похвали с ‘native reasoning abilities’.

Компанията също така наскоро представи Gemini 2.5 Flash, по-малка версия на своя водещ модел, предназначена да ‘adjust reasoning depth based on the complexity of the prompt’. Този модел е насочен към ежедневни приложения, които изискват бързи времена за реакция.

Google допълнително демонстрира своя изчерпателен пакет от multimodal generation models, обхващащ text-to-image, text-to-video и новопредставената си text-to-music capability, Lyria. Демонстрация илюстрира как тези инструменти могат да бъдат комбинирани, за да се създаде пълно промоционално видео за концерт.

Ironwood е само един компонент от по-широката стратегия на Google за AI инфраструктура. Компанията също така обяви Cloud WAN, managed wide area network service, която предоставя на предприятията достъп до глобалната частна мрежова инфраструктура на Google.

Google също така разширява своите софтуерни предложения за AI workloads, включително Pathways, machine-learning runtime, разработен от Google DeepMind. Pathways вече позволява на клиентите да мащабират model serving в стотици TPUs.

Представяне на A2A: насърчаване на екосистема от интелигентно агентно сътрудничество

Освен хардуерните подобрения, Google представи своята визия за AI, центрирана около multi-agent systems, разкривайки протокол за улесняване на развитието на интелигентни агенти: Agent-to-Agent (A2A). Този протокол е предназначен да насърчи сигурна и стандартизирана комуникация между различни AI агенти.

Google вярва, че 2025 г. ще отбележи трансформираща година за AI, като приложението на генеративния AI ще се развие от отговаряне на отделни въпроси до решаване на сложни проблеми чрез интелигентни агентни системи.

Протоколът A2A позволява interoperability между платформи и рамки, предоставяйки на агентите общ ‘език’ и сигурни комуникационни канали. Този протокол може да се разглежда като мрежов слой за интелигентни агенти, целящ да опрости сътрудничеството на агенти в сложни workflows. Той овластява специализирани AI агенти да работят заедно по задачи с различна сложност и продължителност, като в крайна сметка подобрява общите възможности чрез сътрудничество.

Как работи A2A

Google предостави сравнение между MCP и A2A протоколи в своя блог:

MCP (Model Context Protocol): За tool and resource management
- Свързва агенти с инструменти, APIs и ресурси чрез структуриран input/output.
- Google ADK поддържа MCP инструменти, позволявайки на различни MCP сървъри да работят с агенти.
A2A (Agent2Agent Protocol): За collaboration между агенти
- Позволява динамична multimodal комуникация между агенти без споделяне на памет, ресурси или инструменти.
- Отворен стандарт, задвижван от общността.
- Примери могат да бъдат разгледани с помощта на инструменти като Google ADK, LangGraph и Crew.AI.

По същество A2A и MCP са допълващи се. MCP предоставя на агентите tool support, докато A2A позволява на тези оборудвани агенти да комуникират и да си сътрудничат помежду си.

Списъкът с партньори, обявен от Google, предполага, че A2A е готова да получи подобно внимание като MCP. Инициативата вече е привлякла над 50 компании към своята initial collaboration cohort, включително водещи технологични фирми и топ глобални консултантски и system integration service providers.

Google подчерта отвореността на протокола, позиционирайки го като стандартен метод за сътрудничество на агенти, независимо от underlying technology frameworks или service providers. Компанията заяви, че се придържа към следните пет ключови принципа при проектирането на протокола със своите партньори:

Embrace Agent Capabilities: A2A се фокусира върху това да позволи на агентите да си сътрудничат по техните естествени, неструктурирани начини, дори ако не споделят памет, инструменти и контекст. Целта е да се даде възможност за истински multi-agent scenarios, без да се ограничават агентите само до ‘tools’.
Build on Existing Standards: Протоколът надгражда съществуващи популярни стандарти, включително HTTP, SSE и JSON-RPC, което улеснява интегрирането със съществуващите IT стекове, използвани от предприятията.
Secure by Default: A2A е проектиран да поддържа enterprise-grade authentication и authorization, сравними със схемите за удостоверяване на OpenAPI при стартиране.
Support Long-Running Tasks: A2A е проектиран с гъвкавост да поддържа широк спектър от scenarios, от бързи задачи до задълбочени изследвания, които могат да отнемат часове или дори дни (когато са включени хора). По време на процеса A2A може да предостави на потребителите обратна връзка в реално време, известия и актуализации на състоянието.
Modality Agnostic: Светът на агентите не се ограничава до текст, поради което A2A е проектиран да поддържа различни modalities, включително аудио и видео потоци.

Пример: Streamlined Hiring Process via A2A

Пример, предоставен от Google, илюстрира как A2A може значително да streamline the hiring process.

В рамките на unified interface като Agentspace, мениджър по наемане може да възложи на агент да намери подходящи кандидати въз основа на job requirements. Този агент може да взаимодейства със специализирани агенти в конкретни области, за да завърши candidate sourcing. Потребителят може също така да инструктира агента да насрочва интервюта и да позволи на други специализирани агенти да помагат с background checks, като по този начин се даде възможност за напълно автоматизирано, cross-system collaborative hiring.

Възприемане на MCP: Присъединяване към екосистемата на Model Context Protocol

Едновременно с това Google също така възприема MCP. Само седмици след като OpenAI обяви приемането си на Model Context Protocol (MCP) на Anthropic, Google последва примера и се присъедини към инициативата.

Главният изпълнителен директор на Google DeepMind Демис Хасабис обяви в X, че Google ще добави support for MCP към своите Gemini модели и SDKs, въпреки че конкретен график не беше предоставен.

Хасабис заяви: ‘MCP е отличен протокол, който бързо се превръща в отворен стандарт за ерата на AI агентите. Очакваме с нетърпение да работим с екипа на MCP и други партньори в индустрията, за да развием развитието на тази технология.’

От пускането си през ноември 2024 г. MCP бързо придоби популярност и широко разпространено внимание, появявайки се като прост и стандартизиран начин за свързване на езикови модели с инструменти и данни.

MCP позволява на AI моделите да имат достъп до данни от източници на данни като enterprise tools и софтуер, за да изпълняват задачи и да имат достъп до content libraries и application development environments. Протоколът позволява на разработчиците да установяват двупосочни връзки между източници на данни и приложения, управлявани от AI, като chatbots.

Разработчиците могат да излагат data interfaces чрез MCP сървъри и да изграждат MCP клиенти (като приложения и workflows), за да се свързват с тези сървъри. Тъй като Anthropic е с отворен код MCP, няколко компании са интегрирали MCP support в своите платформи.

Подобрен анализ на ключови концепции:

За да изясним допълнително въздействието и значението на последните съобщения на Google, нека се задълбочим в основните компоненти: Ironwood, A2A и MCP.

Ironwood: Дълбоко гмуркане в ерата на inference

Преминаването от фокусиране предимно върху training models към оптимизиране за inference е критична еволюция в AI пейзажа. Training включва подаване на огромни количества данни към модел, за да го научите да разпознава образи и да прави predictions. Inference, от друга страна, е процесът на използване на trained model, за да прави predictions на нови, невиждани данни.

Въпреки че training е resource-intensive, еднократно (или нечесто) събитие, inference се случва непрекъснато и в мащаб в реални приложения. Обмислете приложения като:

Chatbots: Отговаряне на потребителски заявки в реално време.
Recommendation Systems: Предлагане на продукти или съдържание въз основа на потребителски предпочитания.
Fraud Detection: Идентифициране на fraudulent transactions, тъй като те се случват.
Image Recognition: Анализ на изображения за идентифициране на обекти, хора или сцени.

Тези приложения изискват бърза, ефективна inference, за да осигурят безпроблемно потребителско изживяване. Ironwood е проектиран специално да се отличава с тези задачи.

Ключови предимства на Ironwood за inference:

High Throughput: Масивната изчислителна мощност (42,5 екзафлопа) позволява на Ironwood да обработва голям обем от inferred requests едновременно.
Low Latency: High-bandwidth memory (HBM) и ефективната архитектура минимизират времето, необходимо за обработка на всеки inferred request.
Energy Efficiency: Подобрената производителност на ват намалява operational costs, свързани с running large-scale inferred deployments.

Чрез оптимизиране за inference, Google дава възможност на бизнеса да разгръща AI-powered applications по-ефективно и cost-effectively.

A2A: Основата за Collaborative AI

Протоколът Agent-to-Agent (A2A) представлява значителна стъпка към създаване на по-усъвършенствани и collaborative AI системи. В multi-agent system, множество AI агенти работят заедно, за да решат сложен проблем. Всеки агент може да има свои специализирани умения и знания и те комуникират и координират помежду си, за да постигнат обща цел.

Обмислете scenario, включващ автоматизирана customer support:

Agent 1: Разбира първоначалната заявка на клиента и идентифицира underlying issue.
Agent 2: Има достъп до knowledge base, за да намери relevant information.
Agent 3: Насрочва follow-up appointment с human agent, ако е необходимо.

Тези агенти трябва да могат да комуникират и да споделят информация безпроблемно, за да осигурят cohesive customer experience. A2A предоставя рамката за този тип collaboration.

Ключови предимства на A2A:

Interoperability: Позволява на агенти, разработени на различни платформи и рамки, да комуникират помежду си.
Standardization: Предоставя общ ‘език’ и набор от протоколи за agent communication.
Security: Осигурява сигурна комуникация между агенти, защитавайки sensitive data.
Flexibility: Поддържа широк спектър от communication modalities, включително текст, аудио и видео.

Чрез насърчаване на collaboration между AI агенти, A2A позволява развитието на по-мощни и versatile AI системи.

MCP: Преодоляване на пропастта между AI и данни

Протоколът Model Context Protocol (MCP) адресира предизвикателството за свързване на AI модели с огромните количества данни, необходими за ефективно изпълнение на техните задачи. AI моделите се нуждаят от достъп до real-time данни от различни източници, като бази данни, APIs и cloud services, за да правят точни predictions и informed decisions.

MCP предоставя стандартизиран начин за AI моделите да имат достъп и да взаимодействат с тези източници на данни. Той определя набор от протоколи за:

Data Discovery: Идентифициране на наличните източници на данни.
Data Access: Извличане на данни от източниците на данни.
Data Transformation: Преобразуване на данните във формат, който AI моделът може да разбере.

Чрез предоставяне на стандартизиран интерфейс за data access, MCP опростява процеса на интегриране на AI модели с real-world data.

Ключови предимства на MCP:

Simplified Integration: Улеснява свързването на AI модели с източници на данни.
Standardization: Предоставя общ набор от протоколи за data access.
Increased Efficiency: Намалява времето и усилията, необходими за достъп и трансформиране на данни.
Improved Accuracy: Позволява на AI моделите да имат достъп до най-актуалната информация, което води до по-точни predictions.

Чрез свързване на AI моделите с данните, от които се нуждаят, MCP им позволява да се представят по-ефективно и да доставят по-голяма стойност.

актуализирано на 2025-04-16

# Google # Gemini # Agent