Ландшафт обработки искусственного интеллекта (AI) был значительно изменен с появлением Tensor Processing Unit (TPU) седьмого поколения от Google, известного как Ironwood. Этот передовой ускоритель искусственного интеллекта обладает вычислительными возможностями, которые в крупномасштабных развертываниях превосходят самый быстрый суперкомпьютер в мире более чем в 24 раза.
Этот новый чип, представленный на конференции Google Cloud Next ‘25, знаменует собой поворотный момент в десятилетней стратегии Google в разработке чипов AI. В отличие от своих предшественников, которые были в основном разработаны как для обучения AI, так и для рабочих нагрузок inference, Ironwood специально разработан для inference, что сигнализирует о стратегическом сдвиге в сторону оптимизации эффективности развертывания AI.
Амин Вахдат, вице-президент и генеральный менеджер Google по машинному обучению, системам и облачному AI, подчеркнул этот переход, заявив: ‘Ironwood разработан для поддержки следующего этапа генеративного AI и его огромных вычислительных и коммуникационных потребностей. Это то, что мы называем ‘Эрой inference’, где AI-агенты будут активно извлекать и генерировать данные для совместной доставки идей и ответов, а не просто обрабатывать данные.’
Прорывные возможности: 42,5 эксафлопс вычислительной мощности
Технические характеристики Ironwood действительно впечатляют. При масштабировании до модуля из 9216 чипов он обеспечивает ошеломляющие 42,5 эксафлопс вычислений AI. Чтобы оценить это в перспективе, он затмевает нынешний самый быстрый в мире суперкомпьютер, El Capitan, который работает на 1,7 эксафлопс. Каждый отдельный чип Ironwood может достигать пиковой вычислительной мощности в 4614 TFLOPs.
Помимо необработанной вычислительной мощности, Ironwood значительно улучшает память и пропускную способность. Каждый чип оснащен 192 ГБ памяти с высокой пропускной способностью (HBM), что в шесть раз больше по сравнению с TPU предыдущего поколения, Trillium, выпущенным в прошлом году. Пропускная способность памяти на чип достигает 7,2 терабит/с, что в 4,5 раза больше, чем у Trillium.
- Вычислительная мощность: 42,5 эксафлопс (на модуль из 9216 чипов)
- Пиковая вычислительная мощность на чип: 4614 TFLOPs
- Память: 192 ГБ HBM на чип
- Пропускная способность памяти: 7,2 терабит/с на чип
В эпоху, когда центры обработки данных расширяются и энергопотребление вызывает все большую озабоченность, Ironwood также демонстрирует значительные улучшения в энергоэффективности. Он предлагает вдвое большую производительность на ватт по сравнению с Trillium и почти в 30 раз большую, чем у первого TPU, представленного в 2018 году.
Эта оптимизация для inference знаменует собой критический поворотный момент в эволюции AI. В последние годы ведущие лаборатории AI сосредоточились на разработке все более крупных фундаментальных моделей с постоянно растущим числом параметров. Сосредоточение Google на оптимизации inference предполагает переход к новой парадигме, ориентированной на эффективность развертывания и возможности inference.
Хотя обучение моделей остается важным, операции inference встречаются гораздо чаще, происходя миллиарды раз в день, поскольку технологии AI становятся все более распространенными. Для предприятий, использующих AI, экономика неразрывно связана с затратами на inference по мере того, как модели становятся все более сложными.
Спрос Google на вычисления AI вырос в десять раз за последние восемь лет, достигнув ошеломляющих 100 миллионов. Без специализированных архитектур, таких как Ironwood, было бы невозможно поддерживать эту траекторию роста только за счет традиционных достижений в законе Мура.
Примечательно, что в объявлении Google был сделан акцент на ‘моделях рассуждений’, способных выполнять сложные задачи inference, а не простое распознавание образов. Это говорит о вере в то, что будущее AI заключается не только в более крупных моделях, но и в моделях, способных разбивать проблемы, заниматься многоступенчатыми рассуждениями и имитировать человеческие мыслительные процессы.
Питание моделей следующего поколения
Google позиционирует Ironwood как фундаментальную инфраструктуру для своих самых передовых моделей AI, включая собственный Gemini 2.5, который обладает ‘собственными способностями к рассуждению’.
Компания также недавно представила Gemini 2.5 Flash, уменьшенную версию своей флагманской модели, разработанную для ‘настройки глубины рассуждений в зависимости от сложности подсказки’. Эта модель ориентирована на повседневные приложения, требующие быстрого времени отклика.
Google также продемонстрировала свой полный набор мультимодальных моделей генерации, включающих преобразование текста в изображение, текста в видео и недавно представленную возможность преобразования текста в музыку, Lyria. Демонстрация показала, как эти инструменты можно объединить для создания полного рекламного видеоролика для концерта.
Ironwood — лишь один из компонентов более широкой стратегии инфраструктуры AI от Google. Компания также объявила о Cloud WAN, управляемой службе глобальной сети, которая предоставляет предприятиям доступ к глобальной частной сетевой инфраструктуре Google.
Google также расширяет свои программные предложения для рабочих нагрузок AI, включая Pathways, среду выполнения машинного обучения, разработанную Google DeepMind. Pathways теперь позволяет клиентам масштабировать обслуживание моделей на сотни TPU.
Представляем A2A: содействие экосистеме интеллектуального сотрудничества агентов
Помимо аппаратных достижений, Google представила свое видение AI, ориентированное на многоагентные системы, представив протокол для содействия развитию интеллектуальных агентов: Agent-to-Agent (A2A). Этот протокол разработан для обеспечения безопасной и стандартизированной связи между различными AI-агентами.
Google считает, что 2025 год станет поворотным годом для AI, когда применение генеративного AI будет развиваться от ответов на отдельные вопросы до решения сложных проблем с помощью интеллектуальных агентских систем.
Протокол A2A обеспечивает совместимость между платформами и фреймворками, предоставляя агентам общий ‘язык’ и безопасные каналы связи. Этот протокол можно рассматривать как сетевой уровень для интеллектуальных агентов, направленный на упрощение сотрудничества агентов в сложных рабочих процессах. Он позволяет специализированным AI-агентам работать вместе над задачами различной сложности и продолжительности, в конечном итоге повышая общие возможности посредством сотрудничества.
Как работает A2A
Google предоставила сравнение протоколов MCP и A2A в своем блоге:
- MCP (Model Context Protocol): Для управления инструментами и ресурсами
- Подключает агентов к инструментам, API и ресурсам через структурированный ввод/вывод.
- Google ADK поддерживает инструменты MCP, позволяя различным серверам MCP работать с агентами.
- A2A (Agent2Agent Protocol): Для сотрудничества между агентами
- Обеспечивает динамическую мультимодальную связь между агентами без совместного использования памяти, ресурсов или инструментов.
- Открытый стандарт, управляемый сообществом.
- Примеры можно просмотреть с помощью таких инструментов, как Google ADK, LangGraph и Crew.AI.
По сути, A2A и MCP дополняют друг друга. MCP предоставляет агентам поддержку инструментов, а A2A позволяет этим оснащенным агентам общаться и сотрудничать друг с другом.
Список партнеров, объявленный Google, предполагает, что A2A получит такое же внимание, как и MCP. Инициатива уже привлекла более 50 компаний в свою первоначальную группу сотрудничества, включая ведущие технологические фирмы и ведущих мировых поставщиков консультационных услуг и услуг по системной интеграции.
Google подчеркнула открытость протокола, позиционируя его как стандартный метод для сотрудничества агентов, независимо от базовых технологических фреймворков или поставщиков услуг. Компания заявила, что придерживалась следующих пяти ключевых принципов при разработке протокола со своими партнерами:
- Использовать возможности агентов: A2A фокусируется на том, чтобы позволить агентам сотрудничать в их естественных, неструктурированных формах, даже если они не разделяют память, инструменты и контекст. Цель состоит в том, чтобы обеспечить подлинные многоагентные сценарии, не ограничивая агентов простыми ‘инструментами’.
- Основываться на существующих стандартах: Протокол основан на существующих популярных стандартах, включая HTTP, SSE и JSON-RPC, что упрощает интеграцию с существующими ИТ-стеками, используемыми предприятиями.
- Безопасность по умолчанию: A2A разработан для поддержки аутентификации и авторизации корпоративного уровня, сравнимой со схемами аутентификации OpenAPI при запуске.
- Поддержка длительных задач: A2A разработан с гибкостью для поддержки широкого спектра сценариев, от быстрых задач до углубленных исследований, которые могут занять часы или даже дни (когда участвуют люди). На протяжении всего процесса A2A может предоставлять пользователям обратную связь в режиме реального времени, уведомления и обновления статуса.
- Агностик модальности: Мир агентов не ограничивается текстом, поэтому A2A разработан для поддержки различных модальностей, включая аудио- и видеопотоки.
Пример: Упрощенный процесс найма через A2A
Пример, предоставленный Google, иллюстрирует, как A2A может значительно упростить процесс найма.
В рамках единого интерфейса, такого как Agentspace, менеджер по найму может назначить агента для поиска подходящих кандидатов на основе требований к вакансии. Этот агент может взаимодействовать со специализированными агентами в конкретных областях для завершения поиска кандидатов. Пользователь также может поручить агенту назначать собеседования и позволить другим специализированным агентам помогать с проверкой биографических данных, тем самым обеспечивая полностью автоматизированный межсистемный совместный найм.
Внедрение MCP: Присоединение к экосистеме Model Context Protocol
Одновременно Google также внедряет MCP. Всего через несколько недель после того, как OpenAI объявила о принятии Model Context Protocol (MCP) от Anthropic, Google последовала ее примеру и присоединилась к инициативе.
Генеральный директор Google DeepMind Демис Хассабис объявил в X, что Google добавит поддержку MCP в свои модели Gemini и SDK, хотя конкретные сроки не были указаны.
Хассабис заявил: ‘MCP — отличный протокол, который быстро становится открытым стандартом для эпохи AI-агентов. Мы надеемся на сотрудничество с командой MCP и другими партнерами в отрасли для продвижения разработки этой технологии.’
С момента своего выпуска в ноябре 2024 года MCP быстро приобрел популярность и широкое внимание, став простым и стандартизированным способом подключения языковых моделей к инструментам и данным.
MCP позволяет моделям AI получать доступ к данным из источников данных, таких как корпоративные инструменты и программное обеспечение, для выполнения задач и доступа к библиотекам контента и средам разработки приложений. Протокол позволяет разработчикам устанавливать двунаправленные соединения между источниками данных и приложениями на основе AI, такими как чат-боты.
Разработчики могут предоставлять интерфейсы данных через серверы MCP и создавать клиенты MCP (такие как приложения и рабочие процессы) для подключения к этим серверам. Поскольку Anthropic открыла исходный код MCP, несколько компаний интегрировали поддержку MCP в свои платформы.
Углубленный анализ ключевых концепций:
Чтобы еще больше прояснить влияние и значение недавних объявлений Google, давайте углубимся в основные компоненты: Ironwood, A2A и MCP.
Ironwood: Глубокое погружение в эру Inference
Переход от сосредоточения внимания в основном на обучении моделей к оптимизации для inference — это критическая эволюция в ландшафте AI. Обучение включает в себя подачу огромного количества данных в модель, чтобы научить ее распознавать закономерности и делать прогнозы. Inference, с другой стороны, — это процесс использования обученной модели для прогнозирования новых, ранее невидимых данных.
Хотя обучение является ресурсоемким, одноразовым (или нечастым) событием, inference происходит непрерывно и в масштабе в реальных приложениях. Рассмотрим такие приложения, как:
- Чат-боты: Ответы на запросы пользователей в режиме реального времени.
- Системы рекомендаций: Предложение продуктов или контента на основе предпочтений пользователей.
- Обнаружение мошенничества: Выявление мошеннических транзакций по мере их возникновения.
- Распознавание изображений: Анализ изображений для идентификации объектов, людей или сцен.
Эти приложения требуют быстрого, эффективного inference для обеспечения бесперебойной работы пользователей. Ironwood разработан специально для превосходства в этих задачах.
Ключевые преимущества Ironwood для Inference:
- Высокая пропускная способность: Массивная вычислительная мощность (42,5 эксафлопс) позволяет Ironwood обрабатывать большой объем запросов inference одновременно.
- Низкая задержка: Память с высокой пропускной способностью (HBM) и эффективная архитектура минимизируют время, необходимое для обработки каждого запроса inference.
- Энергоэффективность: Улучшенная производительность на ватт снижает эксплуатационные расходы, связанные с запуском крупномасштабных развертываний inference.
Оптимизируя для inference, Google позволяет предприятиям более эффективно и экономично развертывать приложения на основе AI.
A2A: Основа для совместного AI
Протокол Agent-to-Agent (A2A) представляет собой значительный шаг вперед в создании более сложных и совместных систем AI. В многоагентной системе несколько AI-агентов работают вместе для решения сложной проблемы. Каждый агент может иметь свои собственные специализированные навыки и знания, и они общаются и координируют друг с другом для достижения общей цели.
Рассмотрим сценарий, включающий автоматизированную поддержку клиентов:
- Агент 1: Понимает первоначальный запрос клиента и определяет основную проблему.
- Агент 2: Обращается к базе знаний для поиска релевантной информации.
- Агент 3: Назначает последующую встречу с живым агентом, если это необходимо.
Эти агенты должны иметь возможность беспрепятственно общаться и обмениваться информацией для обеспечения согласованного обслуживания клиентов. A2A предоставляет основу для этого типа сотрудничества.
Ключевые преимущества A2A:
- Совместимость: Позволяет агентам, разработанным на разных платформах и фреймворках, общаться друг с другом.
- Стандартизация: Предоставляет общий ‘язык’ и набор протоколов для связи агентов.
- Безопасность: Обеспечивает безопасную связь между агентами, защищая конфиденциальные данные.
- Гибкость: Поддерживает широкий спектр способов связи, включая текст, аудио и видео.
Содействуя сотрудничеству между AI-агентами, A2A обеспечивает разработку более мощных и универсальных систем AI.
MCP: Преодоление разрыва между AI и данными
Model Context Protocol (MCP) решает задачу подключения моделей AI к огромному объему данных, необходимых для эффективного выполнения их задач. Моделям AI необходим доступ к данным в режиме реального времени из различных источников, таких как базы данных, API и облачные сервисы, для точного прогнозирования и принятия обоснованных решений.
MCP предоставляет стандартизированный способ для моделей AI получать доступ к этим источникам данных и взаимодействовать с ними. Он определяет набор протоколов для:
- Обнаружение данных: Определение доступных источников данных.
- Доступ к данным: Получение данных из источников данных.
- Преобразование данных: Преобразование данных в формат, понятный модели AI.
Предоставляя стандартизированный интерфейс для доступа к данным, MCP упрощает процесс интеграции моделей AI с данными реального мира.
Ключевые преимущества MCP:
- Упрощенная интеграция: Облегчает подключение моделей AI к источникам данных.
- Стандартизация: Предоставляет общий набор протоколов для доступа к данным.
- Повышенная эффективность: Сокращает время и усилия, необходимые для доступа к данным и их преобразования.
- Повышенная точность: Позволяет моделям AI получать доступ к самой последней информации, что приводит к более точным прогнозам.
Подключая модели AI к необходимым им данным, MCP позволяет им работать более эффективно и обеспечивать большую ценность.