Google Ironwood TPU: скачок в AI

Ландшафт искусственного интеллекта (AI) постоянно развивается, и достижения в аппаратном обеспечении играют ключевую роль в раскрытии новых возможностей. Google, лидер в инновациях в области AI, недавно представила свой Tensor Processing Unit (TPU) седьмого поколения под кодовым названием Ironwood, что знаменует собой значительный шаг вперед в возможностях вычислений AI. Этот передовой ускоритель AI обладает вычислительной мощью, которая превосходит даже самые быстрые суперкомпьютеры в мире в 24 раза в крупномасштабных развертываниях.

Объявленный на конференции Google Cloud Next ‘25, Ironwood представляет собой стратегический поворот в десятилетнем пути Google по разработке AI-чипов. В отличие от своих предшественников, которые в основном были разработаны для задач обучения и логического вывода AI, Ironwood специально разработан для достижения превосходных результатов в задачах логического вывода, возвещая новую эру приложений, управляемых AI.

По словам Амина Вахдата, вице-президента и генерального директора по машинному обучению, системам и облачному AI в Google, ‘Ironwood предназначен для поддержки следующего этапа генеративного AI и его огромных требований к вычислениям и коммуникациям. Это то, что мы называем ‘Эрой логического вывода’, когда AI-агенты будут активно извлекать и генерировать данные для совместного предоставления идей и ответов, а не просто данных’.

Раскрытие беспрецедентных возможностей Ironwood

Технические характеристики Ironwood просто экстраординарны. При масштабировании до модуля из 9 216 чипов он может обеспечить поразительные 42,5 эксафлопс вычислительной мощности AI. Эта цифра затмевает 1,7 эксафлопс, предлагаемых El Capitan, нынешним обладателем титула самого быстрого суперкомпьютера в мире. Каждый отдельный чип Ironwood может похвастаться пиковой вычислительной мощностью 4 614 TFLOPs.

Помимо чистой вычислительной мощности, Ironwood также отличается значительными улучшениями в памяти и пропускной способности. Каждый чип оснащен 192 ГБ памяти с высокой пропускной способностью (HBM), что в шесть раз больше, чем у TPU предыдущего поколения, Trillium, который был выпущен в прошлом году. Кроме того, пропускная способность памяти на чип достигает 7,2 терабит/с, что представляет собой 4,5-кратное улучшение по сравнению с Trillium.

В эпоху, когда центры обработки данных расширяются и энергопотребление становится критической проблемой, Ironwood также выделяется своей энергоэффективностью. Его производительность на ватт в два раза выше, чем у Trillium, и почти в 30 раз выше, чем у первого TPU, представленного в 2018 году.

Акцент на оптимизации логического вывода знаменует собой поворотный сдвиг в ландшафте AI. В последние годы ведущие AI-лаборатории в основном сосредоточились на создании все более крупных базовых моделей с увеличением количества параметров. Акцент Google на оптимизации логического вывода предполагает переход к новому этапу, ориентированному на эффективность развертывания и возможности логического вывода.

Хотя обучение моделей остается решающим, количество итераций обучения конечно. Напротив, по мере того как технологии AI все больше интегрируются в различные приложения, ожидается, что операции логического вывода будут происходить миллиарды раз в день. По мере того как модели становятся все более сложными, экономическая целесообразность этих приложений становится неразрывно связанной с затратами на логический вывод.

За последние восемь лет спрос Google на вычисления AI вырос в десять раз, достигнув поразительных 100 миллионов. Без специализированных архитектур, таких как Ironwood, даже неустанный прогресс закона Мура изо всех сил пытался бы угнаться за этим экспоненциальным ростом.

Примечательно, что объявление Google подчеркивает его акцент на ‘ментальных моделях’, способных выполнять сложные задачи рассуждения, а не простое распознавание образов. Это говорит о том, что Google видит будущее, в котором AI выходит за рамки более крупных моделей и охватывает модели, которые могут декомпозировать проблемы, выполнять многоступенчатые рассуждения и имитировать человеческие мыслительные процессы.

Поддержка следующего поколения больших моделей

Google позиционирует Ironwood как базовую инфраструктуру для своих самых передовых моделей AI, включая Gemini 2.5, которая может похвастаться встроенными возможностями рассуждения.

Google также недавно представила Gemini 2.5 Flash, меньший вариант своей флагманской модели, предназначенный для чувствительных к задержкам повседневных приложений. Gemini 2.5 Flash может динамически регулировать глубину рассуждений в зависимости от сложности подсказки.

Google также продемонстрировала свой всеобъемлющий набор мультимодальных генеративных моделей, включая преобразование текста в изображение, текста в видео и недавно представленную функцию преобразования текста в музыку Lyria. В демонстрации было показано, как эти инструменты можно объединить для создания полноценного рекламного ролика для концерта.

Ironwood - это лишь один компонент более широкой стратегии Google в области инфраструктуры AI. Google также объявила о Cloud WAN, управляемой службе глобальной сети, которая позволяет предприятиям получать доступ к глобальной частной сетевой инфраструктуре Google.

Кроме того, Google расширяет свои программные предложения для задач AI, включая Pathways, среду выполнения машинного обучения, разработанную Google DeepMind. Pathways теперь позволяет клиентам масштабировать обслуживание моделей на сотнях TPU.

Содействие сотрудничеству AI-агентов с помощью A2A

Помимо достижений в области аппаратного обеспечения, Google также изложила свое видение экосистемы AI, ориентированной на системы с несколькими агентами. Чтобы облегчить разработку интеллектуальных агентов, Google представила протокол Agent-to-Agent (A2A), предназначенный для обеспечения безопасной и стандартизированной связи между различными AI-агентами.

Google считает, что 2025 год станет переломным для AI, когда генеративные приложения AI эволюционируют от ответов на отдельные вопросы к решению сложных проблем с помощью агентских систем.

Протокол A2A обеспечивает взаимодействие между агентами на разных платформах и в разных структурах, предоставляя им общий ‘язык’ и безопасные каналы связи. Этот протокол можно рассматривать как сетевой уровень для интеллектуальных агентов, направленный на упрощение сотрудничества агентов в сложных рабочих процессах. Позволяя специализированным AI-агентам работать вместе над задачами различной сложности и продолжительности, A2A стремится расширить общие возможности посредством сотрудничества.

A2A работает путем установления стандартизированного способа обмена информацией и координации действий агентами, не требуя от них обмена базовым кодом или структурами данных. Это позволяет создавать более модульные и гибкие системы AI, где агентов можно легко добавлять, удалять или перенастраивать по мере необходимости.

Google провела сравнение протоколов MCP и A2A в блоге.

  • MCP (Model Context Protocol) предназначен для управления инструментами и ресурсами.
    • Он связывает агентов с инструментами, API и ресурсами с помощью структурированного ввода/вывода.
    • Google ADK поддерживает инструменты MCP, позволяя различным серверам MCP работать с агентами.
  • A2A (Agent2Agent Protocol) предназначен для сотрудничества между агентами.
    • Он обеспечивает динамическую мультимодальную связь между агентами без обмена памятью, ресурсами или инструментами.
    • Это открытый стандарт, управляемый сообществом.
    • Примеры можно просмотреть с помощью Google ADK, LangGraph, Crew.AI и других инструментов.

По сути, A2A и MCP дополняют друг друга: MCP предоставляет агентам поддержку инструментов, а A2A позволяет этим агентам, оснащенным инструментами, общаться и сотрудничать друг с другом.

Судя по первоначальным партнерам, A2A, похоже, готов привлечь такое же внимание, как и MCP. Более 50 компаний присоединились к первоначальному сотрудничеству, включая ведущие технологические фирмы и ведущих мировых поставщиков услуг консалтинга и системной интеграции.

Google подчеркивает открытость протокола, позиционируя его как стандартный способ сотрудничества агентов, независимо от базовой технологической структуры или поставщика услуг. Google изложила пять ключевых принципов, которые легли в основу разработки протокола в сотрудничестве со своими партнерами:

  1. Примите возможности агента: A2A фокусируется на том, чтобы агенты могли сотрудничать в своей естественной, неструктурированной форме, даже если у них нет общей памяти, инструментов и контекста. Протокол направлен на то, чтобы сделать возможными настоящие сценарии с несколькими агентами, а не ограничивать агентов простыми ‘инструментами’.
  2. Основывайтесь на существующих стандартах: Протокол основывается на существующих популярных стандартах, включая HTTP, SSE и JSON-RPC, что упрощает его интеграцию с существующими IT-стеками, обычно используемыми предприятиями.
  3. Безопасность по умолчанию: A2A разработан для поддержки аутентификации и авторизации корпоративного уровня, сравнимой со схемами аутентификации OpenAPI при запуске.
  4. Поддержка длительных задач: A2A разработан так, чтобы быть гибким, поддерживая широкий спектр сценариев, от быстрых задач до углубленных исследований, которые могут занять часы или даже дни (когда участвуют люди). На протяжении всего процесса A2A может предоставлять пользователям обратную связь в режиме реального времени, уведомления и обновления статуса.
  5. Агностик модальности: Мир агентов не ограничивается текстом, поэтому A2A разработан для поддержки различных модальностей, включая аудио- и видеопотоки.

Google приводит пример того, как A2A может значительно упростить процесс найма.

В унифицированном интерфейсе, таком как Agentspace, менеджер по найму может назначить агента для поиска подходящих кандидатов на основе требований к работе. Этот агент может взаимодействовать со специализированными агентами для поиска кандидатов, планирования собеседований и даже привлекать других специализированных агентов для помощи в проверке биографических данных, что позволяет интеллектуально автоматизировать весь процесс найма в разных системах.

Принятие протокола контекста модели (MCP)

В дополнение к своим усилиям по разработке A2A, Google также принимает протокол контекста модели (MCP). Всего через несколько недель после того, как OpenAI объявила о принятии MCP, Google последовала ее примеру.

Демис Хассабис, генеральный директор Google DeepMind, недавно объявил в X, что Google добавит поддержку MCP в свои модели Gemini и SDK. Однако он не предоставил конкретных сроков.

Хассабис заявил, что ‘MCP - это отличный протокол, который быстро становится открытым стандартом для эпохи AI-агентов. Я с нетерпением жду возможности работать с командой MCP и другими партнерами в отрасли над продвижением этой технологии’.

С момента своего выпуска в ноябре 2024 года MCP быстро набрал обороты, став простым и стандартизированным способом подключения языковых моделей к инструментам и данным.

MCP позволяет моделям AI получать доступ к данным из таких источников, как корпоративные инструменты и программное обеспечение, для выполнения задач, а также получать доступ к библиотекам контента и средам разработки приложений. Протокол позволяет разработчикам устанавливать двунаправленные соединения между источниками данных и приложениями на основе AI, такими как чат-боты.

Разработчики могут предоставлять интерфейсы данных через серверы MCP и создавать клиенты MCP (такие как приложения и рабочие процессы) для подключения к этим серверам. С тех пор как Anthropic открыла исходный код MCP, несколько компаний интегрировали поддержку MCP в свои платформы.