Ironwood TPU: AI скок в мощността

Ерата на изкуствения интелект (AI) претърпява революционна промяна с представянето на седмото поколение Tensor Processing Unit (TPU) на Google, наречено Ironwood. Този модерен AI ускорител притежава изчислителна мощ, която засенчва дори най-впечатляващите суперкомпютри в света. В мащабно разгръщане, способностите на Ironwood надвишават тези на най-бързия суперкомпютър цели 24 пъти.

Представянето на Ironwood на събитието Google Cloud Next ‘25 отбелязва ключов момент в десетгодишния стремеж на Google към иновации в областта на AI чиповете. Докато предишните итерации на TPU бяха предназначени предимно за обучение и inference на AI модели, Ironwood се откроява като първият чип, щателно създаден и оптимизиран за inference задачи.

Според Амин Вахдат, вицепрезидент и генерален мениджър на Machine Learning, Systems и Cloud AI в Google, ‘Ironwood е проектиран да задвижи следващата фаза на генеративния AI, като адресира огромните му изчислителни и комуникационни нужди. Навлизаме в това, което наричаме ‘Ерата на Inference’, където AI агенти ще извличат и генерират данни проактивно, за да предоставят съвместно прозрения и отговори, надхвърляйки възможностите на простото обработване на данни.’

Разгръщане на безпрецедентна изчислителна мощ: Поглед в способностите на Ironwood

Техническите спецификации на Ironwood звучат като списък с желания за AI изследователи и разработчици. Мащабирайки се до pod от 9 216 чипа, Ironwood предоставя изумителните 42,5 екзафлопа AI изчислителна мощ. За да се постави това в перспектива, той значително надвишава възможностите на настоящия суперкомпютър шампион, El Capitan, който достига пик от 1,7 екзафлопа. Индивидуално, всеки чип Ironwood се гордее с пикова изчислителна мощност от 4614 TFLOPs.

Освен необработената процесорна мощ, Ironwood въвежда значителни подобрения в паметта и честотната лента. Всеки чип е оборудван със 192 GB High Bandwidth Memory (HBM), шесткратно увеличение в сравнение с предишното поколение TPU, Trillium. Честотната лента на паметта също е значително подобрена, достигайки 7,2 терабита/s на чип, 4,5 пъти повече от тази на Trillium.

В епоха, в която центровете за данни се разширяват и консумацията на енергия се превръща във все по-критичен фактор, Ironwood демонстрира забележителна енергийна ефективност. Неговата производителност на ват е два пъти по-висока от тази на Trillium и почти 30 пъти по-добра от първоначалния TPU, представен през 2018 г.

Този преход към оптимизация на inference представлява важен етап в еволюцията на AI. През последните години водещите AI лаборатории се фокусираха върху изграждането на базови модели с непрекъснато нарастващ брой параметри. Акцентът на Google върху оптимизацията на inference сигнализира за преход към приоритизиране на ефективността на разгръщане и възможностите за inference в реалния свят.

Докато обучението на AI модели е сравнително рядка дейност, inference операциите се извършват милиарди пъти дневно, тъй като AI технологиите стават все по-разпространени. Икономическата жизнеспособност на бизнеса, захранван от AI, е неразривно свързана с разходите за inference, особено когато моделите стават все по-сложни.

През последните осем години търсенето на AI изчислителна мощ от Google нарасна експоненциално, увеличавайки се десетократно и достигайки изумителните 100 милиона. Без специализирани архитектури като Ironwood, законът на Мур сам по себе си не може да поддържа тази траектория на растеж.

Акцентът на Google върху ‘модели за разсъждение’, способни на сложни inference задачи, а не на просто разпознаване на модели, е особено забележителен. Това предполага, че Google предвижда бъдеще, в което AI превъзхожда не само чрез по-големи модели, но и чрез модели, способни да разбиват проблемите, да извършват многостъпково разсъждение и да подражават на човешките мисловни процеси.

Захранване на следващото поколение големи езикови модели

Google позиционира Ironwood като основната инфраструктура за своите най-напреднали AI модели, включително Gemini 2.5, който се гордее с ‘собствени възможности за разсъждение’.

Наред с Ironwood, Google представи Gemini 2.5 Flash, оптимизирана версия на водещия си модел, предназначена за чувствителни към латентност ежедневни приложения. Gemini 2.5 Flash може динамично да регулира дълбочината на разсъждението си въз основа на сложността на подканата.

Google също така демонстрира своя пакет от мултимодални генеративни модели, обхващащи текст към изображение, текст към видео и нововъведената функционалност текст към музика, Lyria. Убедителна демонстрация подчерта как тези инструменти могат да бъдат комбинирани, за да се създаде завършено промоционално видео за концерт.

Ironwood е само един компонент от цялостната AI инфраструктурна стратегия на Google. Компанията също така представи Cloud WAN, управлявана услуга за широкообхватна мрежа, която позволява на бизнеса да се възползва от частната мрежова инфраструктура на Google в глобален мащаб.

Google също така разширява софтуерните си предложения за AI работни натоварвания, включително Pathways, машина за обучение, разработена от Google DeepMind, която позволява на клиентите да мащабират обслужването на модели в стотици TPU.

Визия за съвместен интелект: Представяне на A2A и MCP поддръжка

Отвъд хардуерните подобрения, Google формулира своята визия за AI, центрирана около системи с множество агенти, и представи протокола Agent-to-Agent (A2A), предназначен да насърчава сигурна и стандартизирана комуникация между различни AI агенти.

Google очаква 2025 г. да бъде трансформираща година за AI, като генеративните AI приложения еволюират от отговаряне на единични въпроси към решаване на сложни проблеми чрез взаимосвързани системи от агенти.

Протоколът A2A позволява оперативна съвместимост между платформи и рамки, предоставяйки на AI агентите общ ‘език’ и сигурни комуникационни канали. Мислете за него като за мрежов слой за AI агенти, опростяващ сътрудничеството в сложни работни процеси и позволяващ на специализирани AI агенти колективно да се справят със задачи с различна сложност и продължителност, като по този начин подобряват общите възможности чрез сътрудничество.

Как работи A2A

Google предостави сравнителен преглед на протоколите MCP и A2A:

  • MCP (Model Context Protocol): Фокусира се върху управлението на инструменти и ресурси.
    • Свързва агенти с инструменти, API и ресурси чрез структуриран вход/изход.
    • Google ADK поддържа MCP инструменти, улеснявайки безпроблемното взаимодействие между MCP сървъри и агенти.
  • A2A (Agent2Agent Protocol): Улеснява сътрудничеството между агенти.
    • Позволява динамична, мултимодална комуникация между агенти, без да се изисква споделена памет, ресурси или инструменти.
    • Това е отворен стандарт, управляван от общността.
    • Примери могат да бъдат изследвани с помощта на инструменти като Google ADK, LangGraph и Crew.AI.

A2A и MCP са допълващи се. MCP оборудва агентите с инструменти, докато A2A дава възможност на тези оборудвани агенти да разговарят и да си сътрудничат.

Първоначалният списък на Google с партньори предполага, че A2A е готов да получи подобно внимание като MCP. Инициативата вече привлече над 50 организации, включително водещи технологични компании и глобални консултантски и системни интеграционни доставчици.

Google подчертава отвореността на протокола, позиционирайки го като стандарт за междуагентно сътрудничество, който надхвърля основните технологични рамки или доставчици на услуги. Google подчерта пет ръководни принципа, които оформиха дизайна на протокола:

  1. Приемете възможностите на агентите: A2A приоритизира възможността агентите да си сътрудничат естествено, дори без да споделят памет, инструменти или контекст. Целта е да се даде възможност за истински сценарии с множество агенти, а не просто да се ограничат агентите да действат като ‘инструменти’.
  2. Надграждане върху съществуващите стандарти: Протоколът използва съществуващи, широко възприети стандарти, включително HTTP, SSE и JSON-RPC, опростявайки интеграцията със съществуващите ИТ стекове.
  3. Сигурно по подразбиране: A2A е проектиран да поддържа удостоверяване и авторизация от корпоративен клас, сравними със схемите за удостоверяване на OpenAPI.
  4. Поддръжка на дълготрайни задачи: Гъвкавостта на A2A му позволява да поддържа широк спектър от сценарии, от бързи задачи до задълбочени изследвания, които могат да отнемат часове или дори дни (особено когато е необходимо човешко участие). През целия процес A2A може да предостави на потребителите обратна връзка в реално време, известия и актуализации на състоянието.
  5. Агностик на модалността: Признавайки, че светът на агентите се простира отвъд текста, A2A поддържа различни модалности, включително аудио и видео потоци.

Google предостави пример за това как A2A опростява процеса на наемане.

В унифициран интерфейс като Agentspace, мениджър по наемане може да възложи на агент да идентифицира подходящи кандидати въз основа на изискванията на длъжността. Този агент може да взаимодейства със специализирани агенти за набиране на кандидати. Потребителите също така могат да инструктират агентите да насрочват интервюта и да ангажират други специализирани агенти, за да подпомогнат проверките на миналото, позволявайки напълно автоматизирано и интелигентно набиране на персонал в системите.

Приемане на протокола за контекст на модела (MCP)

Google също така приема MCP. Малко след като OpenAI обяви приемането си на протокола за контекст на модела (MCP) на Anthropic, Google последва примера.

Демис Хасабис, главен изпълнителен директор на Google DeepMind, обяви в X (бивш Twitter), че Google ще добави поддръжка за MCP в своите модели Gemini и SDK, въпреки че не предостави конкретен график.

Хасабис заяви, че ‘MCP е отличен протокол, който бързо се превръща в отворен стандарт за епохата на AI агентите. Очакваме с нетърпение да работим с MCP екипа и други партньори в индустрията, за да развием тази технология.’

От пускането си през ноември 2024 г., MCP придоби значителна популярност като прост, стандартизиран начин за свързване на езикови модели с инструменти и данни.

MCP позволява на AI моделите да имат достъп до данни от корпоративни инструменти и софтуер, за да изпълняват задачи и да имат достъп до библиотеки със съдържание и среди за разработка на приложения. Протоколът позволява на разработчиците да установяват двупосочни връзки между източници на данни и AI-базирани приложения като чатботове.

Разработчиците могат да излагат интерфейси за данни чрез MCP сървъри и да създават MCP клиенти (като приложения и работни процеси), за да се свързват с тези сървъри. Тъй като Anthropic с отворен код MCP, няколко компании са интегрирали MCP поддръжка в своите платформи.

Ironwood: Зората на нова ера в AI

Ironwood TPU на Google представлява значителен скок напред в AI изчисленията. Неговата безпрецедентна производителност, оптимизирана архитектура и поддръжка за нововъзникващи протоколи като A2A и MCP го позиционират като ключов фактор за следващата вълна от AI иновации. Тъй като AI моделите стават все по-сложни и взискателни, Ironwood предоставя необработената мощ и гъвкавост, необходими за отключване на нови възможности и трансформиране на индустриите по целия свят. Това не е просто нов чип; това е основа за бъдеще, захранвано от интелигентни машини, работещи съвместно за решаване на сложни проблеми и подобряване на живота ни.