Пейзажът на изкуствения интелект (AI) непрекъснато се развива, като напредъкът в хардуера играе ключова роля за отключване на нови възможности. Google, лидер в иновациите в областта на AI, наскоро представи своето седмо поколение Tensor Processing Unit (TPU) с кодово име Ironwood, отбелязвайки значителна стъпка в AI изчислителните възможности. Този авангарден AI ускорител може да се похвали с изчислителна мощ, която надминава дори най-бързите суперкомпютри в света с поразителен фактор 24 при широкомащабни внедрявания.
Представен на конференцията Google Cloud Next ‘25, Ironwood представлява стратегически завой в десетгодишното пътуване на Google за разработване на AI чипове. За разлика от своите предшественици, които бяха проектирани предимно за AI задачи за обучение и inference, Ironwood е специално проектиран да се отличава в inference задачите, възвестявайки нова ера на приложения, задвижвани от AI.
Според Амин Вахдат, вицепрезидент и генерален мениджър на Machine Learning, Systems и Cloud AI в Google, ‘Ironwood е проектиран да поддържа следващата фаза на генеративен AI и неговите огромни изчислителни и комуникационни изисквания. Това е, което наричаме ‘Inference Era’, където AI агентите ще извличат и генерират данни проактивно, за да предоставят съвместно прозрения и отговори, а не само данни.’
Разкриване на безпрецедентните възможности на Ironwood
Техническите спецификации на Ironwood са наистина изключителни. Когато се мащабира до pod от 9 216 чипа, той може да достави зашеметяващите 42,5 exaflops на AI изчислителна мощ. Тази цифра засенчва 1,7 exaflops, предлагани от El Capitan, настоящият притежател на титлата за най-бързия суперкомпютър в света. Всеки отделен Ironwood чип може да се похвали с пикова изчислителна мощност от 4 614 TFLOPs.
Освен чистата изчислителна мощност, Ironwood също така разполага със значителни подобрения в паметта и честотната лента. Всеки чип е оборудван със 192GB високочестотна памет (HBM), шесткратно увеличение в сравнение с TPU от предишното поколение, Trillium, който беше пуснат миналата година. Освен това, честотната лента на паметта на чип достига 7,2 terabits/s, което представлява 4,5-кратно подобрение спрямо Trillium.
В ера, в която центровете за данни се разширяват и консумацията на енергия се превръща в критичен проблем, Ironwood също се откроява със своята енергийна ефективност. Неговата производителност на ват е два пъти по-висока от тази на Trillium и почти 30 пъти по-висока от първия TPU, представен през 2018 г.
Акцентът върху оптимизацията на inference сигнализира за ключова промяна в AI пейзажа. През последните години водещите AI лаборатории се фокусираха предимно върху изграждането на все по-големи основни модели с увеличаващ се брой параметри. Фокусът на Google върху оптимизацията на inference предполага преход към нова фаза, центрирана върху ефективността на внедряване и възможностите за inference.
Въпреки че обучението на модели остава от решаващо значение, броят на итерациите на обучение е краен. За разлика от това, тъй като AI технологиите все повече се интегрират в различни приложения, се очаква inference операциите да се извършват милиарди пъти дневно. Тъй като моделите растат по сложност, икономическата жизнеспособност на тези приложения става неразривно свързана с разходите за inference.
През последните осем години търсенето на Google за AI изчисления нарасна десетократно, достигайки зашеметяващите 100 милиона. Без специализирани архитектури като Ironwood, дори неумолимият напредък на закона на Мур би се затруднил да се справи с този експоненциален растеж.
По-специално, съобщението на Google подчертава нейния фокус върху ‘ментални модели’, способни да изпълняват сложни задачи за разсъждение, а не просто разпознаване на модели. Това предполага, че Google предвижда бъдеще, в което AI се простира отвъд по-големите модели и обхваща модели, които могат да разлагат проблеми, да извършват многостъпково разсъждение и да подражават на човешки мисловни процеси.
Захранване на следващото поколение големи модели
Google позиционира Ironwood като основната инфраструктура за своите най-напреднали AI модели, включително Gemini 2.5, който може да се похвали с вградени възможности за разсъждение.
Google също наскоро представи Gemini 2.5 Flash, по-малък вариант на своя водещ модел, предназначен за чувствителни към латентност, ежедневни приложения. Gemini 2.5 Flash може динамично да коригира дълбочината си на разсъждение въз основа на сложността на подканата.
Google също така показа своята изчерпателна гама от мултимодални генеративни модели, включително текст към изображение, текст към видео и новоразкритата функция текст към музика, Lyria. Демонстрация илюстрира как тези инструменти могат да бъдат комбинирани за създаване на цялостно промоционално видео за концерт.
Ironwood е само един компонент от по-широката AI инфраструктурна стратегия на Google. Google също така обяви Cloud WAN, управлявана услуга за широкообхватна мрежа, която позволява на предприятията да получат достъп до глобалната частна мрежова инфраструктура на Google.
Освен това, Google разширява своите софтуерни предложения за AI задачи, включително Pathways, машинен учебен runtime, разработен от Google DeepMind. Pathways вече позволява на клиентите да мащабират обслужването на модели в стотици TPU.
Насърчаване на AI Agent сътрудничество с A2A
Освен хардуерните подобрения, Google също очерта своята визия за AI екосистема, центрирана около многоагентни системи. За да улесни разработването на интелигентни агенти, Google представи протокола Agent-to-Agent (A2A), предназначен да даде възможност за сигурна и стандартизирана комуникация между различни AI агенти.
Google вярва, че 2025 ще бъде трансформираща година за AI, като генеративните AI приложения еволюират от отговаряне на единични въпроси към решаване на сложни проблеми чрез агентни системи.
Протоколът A2A позволява оперативна съвместимост между агенти в различни платформи и рамки, като им предоставя общ ‘език’ и сигурни комуникационни канали. Този протокол може да се разглежда като мрежов слой за интелигентни агенти, целящ да опрости сътрудничеството между агенти в сложни работни процеси. Като дава възможност на специализирани AI агенти да работят заедно по задачи с различна сложност и продължителност, A2A се стреми да подобри общите възможности чрез сътрудничество.
A2A работи чрез установяване на стандартизиран начин за агентите да обменят информация и да координират действия, без да се изисква от тях да споделят основен код или структури от данни. Това позволява създаването на по-модулни и гъвкави AI системи, където агентите могат лесно да бъдат добавяни, премахвани или преконфигурирани, ако е необходимо.
Google направи сравнение между протоколите MCP и A2A в публикация в блог.
- MCP (Model Context Protocol) е предназначен за управление на инструменти и ресурси.
- Той свързва агенти с инструменти, API и ресурси чрез структуриран вход/изход.
- Google ADK поддържа MCP инструменти, позволявайки на различни MCP сървъри да работят с агенти.
- A2A (Agent2Agent Protocol) е предназначен за сътрудничество между агенти.
- Той позволява динамична, мултимодална комуникация между агенти без споделяне на памет, ресурси или инструменти.
- Той е отворен стандарт, задвижван от общността.
- Примери могат да бъдат разгледани с помощта на Google ADK, LangGraph, Crew.AI и други инструменти.
По същество A2A и MCP са взаимно допълващи се: MCP предоставя на агентите поддръжка на инструменти, докато A2A позволява на тези оборудвани с инструменти агенти да комуникират и да си сътрудничат помежду си.
Съдейки по първоначалните партньори, A2A изглежда готов да привлече подобно внимание като MCP. Над 50 компании са се присъединили към първоначалното сътрудничество, включително водещи технологични фирми и водещи глобални консултантски компании и доставчици на услуги за системна интеграция.
Google подчертава отвореността на протокола, позиционирайки го като стандартен начин за агентите да си сътрудничат, независимо от основната технологична рамка или доставчик на услуги. Google очерта пет ключови принципа, които са ръководили дизайна на протокола в сътрудничество с неговите партньори:
- Прегърнете възможностите на агентите: A2A се фокусира върху даването възможност на агентите да си сътрудничат по техния естествен, неструктуриран начин, дори ако не споделят памет, инструменти и контекст. Протоколът има за цел да даде възможност за истински многоагентни сценарии, а не да ограничава агентите до обикновени ‘инструменти’.
- Надграждане върху съществуващите стандарти: Протоколът надгражда съществуващите популярни стандарти, включително HTTP, SSE и JSON-RPC, което го прави по-лесен за интегриране със съществуващите ИТ стекове, обикновено използвани от предприятията.
- Защита по подразбиране: A2A е проектиран да поддържа удостоверяване и авторизация на ниво предприятие, сравнимо със схемите за удостоверяване на OpenAPI при стартиране.
- Поддръжка на дълготрайни задачи: A2A е проектиран да бъде гъвкав, поддържайки широка гама от сценарии, от бързи задачи до задълбочени изследвания, които могат да отнемат часове или дори дни (когато са включени хора). По време на целия процес A2A може да предостави на потребителите обратна връзка в реално време, известия и актуализации на състоянието.
- Модалност Агностик: Светът на агентите не се ограничава до текст, поради което A2A е проектиран да поддържа различни модалности, включително аудио и видео потоци.
Google предоставя пример за това как A2A може значително да рационализира процеса на наемане.
В унифициран интерфейс като Agentspace мениджър за наемане може да възложи на агент да намери подходящи кандидати въз основа на изискванията за работата. Този агент може да взаимодейства със специализирани агенти за намиране на кандидати, планиране на интервюта и дори да ангажира други специализирани агенти за подпомагане на проверките на миналото, позволявайки интелигентна автоматизация на целия процес на наемане в различни системи.
Прегръщане на протокола за контекст на модела (MCP)
В допълнение към усилията си за разработване на A2A, Google също така прегръща протокола за контекст на модела (MCP). Само седмици след като OpenAI обяви приемането си на MCP, Google последва примера.
Демис Хасабис, главен изпълнителен директор на Google DeepMind, наскоро обяви в X, че Google ще добави поддръжка за MCP към своите Gemini модели и SDK. Той обаче не предостави конкретен график.
Хасабис заяви, че ‘MCP е отличен протокол, който бързо се превръща в отворен стандарт за ерата на AI агентите. Очаквам с нетърпение да работя с екипа на MCP и други партньори в индустрията за напредък на тази технология.’
След пускането си през ноември 2024 г., MCP бързо набра популярност, превръщайки се в прост и стандартизиран начин за свързване на езикови модели с инструменти и данни.
MCP позволява на AI моделите да имат достъп до данни от източници като корпоративни инструменти и софтуер за изпълнение на задачи, както и достъп до библиотеки със съдържание и среди за разработка на приложения. Протоколът позволява на разработчиците да установяват двупосочни връзки между източници на данни и приложения, захранвани от AI, като например чатботове.
Разработчиците могат да излагат интерфейси за данни чрез MCP сървъри и да изграждат MCP клиенти (като приложения и работни процеси), за да се свързват с тези сървъри. Тъй като Anthropic с отворен код MCP, множество компании интегрираха поддръжката на MCP в своите платформи.