Ironwood TPU: Salto cuántico en IA de Google

El panorama de la inteligencia artificial se ha redefinido con la presentación de la séptima generación de la Unidad de Procesamiento Tensorial (TPU) de Google, bautizada como Ironwood. Este acelerador de IA de vanguardia cuenta con una destreza computacional que empequeñece incluso a las supercomputadoras más formidables del mundo. En una implementación a gran escala, las capacidades de Ironwood superan a las de la supercomputadora más rápida en unas asombrosas 24 veces.

La presentación de Ironwood en el evento Google Cloud Next ‘25 marca un momento crucial en la búsqueda de Google de innovación en chips de IA durante una década. Si bien las iteraciones anteriores de TPU atendían principalmente a las cargas de trabajo de entrenamiento e inferencia de los modelos de IA, Ironwood destaca como el primer chip meticulosamente diseñado y optimizado para tareas de inferencia.

Según Amin Vahdat, Vicepresidente y Gerente General de Aprendizaje Automático, Sistemas e IA en la nube de Google, ‘Ironwood está diseñado para impulsar la próxima fase de la IA generativa, abordando sus inmensas demandas computacionales y de comunicación. Estamos entrando en lo que llamamos la ‘Era de la Inferencia’, donde los agentes de IA recuperarán y generarán datos de manera proactiva para ofrecer conocimientos y respuestas de manera colaborativa, superando las capacidades del mero procesamiento de datos’.

Liberando una potencia computacional sin precedentes: Una inmersión en las capacidades de Ironwood

Las especificaciones técnicas de Ironwood se leen como una lista de deseos para investigadores y desarrolladores de IA. Escalando a un pod de 9.216 chips, Ironwood ofrece unos asombrosos 42,5 exaflops de computación de IA. Para poner esto en perspectiva, supera con creces las capacidades del actual campeón de supercomputadoras reinante, El Capitan, que alcanza un máximo de 1,7 exaflops. Individualmente, cada chip Ironwood cuenta con una capacidad de cálculo máxima de 4614 TFLOPs.

Más allá de la potencia de procesamiento bruta, Ironwood introduce mejoras significativas en la memoria y el ancho de banda. Cada chip está equipado con 192 GB de memoria de alto ancho de banda (HBM), un aumento de seis veces en comparación con la TPU de la generación anterior, Trillium. El ancho de banda de la memoria también se ha mejorado drásticamente, alcanzando los 7,2 terabits/s por chip, 4,5 veces más que Trillium.

En una era en la que los centros de datos se están expandiendo y el consumo de energía se está convirtiendo en un factor cada vez más crítico, Ironwood demuestra una notable eficiencia energética. Su rendimiento por vatio es el doble que el de Trillium y casi 30 veces mejor que la TPU inicial introducida en 2018.

Este cambio hacia la optimización de la inferencia representa un hito significativo en la evolución de la IA. En los últimos años, los principales laboratorios de IA se han centrado en la construcción de modelos de base con un número de parámetros cada vez mayor. El énfasis de Google en la optimización de la inferencia señala un cambio hacia la priorización de la eficiencia de la implementación y las capacidades de inferencia en el mundo real.

Si bien el entrenamiento de modelos de IA es una actividad relativamente infrecuente, las operaciones de inferencia ocurren miles de millones de veces al día a medida que las tecnologías de IA se vuelven más omnipresentes. La viabilidad económica de las empresas impulsadas por la IA está intrínsecamente ligada a los costes de inferencia, especialmente a medida que los modelos se vuelven cada vez más complejos.

En los últimos ocho años, la demanda de Google de computación de IA ha crecido exponencialmente, aumentando diez veces y alcanzando la asombrosa cifra de 100 millones. Sin arquitecturas especializadas como Ironwood, la ley de Moore por sí sola no puede sostener esta trayectoria de crecimiento.

El énfasis de Google en los ‘modelos de razonamiento’ capaces de tareas de inferencia complejas, en lugar del simple reconocimiento de patrones, es particularmente notable. Esto sugiere que Google prevé un futuro donde la IA sobresale no solo a través de modelos más grandes, sino también a través de modelos capaces de dividir problemas, realizar razonamiento de varios pasos y emular procesos de pensamiento similares a los humanos.

Impulsando la próxima generación de modelos de lenguaje grandes

Google posiciona a Ironwood como la infraestructura fundamental para sus modelos de IA más avanzados, incluido Gemini 2.5, que cuenta con ‘capacidades de razonamiento nativas’.

Junto con Ironwood, Google presentó Gemini 2.5 Flash, una versión optimizada de su modelo insignia diseñado para aplicaciones cotidianas sensibles a la latencia. Gemini 2.5 Flash puede ajustar dinámicamente su profundidad de razonamiento en función de la complejidad del aviso.

Google también mostró su conjunto de modelos generativos multimodales, que abarcan texto a imagen, texto a video y la funcionalidad de texto a música recientemente introducida, Lyria. Una demostración convincente destacó cómo estas herramientas se pueden combinar para producir un video promocional completo para un concierto.

Ironwood es solo un componente de la estrategia integral de infraestructura de IA de Google. La compañía también introdujo Cloud WAN, un servicio de red de área amplia administrado que permite a las empresas aprovechar la infraestructura de red privada a escala global de Google.

Google también está expandiendo sus ofertas de software para cargas de trabajo de IA, incluido Pathways, un tiempo de ejecución de aprendizaje automático desarrollado por Google DeepMind, que permite a los clientes escalar el servicio de modelos en cientos de TPU.

Una visión de inteligencia colaborativa: Introducción al soporte de A2A y MCP

Más allá de los avances de hardware, Google articuló su visión para la IA centrada en sistemas multiagente e introdujo el protocolo Agente a Agente (A2A), diseñado para fomentar la comunicación segura y estandarizada entre diversos agentes de IA.

Google anticipa 2025 como un año transformador para la IA, con aplicaciones de IA generativa que evolucionan desde responder preguntas individuales hasta resolver problemas complejos a través de sistemas de agentes interconectados.

El protocolo A2A permite la interoperabilidad entre plataformas y marcos, proporcionando a los agentes de IA un ‘lenguaje’ común y canales de comunicación seguros. Piense en ello como una capa de red para agentes de IA, simplificando la colaboración en flujos de trabajo complejos y permitiendo que agentes de IA especializados aborden colectivamente tareas de diversa complejidad y duración, mejorando así las capacidades generales a través de la cooperación.

Cómo funciona A2A

Google ha proporcionado una descripción comparativa de los protocolos MCP y A2A:

  • MCP (Protocolo de Contexto del Modelo): Se centra en la gestión de herramientas y recursos.
    • Conecta agentes a herramientas, API y recursos a través de entrada/salida estructurada.
    • Google ADK es compatible con las herramientas MCP, lo que facilita la interacción fluida entre los servidores y los agentes MCP.
  • A2A (Protocolo Agente2Agente): Facilita la colaboración entre agentes.
    • Permite la comunicación dinámica y multimodal entre agentes sin necesidad de memoria, recursos o herramientas compartidas.
    • Es un estándar abierto impulsado por la comunidad.
    • Se pueden explorar ejemplos utilizando herramientas como Google ADK, LangGraph y Crew.AI.

A2A y MCP son complementarios. MCP equipa a los agentes con herramientas, mientras que A2A permite a estos agentes equipados conversar y colaborar.

La lista inicial de socios de Google sugiere que A2A está a punto de recibir una atención similar a la de MCP. La iniciativa ya ha atraído a más de 50 organizaciones, incluidas las principales empresas de tecnología y los proveedores globales de consultoría e integración de sistemas.

Google enfatiza la apertura del protocolo, posicionándolo como un estándar para la colaboración entre agentes que trasciende los marcos tecnológicos subyacentes o los proveedores de servicios. Google destacó cinco principios rectores que dieron forma al diseño del protocolo:

  1. Adoptar las capacidades del agente: A2A prioriza permitir que los agentes colaboren de forma natural, incluso sin compartir memoria, herramientas o contexto. El objetivo es habilitar verdaderos escenarios multiagente, no simplemente limitar a los agentes a actuar como ‘herramientas’.
  2. Construir sobre los estándares existentes: El protocolo aprovecha los estándares existentes y ampliamente adoptados, incluidos HTTP, SSE y JSON-RPC, lo que simplifica la integración con las pilas de TI existentes.
  3. Seguro por defecto: A2A está diseñado para admitir la autenticación y autorización de nivel empresarial, comparable a los esquemas de autenticación de OpenAPI.
  4. Admite tareas de larga duración: La flexibilidad de A2A le permite admitir una amplia gama de escenarios, desde tareas rápidas hasta investigaciones en profundidad que pueden llevar horas o incluso días (especialmente cuando se necesita la participación humana). A lo largo del proceso, A2A puede proporcionar a los usuarios comentarios, notificaciones y actualizaciones de estado en tiempo real.
  5. Agnóstico a la modalidad: Reconociendo que el mundo de los agentes se extiende más allá del texto, A2A admite varias modalidades, incluidos los flujos de audio y video.

Google proporcionó un ejemplo de cómo A2A agiliza el proceso de contratación.

En una interfaz unificada como Agentspace, un gerente de contratación puede asignar un agente para identificar candidatos adecuados en función de los requisitos del puesto. Este agente puede interactuar con agentes especializados para buscar candidatos. Los usuarios también pueden indicar a los agentes que programen entrevistas e involucren a otros agentes especializados para que ayuden con las verificaciones de antecedentes, lo que permite una contratación totalmente automatizada e inteligente en todos los sistemas.

Adoptando el protocolo de contexto del modelo (MCP)

Google también está adoptando MCP. Poco después de que OpenAI anunciara su adopción del Protocolo de contexto del modelo (MCP) de Anthropic, Google hizo lo mismo.

Demis Hassabis, CEO de Google DeepMind, anunció en X (anteriormente Twitter) que Google agregaría soporte para MCP en sus modelos y SDK de Gemini, aunque no proporcionó un cronograma específico.

Hassabis declaró que ‘MCP es un excelente protocolo que se está convirtiendo rápidamente en un estándar abierto para la era de los agentes de IA. Esperamos trabajar con el equipo de MCP y otros socios de la industria para avanzar en esta tecnología’.

Desde su lanzamiento en noviembre de 2024, MCP ha ganado una tracción significativa como una forma simple y estandarizada de conectar modelos de lenguaje con herramientas y datos.

MCP permite que los modelos de IA accedan a datos de herramientas y software empresariales para completar tareas y acceder a bibliotecas de contenido y entornos de desarrollo de aplicaciones. El protocolo permite a los desarrolladores establecer conexiones bidireccionales entre fuentes de datos y aplicaciones impulsadas por IA, como chatbots.

Los desarrolladores pueden exponer interfaces de datos a través de servidores MCP y crear clientes MCP (como aplicaciones y flujos de trabajo) para conectarse a estos servidores. Dado que Anthropic ha abierto el código fuente de MCP, varias empresas han integrado el soporte de MCP en sus plataformas.

Ironwood: El amanecer de una nueva era en la IA

La TPU Ironwood de Google representa un avance significativo en la computación de IA. Su rendimiento sin precedentes, su arquitectura optimizada y su soporte para protocolos emergentes como A2A y MCP lo posicionan como un habilitador clave de la próxima ola de innovación en IA. A medida que los modelos de IA se vuelven más complejos y exigentes, Ironwood proporciona la potencia bruta y la flexibilidad necesarias para desbloquear nuevas posibilidades y transformar las industrias en todo el mundo. No es solo un nuevo chip; es una base para un futuro impulsado por máquinas inteligentes que trabajan en colaboración para resolver problemas complejos y mejorar nuestras vidas.