Ironwood TPU de Google: Salto cuántico en IA

El panorama de la inteligencia artificial (IA) está en constante evolución, y los avances en hardware desempeñan un papel fundamental para desbloquear nuevas posibilidades. Google, un líder en innovación en IA, ha revelado recientemente su unidad de procesamiento tensorial (TPU) de séptima generación, con nombre en código Ironwood, que marca un avance significativo en las capacidades de cómputo de IA. Este acelerador de IA de vanguardia cuenta con una destreza computacional que supera incluso a las supercomputadoras más rápidas del mundo en un factor asombroso de 24 en implementaciones a gran escala.

Anunciado en la conferencia Google Cloud Next ‘25, Ironwood representa un giro estratégico en el viaje de una década de Google en el desarrollo de chips de IA. A diferencia de sus predecesores, que fueron diseñados principalmente para cargas de trabajo de entrenamiento e inferencia de IA, Ironwood está diseñado específicamente para sobresalir en las tareas de inferencia, lo que anuncia una nueva era de aplicaciones impulsadas por la IA.

Según Amin Vahdat, vicepresidente y gerente general de aprendizaje automático, sistemas e IA en la nube de Google, ‘Ironwood está diseñado para admitir la próxima fase de la IA generativa y sus enormes requisitos de cómputo y comunicación. Esto es lo que llamamos la ‘Era de la inferencia’, donde los agentes de IA recuperarán y generarán datos de manera proactiva para brindar información y respuestas de manera colaborativa, no solo datos’.

Revelando las capacidades sin precedentes de Ironwood

Las especificaciones técnicas de Ironwood son extraordinarias. Cuando se escala a una cápsula de 9216 chips, puede ofrecer una asombrosa potencia de cómputo de IA de 42,5 exaflops. Esta cifra empequeñece los 1,7 exaflops que ofrece El Capitan, el actual poseedor del título de la supercomputadora más rápida del mundo. Cada chip Ironwood individual cuenta con una capacidad de cómputo máxima de 4614 TFLOPs.

Más allá de la potencia de procesamiento pura, Ironwood también presenta mejoras significativas en la memoria y el ancho de banda. Cada chip está equipado con 192 GB de memoria de gran ancho de banda (HBM), un aumento de seis veces en comparación con la TPU de generación anterior, Trillium, que se lanzó el año pasado. Además, el ancho de banda de la memoria por chip alcanza los 7,2 terabits/s, lo que representa una mejora de 4,5 veces con respecto a Trillium.

En una era en la que los centros de datos se están expandiendo y el consumo de energía se está convirtiendo en una preocupación fundamental, Ironwood también destaca por su eficiencia energética. Su rendimiento por vatio es el doble que el de Trillium y casi 30 veces mayor que el de la primera TPU presentada en 2018.

El énfasis en la optimización de la inferencia significa un cambio fundamental en el panorama de la IA. En los últimos años, los principales laboratorios de IA se han centrado principalmente en la construcción de modelos básicos cada vez más grandes con un número creciente de parámetros. El enfoque de Google en la optimización de la inferencia sugiere una transición hacia una nueva fase centrada en la eficiencia de la implementación y las capacidades de inferencia.

Si bien el entrenamiento del modelo sigue siendo crucial, el número de iteraciones de entrenamiento es finito. Por el contrario, a medida que las tecnologías de IA se integran cada vez más en diversas aplicaciones, se espera que las operaciones de inferencia se produzcan miles de millones de veces al día. A medida que los modelos crecen en complejidad, la viabilidad económica de estas aplicaciones se vuelve inextricablemente ligada a los costos de inferencia.

Durante los últimos ocho años, la demanda de cómputo de IA de Google se ha multiplicado por diez, alcanzando la asombrosa cifra de 100 millones. Sin arquitecturas especializadas como Ironwood, incluso el progreso implacable de la ley de Moore tendría dificultades para seguir el ritmo de este crecimiento exponencial.

En particular, el anuncio de Google destaca su enfoque en ‘modelos mentales’ capaces de realizar tareas de razonamiento complejas en lugar de un simple reconocimiento de patrones. Esto sugiere que Google prevé un futuro en el que la IA se extienda más allá de los modelos más grandes y abarque modelos que puedan descomponer problemas, realizar razonamientos de varios pasos y emular procesos de pensamiento similares a los humanos.

Impulsando la próxima generación de modelos grandes

Google posiciona a Ironwood como la infraestructura fundamental para sus modelos de IA más avanzados, incluido Gemini 2.5, que cuenta con capacidades de razonamiento integradas de forma nativa.

Google también ha presentado recientemente Gemini 2.5 Flash, una variante más pequeña de su modelo insignia diseñada para aplicaciones cotidianas sensibles a la latencia. Gemini 2.5 Flash puede ajustar dinámicamente su profundidad de razonamiento en función de la complejidad del mensaje.

Google también mostró su conjunto integral de modelos generativos multimodales, que incluyen texto a imagen, texto a video y la función de texto a música recientemente presentada, Lyria. Una demostración ilustró cómo estas herramientas podrían combinarse para producir un video promocional completo para un concierto.

Ironwood es solo un componente de la estrategia de infraestructura de IA más amplia de Google. Google también anunció Cloud WAN, un servicio de red de área amplia administrado que permite a las empresas acceder a la infraestructura de red privada a escala global de Google.

Además, Google está ampliando sus ofertas de software para cargas de trabajo de IA, incluido Pathways, un tiempo de ejecución de aprendizaje automático desarrollado por Google DeepMind. Pathways ahora permite a los clientes escalar el servicio de modelos en cientos de TPU.

Fomentando la colaboración de agentes de IA con A2A

Más allá de los avances en hardware, Google también ha esbozado su visión de un ecosistema de IA centrado en sistemas multiagente. Para facilitar el desarrollo de agentes inteligentes, Google ha introducido el protocolo Agent-to-Agent (A2A), diseñado para permitir una comunicación segura y estandarizada entre diferentes agentes de IA.

Google cree que 2025 marcará un año transformador para la IA, con aplicaciones de IA generativa que evolucionarán de responder preguntas individuales a resolver problemas complejos a través de sistemas de agentes.

El protocolo A2A permite la interoperabilidad entre agentes en diferentes plataformas y marcos, proporcionándoles un ‘lenguaje’ común y canales de comunicación seguros. Este protocolo puede verse como una capa de red para agentes inteligentes, cuyo objetivo es simplificar la colaboración de agentes en flujos de trabajo complejos. Al permitir que agentes de IA especializados trabajen juntos en tareas de diversa complejidad y duración, A2A busca mejorar las capacidades generales a través de la colaboración.

A2A funciona estableciendo una forma estandarizada para que los agentes intercambien información y coordinen acciones, sin requerir que compartan código o estructuras de datos subyacentes. Esto permite la creación de sistemas de IA más modulares y flexibles, donde los agentes se pueden agregar, quitar o reconfigurar fácilmente según sea necesario.

Google ha establecido una comparación entre los protocolos MCP y A2A en una publicación de blog.

  • MCP (Protocolo de contexto del modelo) está diseñado para la gestión de herramientas y recursos.
    • Conecta agentes a herramientas, API y recursos a través de entrada/salida estructurada.
    • Google ADK admite herramientas MCP, lo que permite que varios servidores MCP funcionen con agentes.
  • A2A (Protocolo Agent2Agent) está diseñado para la colaboración entre agentes.
    • Permite la comunicación dinámica y multimodal entre agentes sin compartir memoria, recursos o herramientas.
    • Es un estándar abierto impulsado por la comunidad.
    • Se pueden ver ejemplos utilizando Google ADK, LangGraph, Crew.AI y otras herramientas.

En esencia, A2A y MCP son complementarios: MCP proporciona a los agentes soporte de herramientas, mientras que A2A permite que estos agentes equipados con herramientas se comuniquen y colaboren entre sí.

A juzgar por los socios iniciales, A2A parece estar a punto de obtener una atención similar a la de MCP. Más de 50 empresas se han unido a la colaboración inicial, incluidas las principales empresas de tecnología y los principales proveedores de servicios de integración de sistemas y consultoría global.

Google enfatiza la apertura del protocolo, posicionándolo como una forma estándar para que los agentes colaboren, independientemente del marco tecnológico o proveedor de servicios subyacente. Google describió cinco principios clave que guiaron el diseño del protocolo en colaboración con sus socios:

  1. Adoptar las capacidades del agente: A2A se centra en permitir que los agentes colaboren de forma natural y no estructurada, incluso si no comparten memoria, herramientas y contexto. El protocolo tiene como objetivo permitir verdaderos escenarios multiagente, en lugar de restringir a los agentes a ser meras ‘herramientas’.
  2. Basarse en los estándares existentes: El protocolo se basa en los estándares populares existentes, incluidos HTTP, SSE y JSON-RPC, lo que facilita la integración con las pilas de TI existentes que utilizan comúnmente las empresas.
  3. Seguro por defecto: A2A está diseñado para admitir la autenticación y autorización de nivel empresarial, comparable a los esquemas de autenticación de OpenAPI en el lanzamiento.
  4. Admite tareas de larga duración: A2A está diseñado para ser flexible, admitiendo una amplia gama de escenarios, desde tareas rápidas hasta investigaciones en profundidad que pueden llevar horas o incluso días (cuando hay humanos involucrados). A lo largo del proceso, A2A puede proporcionar a los usuarios comentarios, notificaciones y actualizaciones de estado en tiempo real.
  5. Agnóstico a la modalidad: El mundo de los agentes no se limita al texto, por lo que A2A está diseñado para admitir varias modalidades, incluidos los flujos de audio y video.

Google proporciona un ejemplo de cómo A2A puede agilizar significativamente el proceso de contratación.

En una interfaz unificada como Agentspace, un gerente de contratación puede asignar un agente para encontrar candidatos adecuados en función de los requisitos del trabajo. Este agente puede interactuar con agentes especializados para obtener candidatos, programar entrevistas e incluso involucrar a otros agentes especializados para ayudar con las verificaciones de antecedentes, lo que permite la automatización inteligente de todo el proceso de contratación en diferentes sistemas.

Adoptando el Protocolo de Contexto del Modelo (MCP)

Además de sus esfuerzos en el desarrollo de A2A, Google también está adoptando el Protocolo de Contexto del Modelo (MCP). Apenas unas semanas después de que OpenAI anunciara su adopción de MCP, Google hizo lo mismo.

Demis Hassabis, CEO de Google DeepMind, anunció recientemente en X que Google agregará soporte para MCP a sus modelos Gemini y SDK. Sin embargo, no proporcionó un cronograma específico.

Hassabis declaró que ‘MCP es un protocolo excelente que se está convirtiendo rápidamente en el estándar abierto para la era del agente de IA. Espero trabajar con el equipo de MCP y otros socios en la industria para avanzar en esta tecnología’.

Desde su lanzamiento en noviembre de 2024, MCP ha ganado terreno rápidamente, convirtiéndose en una forma sencilla y estandarizada de conectar modelos de lenguaje con herramientas y datos.

MCP permite que los modelos de IA accedan a datos de fuentes como herramientas y software empresariales para completar tareas, así como acceder a bibliotecas de contenido y entornos de desarrollo de aplicaciones. El protocolo permite a los desarrolladores establecer conexiones bidireccionales entre fuentes de datos y aplicaciones impulsadas por IA, como chatbots.

Los desarrolladores pueden exponer interfaces de datos a través de servidores MCP y crear clientes MCP (como aplicaciones y flujos de trabajo) para conectarse a estos servidores. Desde que Anthropic abrió el código fuente de MCP, varias empresas han integrado el soporte de MCP en sus plataformas.