El panorama del procesamiento de la inteligencia artificial (IA) ha cambiado significativamente con la presentación de la Unidad de Procesamiento Tensor (TPU) de séptima generación de Google, conocida como Ironwood. Este acelerador de IA de vanguardia cuenta con capacidades computacionales que, en implementaciones a gran escala, superan más de 24 veces a la supercomputadora más rápida del mundo.
Este nuevo chip, revelado en la conferencia Google Cloud Next ‘25, marca un momento crucial en la estrategia de una década de Google en el desarrollo de chips de IA. A diferencia de sus predecesores, que fueron diseñados principalmente para cargas de trabajo de entrenamiento e inferencia de IA, Ironwood está diseñado específicamente para la inferencia, lo que señala un cambio estratégico hacia la optimización de la eficiencia de la implementación de la IA.
Amin Vahdat, Vicepresidente y Gerente General de Aprendizaje Automático, Sistemas e IA en la Nube de Google, enfatizó esta transición, afirmando: ‘Ironwood está diseñado para soportar la próxima fase de la IA generativa y sus inmensas demandas de cómputo y comunicación. Esto es lo que llamamos la ‘Era de la Inferencia’, donde los agentes de IA recuperarán y generarán datos de manera proactiva para ofrecer ideas y respuestas de manera colaborativa, en lugar de simplemente procesar datos’.
Rompiendo Barreras con 42.5 Exaflops de Potencia de Cómputo
Las especificaciones técnicas de Ironwood son verdaderamente impresionantes. Cuando se escala a un pod de 9,216 chips, ofrece unos asombrosos 42.5 exaflops de cómputo de IA. Para poner esto en perspectiva, empequeñece a la supercomputadora más rápida del mundo actual, El Capitán, que opera a 1.7 exaflops. Cada chip Ironwood individual puede alcanzar una capacidad de cómputo pico de 4614 TFLOPs.
Más allá de la potencia de procesamiento bruta, Ironwood mejora significativamente la memoria y el ancho de banda. Cada chip está equipado con 192 GB de memoria de gran ancho de banda (HBM), un aumento de seis veces en comparación con la TPU de la generación anterior, Trillium, lanzada el año pasado. El ancho de banda de memoria por chip alcanza los 7.2 terabits/s, 4.5 veces el de Trillium.
- Potencia de Cómputo: 42.5 exaflops (por pod de 9,216 chips)
- Cómputo Pico por Chip: 4614 TFLOPs
- Memoria: 192 GB HBM por chip
- Ancho de Banda de Memoria: 7.2 terabits/s por chip
En una era donde los centros de datos se están expandiendo y el consumo de energía es una preocupación creciente, Ironwood también demuestra mejoras significativas en la eficiencia energética. Ofrece el doble de rendimiento por vatio en comparación con Trillium y casi 30 veces el de la primera TPU introducida en 2018.
Esta optimización para la inferencia significa un punto de inflexión crítico en la evolución de la IA. En los últimos años, los principales laboratorios de IA se han concentrado en desarrollar modelos básicos cada vez más grandes con un númerode parámetros en constante expansión. El enfoque de Google en la optimización de la inferencia sugiere un movimiento hacia un nuevo paradigma centrado en la eficiencia de la implementación y las capacidades de inferencia.
Si bien el entrenamiento de modelos sigue siendo esencial, las operaciones de inferencia son mucho más frecuentes y ocurren miles de millones de veces al día a medida que las tecnologías de IA se vuelven más omnipresentes. Para las empresas que aprovechan la IA, la economía está intrínsecamente ligada a los costos de inferencia a medida que los modelos se vuelven más complejos.
La demanda de cómputo de IA de Google se ha multiplicado por diez en los últimos ocho años, alcanzando la asombrosa cifra de 100 millones. Sin arquitecturas especializadas como Ironwood, sería imposible mantener esta trayectoria de crecimiento a través de los avances tradicionales en la Ley de Moore por sí solos.
En particular, el anuncio de Google enfatizó un enfoque en ‘modelos de razonamiento’ capaces de ejecutar tareas de inferencia complejas en lugar de un simple reconocimiento de patrones. Esto sugiere una creencia de que el futuro de la IA reside no solo en modelos más grandes, sino también en modelos capaces de descomponer problemas, participar en razonamientos de varios pasos y emular procesos de pensamiento similares a los humanos.
Potenciando la Próxima Generación de Modelos Grandes
Google posiciona a Ironwood como la infraestructura fundamental para sus modelos de IA más avanzados, incluido su propio Gemini 2.5, que cuenta con ‘habilidades de razonamiento nativas’.
La compañía también introdujo recientemente Gemini 2.5 Flash, una versión más pequeña de su modelo insignia diseñada para ‘ajustar la profundidad del razonamiento en función de la complejidad del prompt’. Este modelo está orientado a aplicaciones cotidianas que requieren tiempos de respuesta rápidos.
Google además mostró su conjunto integral de modelos de generación multimodal, que abarca texto a imagen, texto a video y su capacidad de texto a música recientemente revelada, Lyria. Una demostración ilustró cómo estas herramientas se pueden combinar para crear un video promocional completo para un concierto.
Ironwood es solo un componente de la estrategia de infraestructura de IA más amplia de Google. La compañía también anunció Cloud WAN, un servicio de red de área amplia administrada que brinda a las empresas acceso a la infraestructura de red privada a escala global de Google.
Google también está expandiendo sus ofertas de software para cargas de trabajo de IA, incluido Pathways, un tiempo de ejecución de aprendizaje automático desarrollado por Google DeepMind. Pathways ahora permite a los clientes escalar el servicio de modelos en cientos de TPUs.
Introduciendo A2A: Fomentando un Ecosistema de Colaboración de Agentes Inteligentes
Más allá de los avances de hardware, Google presentó su visión para la IA centrada en sistemas multiagente, revelando un protocolo para facilitar el desarrollo de agentes inteligentes: Agente a Agente (A2A). Este protocolo está diseñado para promover la comunicación segura y estandarizada entre diferentes agentes de IA.
Google cree que 2025 marcará un año transformador para la IA, con la aplicación de la IA generativa evolucionando de responder preguntas individuales a resolver problemas complejos a través de sistemas de agentes inteligentes.
El protocolo A2A permite la interoperabilidad entre plataformas y marcos, proporcionando a los agentes un ‘lenguaje’ común y canales de comunicación seguros. Este protocolo puede verse como la capa de red para agentes inteligentes, con el objetivo de simplificar la colaboración de agentes en flujos de trabajo complejos. Permite a los agentes de IA especializados trabajar juntos en tareas de diversa complejidad y duración, mejorando en última instancia las capacidades generales a través de la colaboración.
Cómo Funciona A2A
Google proporcionó una comparación entre los protocolos MCP y A2A en su publicación de blog:
- MCP (Protocolo de Contexto del Modelo): Para la gestión de herramientas y recursos
- Conecta agentes a herramientas, API y recursos a través de entrada/salida estructurada.
- Google ADK admite herramientas MCP, lo que permite que varios servidores MCP trabajen con agentes.
- A2A (Protocolo Agente a Agente): Para la colaboración entre agentes
- Permite la comunicación multimodal dinámica entre agentes sin compartir memoria, recursos o herramientas.
- Un estándar abierto impulsado por la comunidad.
- Los ejemplos se pueden ver usando herramientas como Google ADK, LangGraph y Crew.AI.
En esencia, A2A y MCP son complementarios. MCP proporciona a los agentes soporte de herramientas, mientras que A2A permite que estos agentes equipados se comuniquen y colaboren entre sí.
La lista de socios anunciados por Google sugiere que A2A está a punto de recibir una atención similar a la de MCP. La iniciativa ya ha atraído a más de 50 empresas a su cohorte de colaboración inicial, incluidas las principales empresas de tecnología y los principales proveedores de servicios de consultoría e integración de sistemas a nivel mundial.
Google enfatizó la apertura del protocolo, posicionándolo como el método estándar para que los agentes colaboren, independientemente de los marcos tecnológicos o proveedores de servicios subyacentes. La compañía declaró que se adhirió a los siguientes cinco principios clave al diseñar el protocolo con sus socios:
- Adoptar las Capacidades del Agente: A2A se centra en permitir que los agentes colaboren en sus formas naturales y no estructuradas, incluso si no comparten memoria, herramientas y contexto. El objetivo es permitir escenarios multiagente genuinos sin limitar a los agentes a meras ‘herramientas’.
- Construir sobre los Estándares Existentes: El protocolo se basa en los estándares populares existentes, incluidos HTTP, SSE y JSON-RPC, lo que facilita la integración con las pilas de TI existentes utilizadas por las empresas.
- Seguro por Defecto: A2A está diseñado para admitir la autenticación y autorización de nivel empresarial, comparable a los esquemas de autenticación de OpenAPI en el lanzamiento.
- Soporte de Tareas de Larga Duración: A2A está diseñado con flexibilidad para soportar una amplia gama de escenarios, desde tareas rápidas hasta investigaciones en profundidad que pueden llevar horas o incluso días (cuando hay humanos involucrados). A lo largo del proceso, A2A puede proporcionar a los usuarios retroalimentación en tiempo real, notificaciones y actualizaciones de estado.
- Agnóstico a la Modalidad: El mundo de los agentes no se limita al texto, por lo que A2A está diseñado para soportar varias modalidades, incluidos los flujos de audio y video.
Ejemplo: Proceso de Contratación Optimizado a través de A2A
Un ejemplo proporcionado por Google ilustra cómo A2A puede optimizar significativamente el proceso de contratación.
Dentro de una interfaz unificada como Agentspace, un gerente de contratación puede asignar un agente para encontrar candidatos adecuados en función de los requisitos del trabajo. Este agente puede interactuar con agentes especializados en campos específicos para completar el abastecimiento de candidatos. El usuario también puede indicarle al agente que programe entrevistas y habilite a otros agentes especializados para que ayuden con las verificaciones de antecedentes, lo que permite una contratación colaborativa totalmente automatizada y entre sistemas.
Adoptando MCP: Uniéndose al Ecosistema del Protocolo de Contexto del Modelo
Concurrentemente, Google también está adoptando MCP. Apenas semanas después de que OpenAI anunciara su adopción del Protocolo de Contexto del Modelo (MCP) de Anthropic, Google hizo lo propio y se unió a la iniciativa.
El CEO de Google DeepMind, Demis Hassabis, anunció en X que Google agregará soporte para MCP a sus modelos y SDK de Gemini, aunque no se proporcionó un cronograma específico.
Hassabis declaró: ‘MCP es un excelente protocolo que se está convirtiendo rápidamente en el estándar abierto para la era de los agentes de IA. Esperamos trabajar con el equipo de MCP y otros socios de la industria para avanzar en el desarrollo de esta tecnología’.
Desde su lanzamiento en noviembre de 2024, MCP ha ganado rápidamente popularidad y atención generalizada, emergiendo como una forma simple y estandarizada de conectar modelos de lenguaje con herramientas y datos.
MCP permite que los modelos de IA accedan a datos de fuentes de datos como herramientas y software empresariales para completar tareas y acceder a bibliotecas de contenido y entornos de desarrollo de aplicaciones. El protocolo permite a los desarrolladores establecer conexiones bidireccionales entre fuentes de datos y aplicaciones impulsadas por IA, como chatbots.
Los desarrolladores pueden exponer interfaces de datos a través de servidores MCP y crear clientes MCP (como aplicaciones y flujos de trabajo) para conectarse a estos servidores. Desde que Anthropic abrió el código fuente de MCP, varias compañías han integrado el soporte de MCP en sus plataformas.
Desglose Mejorado de Conceptos Clave:
Para aclarar aún más el impacto y la importancia de los anuncios recientes de Google, profundicemos en los componentes centrales: Ironwood, A2A y MCP.
Ironwood: Una Inmersión Profunda en la Era de la Inferencia
El cambio de centrarse principalmente en el entrenamiento de modelos a la optimización para la inferencia es una evolución crítica en el panorama de la IA. El entrenamiento implica alimentar vastas cantidades de datos a un modelo para enseñarle a reconocer patrones y hacer predicciones. La inferencia, por otro lado, es el proceso de usar un modelo entrenado para hacer predicciones sobre datos nuevos e invisibles.
Si bien el entrenamiento es un evento intensivo en recursos, único (o poco frecuente), la inferencia ocurre continuamente y a escala en aplicaciones del mundo real. Considere aplicaciones como:
- Chatbots: Responder a las consultas de los usuarios en tiempo real.
- Sistemas de Recomendación: Sugerir productos o contenido basado en las preferencias del usuario.
- Detección de Fraude: Identificar transacciones fraudulentas a medida que ocurren.
- Reconocimiento de Imagen: Analizar imágenes para identificar objetos, personas o escenas.
Estas aplicaciones requieren una inferencia rápida y eficiente para ofrecer una experiencia de usuario perfecta. Ironwood está diseñado específicamente para sobresalir en estas tareas.
Ventajas Clave de Ironwood para la Inferencia:
- Alto Rendimiento: La potencia de cómputo masiva (42.5 exaflops) permite a Ironwood manejar un gran volumen de solicitudes de inferencia simultáneamente.
- Baja Latencia: La memoria de gran ancho de banda (HBM) y la arquitectura eficiente minimizan el tiempo que lleva procesar cada solicitud de inferencia.
- Eficiencia Energética: El rendimiento mejorado por vatio reduce los costos operativos asociados con la ejecución de implementaciones de inferencia a gran escala.
Al optimizar para la inferencia, Google está permitiendo a las empresas implementar aplicaciones impulsadas por IA de manera más eficiente y rentable.
A2A: La Basepara la IA Colaborativa
El protocolo Agente a Agente (A2A) representa un paso significativo hacia la creación de sistemas de IA más sofisticados y colaborativos. En un sistema multiagente, múltiples agentes de IA trabajan juntos para resolver un problema complejo. Cada agente puede tener sus propias habilidades y conocimientos especializados, y se comunican y coordinan entre sí para lograr un objetivo común.
Considere un escenario que involucra el soporte al cliente automatizado:
- Agente 1: Comprende la consulta inicial del cliente e identifica el problema subyacente.
- Agente 2: Accede a una base de conocimientos para encontrar información relevante.
- Agente 3: Programa una cita de seguimiento con un agente humano si es necesario.
Estos agentes deben poder comunicarse y compartir información sin problemas para proporcionar una experiencia de cliente cohesiva. A2A proporciona el marco para este tipo de colaboración.
Beneficios Clave de A2A:
- Interoperabilidad: Permite que los agentes desarrollados en diferentes plataformas y marcos se comuniquen entre sí.
- Estandarización: Proporciona un ‘lenguaje’ común y un conjunto de protocolos para la comunicación del agente.
- Seguridad: Garantiza la comunicación segura entre agentes, protegiendo los datos confidenciales.
- Flexibilidad: Soporta una amplia gama de modalidades de comunicación, incluyendo texto, audio y video.
Al fomentar la colaboración entre agentes de IA, A2A permite el desarrollo de sistemas de IA más potentes y versátiles.
MCP: Cerrando la Brecha Entre la IA y los Datos
El Protocolo de Contexto del Modelo (MCP) aborda el desafío de conectar los modelos de IA a las vastas cantidades de datos necesarios para realizar sus tareas de manera efectiva. Los modelos de IA necesitan acceso a datos en tiempo real de varias fuentes, como bases de datos, API y servicios en la nube, para hacer predicciones precisas y tomar decisiones informadas.
MCP proporciona una forma estandarizada para que los modelos de IA accedan e interactúen con estas fuentes de datos. Define un conjunto de protocolos para:
- Descubrimiento de Datos: Identificar las fuentes de datos disponibles.
- Acceso a Datos: Recuperar datos de las fuentes de datos.
- Transformación de Datos: Convertir los datos a un formato que el modelo de IA pueda entender.
Al proporcionar una interfaz estandarizada para el acceso a datos, MCP simplifica el proceso de integración de modelos de IA con datos del mundo real.
Ventajas Clave de MCP:
- Integración Simplificada: Facilita la conexión de modelos de IA a fuentes de datos.
- Estandarización: Proporciona un conjunto común de protocolos para el acceso a datos.
- Mayor Eficiencia: Reduce el tiempo y el esfuerzo requerido para acceder y transformar datos.
- Precisión Mejorada: Permite que los modelos de IA accedan a la información más actualizada, lo que lleva a predicciones más precisas.
Al conectar los modelos de IA a los datos que necesitan, MCP les permite funcionar de manera más efectiva y entregar un mayor valor.