Estrategia de Nvidia para la Inferencia de Agentes IA

Nvidia está poniendo su mira en la futura ola de IA basada en agentes, un dominio que promete imponer demandas sin precedentes a las capacidades de inferencia. Para enfrentar este desafío, Nvidia ha revelado una estrategia integral que abarca innovaciones tanto de hardware como de software.

Estrategia de Hardware: Escalando Vertical y Horizontalmente

En el corazón de la estrategia de hardware de Nvidia se encuentra la búsqueda implacable de GPUs cada vez más potentes. La compañía está adoptando un enfoque de dos vertientes, primero enfocándose en la escalabilidad vertical y luego en la escalabilidad horizontal. El objetivo no es solo desarrollar una única supercomputadora de IA ultra potente en un rack, sino crear un ecosistema completo de racks interconectados, formando un complejo masivo de supercomputadoras de IA. Este enfoque de ‘fábrica de IA’ está diseñado para proporcionar la potencia computacional requerida para las cargas de trabajo de IA más exigentes.

La nueva supercomputadora de IA montada en rack Blackwell Ultra, presentada en la reciente conferencia GTC, ejemplifica esta estrategia. Diseñada para acelerar tanto el entrenamiento como la inferencia de escalamiento en tiempo de prueba, la Blackwell Ultra aprovecha la arquitectura Blackwell existente, pero incorpora la GB300 NVL72, más potente. Esta configuración presenta 72 GPUs Blackwell Ultra interconectadas a través de NVLink, que ofrecen una asombrosa potencia de cálculo de precisión FP4 de 1,1 Exaflops. La GB300 NVL72 cuenta con 1,5 veces el rendimiento de IA de la GB200 NVL72. Un solo sistema DGS GB300 ofrece 15 Exaflops de cómputo. Programada para su lanzamiento en la segunda mitad de 2025, la Blackwell Ultra será compatible con una amplia gama de proveedores de equipos de servidor, incluidos Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron y Quanta. Además, proveedores de servicios en la nube como AWS, GCP y Azure ofrecerán servicios de cómputo basados en la Blackwell Ultra.

Más allá de estos sistemas de fábrica de IA a nivel de central eléctrica, Nvidia también ha introducido una nueva línea de computadoras dirigidas a las necesidades de inferencia dentro de las empresas. Estas incluyen las computadoras de IA personales DGX Spark y DGX Station. La DGX Spark, con un tamaño similar al de un Mac mini, ofrece hasta 1 PFlops de potencia de cálculo.

Para poner esto en perspectiva, la supercomputadora Taiwania 3, lanzada en 2021 con más de 50.000 núcleos, proporciona solo 2,7 PFlops de rendimiento. En solo cuatro años, la potencia de cálculo de tres computadoras de IA personales del tamaño de un escritorio ha superado la de Taiwania 3. Con un precio de $3,999 (aproximadamente NT$130,000) para la configuración de memoria de 128GB, estas nuevas computadoras de IA personales están diseñadas para impulsar las futuras necesidades internas de IA dentro de las empresas, sirviendo como mini-fábricas de IA o incluso operando en entornos de IA perimetral.

Hoja de Ruta Futura: Vera Rubin y Más Allá

Mirando hacia el futuro, el CEO de Nvidia, Jensen Huang, ha esbozado una hoja de ruta de productos para los próximos dos años. En la segunda mitad de 2026, la compañía planea lanzar la Vera Rubin NVL144, que lleva el nombre de la astrónoma estadounidense que descubrió la materia oscura. La Vera Rubin NVL144 ofrecerá 3,3 veces el rendimiento de la GB300 NVL72, con la capacidad de memoria, el ancho de banda y las velocidades de NVLink aumentando más de 1,6 veces. En la segunda mitad de 2027, Nvidia lanzará la Rubin Ultra NVL576, que ofrecerá 14 veces el rendimiento de la GB300 NVL72, con una capacidad de memoria y velocidades de ancho de banda significativamente mejoradas a través de NVLink7 y CX9.

Después de la arquitectura Vera Rubin, la arquitectura de próxima generación de Nvidia llevará el nombre del renombrado físico estadounidense Richard Feynman, conocido por su trabajo en la investigación del desastre del transbordador espacial Challenger.

Estrategia de Software: Nvidia Dynamo

Nvidia siempre ha puesto un fuerte énfasis en el software, considerándolo incluso más crítico que el hardware. Este enfoque estratégico se extiende a las iniciativas de fábrica de IA de la compañía.

Además de expandir la biblioteca de aceleración de IA CUDA-X a varios dominios y desarrollar bibliotecas de aceleración especializadas, Nvidia ha introducido Nvidia Dynamo, un nuevo sistema operativo de fábrica de IA. Significativamente, Nvidia ha abierto el código fuente de este sistema operativo.

Nvidia Dynamo es un marco de servicio de inferencia de código abierto diseñado para construir plataformas que proporcionen servicios de inferencia de LLM. Se puede implementar en entornos K8s y se utiliza para implementar y administrar tareas de inferencia de IA a gran escala. Nvidia planea integrar Dynamo en su marco de microservicios NIM, convirtiéndolo en un componente del marco Nvidia AI Enterprise.

Dynamo es el producto de próxima generación de la plataforma de servidor de inferencia de código abierto existente de Nvidia, Triton. Su característica clave es la división de las tareas de inferencia de LLM en dos etapas, lo que permite una utilización más flexible y eficiente de las GPUs para optimizar el procesamiento de la inferencia, mejorar la eficiencia y maximizar la utilización de la GPU. Dynamo puede asignar dinámicamente GPUs en función de los requisitos de inferencia y acelerar la transferencia de datos asíncrona entre GPUs, reduciendo los tiempos de respuesta de la inferencia del modelo.

Los modelos GAI basados en transformadores dividen la inferencia en dos etapas: Prefill (pre-entrada), que convierte los datos de entrada en tokens para su almacenamiento, y Decode, un proceso secuencial que genera el siguiente token basándose en el anterior.

La inferencia tradicional de LLM asigna tanto las tareas de Prefill como de Decode a la misma GPU. Sin embargo, debido a las diferentes características computacionales de estas tareas, Dynamo las divide, asignando los recursos de la GPU en consecuencia y ajustando dinámicamente la asignación en función de las características de la tarea. Esto optimiza el rendimiento del clúster de GPU.

Las pruebas de Nvidia muestran que el uso de Dynamo con el modelo DeepSeek-R1 de 671 mil millones de parámetros en GB200 NVL72 puede mejorar el rendimiento de la inferencia en 30 veces. El rendimiento en Llama 70B que se ejecuta en GPUs Hopper también se puede mejorar en más del doble.

La gestión de las tareas de inferencia es compleja debido a la intrincada naturaleza del cálculo de la inferencia y a la variedad de modelos de procesamiento paralelo. Huang enfatizó que Nvidia lanzó el marco Dynamo para proporcionar un sistema operativo para las fábricas de IA.

Los centros de datos tradicionales confían en sistemas operativos como VMware para orquestar diferentes aplicaciones en los recursos de TI de la empresa. Los agentes de IA son las aplicaciones del futuro, y las fábricas de IA requieren Dynamo, no VMware.

El hecho de que Huang haya nombrado al nuevo sistema operativo de la fábrica de IA como Dynamo, un motor que impulsó la revolución industrial, revela sus expectativas y ambiciones para la plataforma. En esencia, Nvidia visualiza un futuro donde la inferencia de IA no es simplemente una función, sino una infraestructura escalable, optimizada y gestionada de forma inteligente, impulsando una nueva era de aplicaciones y servicios habilitados para la IA. La apuesta por el código abierto con Dynamo no solo democratiza el acceso a las herramientas necesarias para construir estas fábricas de IA, sino que también fomenta la colaboración y la innovación en toda la industria. Esto podría llevar a un ecosistema más robusto y diverso de soluciones de IA, donde diferentes empresas y desarrolladores puedan construir sobre la base de Dynamo y adaptarla a sus necesidades específicas.

Además, la estrategia de Nvidia aborda la creciente demanda de inferencia de IA en el borde. A medida que más aplicaciones y dispositivos se vuelven habilitados para la IA, la necesidad de realizar inferencia localmente, sin depender de una conexión constante a la nube, se vuelve cada vez más importante. Las computadoras DGX Spark y DGX Station son un claro ejemplo de cómo Nvidia está abordando esta necesidad, proporcionando soluciones de inferencia potentes y compactas que se pueden implementar en entornos perimetrales. Esto es especialmente relevante para aplicaciones como la conducción autónoma, la robótica y la automatización industrial, donde la latencia y la confiabilidad son cruciales.

La hoja de ruta futura de Nvidia, con las arquitecturas Vera Rubin y Richard Feynman, demuestra un compromiso continuo con la innovación y la mejora del rendimiento de la IA. Estas futuras generaciones de GPUs prometen ofrecer un aumento significativo en la capacidad de cómputo, el ancho de banda de la memoria y las velocidades de NVLink, lo que permitirá a las empresas abordar cargas de trabajo de IA cada vez más complejas y exigentes. El hecho de que Nvidia haya elegido nombres de científicos destacados para sus arquitecturas subraya su compromiso con la investigación y el desarrollo de la IA, así como su visión de que la IA es una fuerza transformadora que puede ayudar a resolver algunos de los desafíos más importantes del mundo.

En resumen, la estrategia de Nvidia para la inferencia de IA basada en agentes es una combinación de innovación de hardware y software, un enfoque en la escalabilidad y la optimización, y un compromiso con el código abierto y la colaboración. Al abordar tanto las necesidades de inferencia a gran escala en los centros de datos como las necesidades de inferencia en el borde, Nvidia se está posicionando como un líder en el mercado de la IA y está allanando el camino para una nueva era de aplicaciones y servicios habilitados para la IA. El éxito de esta estrategia dependerá de la capacidad de Nvidia para ejecutar su hoja de ruta de productos, construir un ecosistema sólido en torno a Dynamo y colaborar con empresas y desarrolladores de toda la industria. Sin embargo, con su historial de innovación y su fuerte enfoque estratégico, Nvidia está bien posicionada para tener un impacto significativo en el futuro de la IA. La visión de Huang de las fábricas de IA como los centros de datos del futuro puede parecer audaz, pero dado el rápido ritmo de la innovación en la IA, es una visión que podría convertirse en realidad antes de lo que muchos esperan.

Nvidia se ha posicionado estratégicamente para dominar la era de la IA de agentes, no solo ofreciendo hardware potente, sino también proporcionando el software y el ecosistema necesarios para permitir su implementación y uso a gran escala. Su enfoque en la escalabilidad, la eficiencia y la accesibilidad, combinado con su compromiso con el código abierto y la colaboración, establece un nuevo estándar para la industria de la IA y promete transformar la forma en que interactuamos con la tecnología en los próximos años.