Estratégia Dupla da Nvidia para Agentes de IA

A Nvidia está de olho na futura onda de IA baseada em agentes, um domínio que promete colocar demandas sem precedentes nas capacidades de inferência. Para enfrentar esse desafio, a Nvidia revelou uma estratégia abrangente que engloba inovações de hardware e software.

Estratégia de Hardware: Escalando Vertical e Horizontalmente

No coração da estratégia de hardware da Nvidia está a busca incessante por GPUs cada vez mais poderosas. A empresa está adotando uma abordagem dupla, concentrando-se primeiro na escalabilidade vertical e, em seguida, na escalabilidade horizontal. O objetivo não é apenas desenvolver um único supercomputador de IA ultra poderoso em um rack, mas criar um ecossistema inteiro de racks interconectados, formando um enorme complexo de supercomputadores de IA. Essa abordagem de ‘fábrica de IA’ é projetada para fornecer o poder computacional necessário para as cargas de trabalho de IA mais exigentes.

O novo supercomputador de IA Blackwell Ultra montado em rack, revelado na recente conferência GTC, exemplifica essa estratégia. Projetado para acelerar tanto o treinamento quanto a inferência de escalonamento em tempo de teste, o Blackwell Ultra aproveita a arquitetura Blackwell existente, mas incorpora o mais poderoso GB300 NVL72. Esta configuração apresenta 72 GPUs Blackwell Ultra interconectadas via NVLink, fornecendo um impressionante poder de computação de precisão FP4 de 1,1 Exaflops. O GB300 NVL72 possui 1,5 vezes o desempenho de IA do GB200 NVL72. Um único sistema DGS GB300 oferece 15 Exaflops de computação. Com lançamento previsto para o segundo semestre de 2025, o Blackwell Ultra será suportado por uma ampla gama de fornecedores de equipamentos de servidor, incluindo Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron e Quanta. Além disso, provedores de serviços de nuvem como AWS, GCP e Azure oferecerão serviços de computação baseados no Blackwell Ultra.

Além desses sistemas de fábrica de IA em nível de usina de energia, a Nvidia também introduziu uma nova linha de computadores com foco nas necessidades de inferência dentro das empresas. Isso inclui os computadores pessoais de IA DGX Spark e DGX Station. O DGX Spark, semelhante em tamanho a um Mac mini, oferece até 1 PFlops de poder de computação.

Para colocar isso em perspectiva, o supercomputador Taiwania 3, lançado em 2021 com mais de 50.000 núcleos, fornece apenas 2,7 PFlops de desempenho. Em apenas quatro anos, o poder de computação de três computadores pessoais de IA do tamanho de um desktop superou o do Taiwania 3. Com preço de US$ 3.999 (aproximadamente NT$ 130.000) para a configuração de memória de 128 GB, esses novos computadores pessoais de IA são projetados para alimentar futuras necessidades internas de IA dentro das empresas, servindo como mini fábricas de IA ou mesmo operando em ambientes de IA de borda.

Roteiro Futuro: Vera Rubin e Além

Olhando para o futuro, o CEO da Nvidia, Jensen Huang, delineou um roteiro de produtos para os próximos dois anos. No segundo semestre de 2026, a empresa planeja lançar o Vera Rubin NVL144, em homenagem à astrônoma americana que descobriu a matéria escura. O Vera Rubin NVL144 oferecerá 3,3 vezes o desempenho do GB300 NVL72, com capacidade de memória, largura de banda e velocidades NVLink aumentando mais de 1,6 vezes. No segundo semestre de 2027, a Nvidia lançará o Rubin Ultra NVL576, que fornecerá 14 vezes o desempenho do GB300 NVL72, com capacidade de memória e velocidades de largura de banda significativamente aprimoradas por meio do NVLink7 e CX9.

Após a arquitetura Vera Rubin, a arquitetura de próxima geração da Nvidia será nomeada em homenagem ao renomado físico americano Richard Feynman, conhecido por seu trabalho na investigação do desastre do ônibus espacial Challenger.

Estratégia de Software: Nvidia Dynamo

A Nvidia sempre deu uma forte ênfase ao software, considerando-o ainda mais crítico do que o hardware. Esse foco estratégico se estende às iniciativas de fábrica de IA da empresa.

Além de expandir a biblioteca de aceleração de IA CUDA-X para vários domínios e desenvolver bibliotecas de aceleração especializadas, a Nvidia introduziu o Nvidia Dynamo, um novo sistema operacional de fábrica de IA. Significativamente, a Nvidia abriu o código-fonte deste sistema operacional.

O Nvidia Dynamo é uma estrutura de serviço de inferência de código aberto projetada para construir plataformas que fornecem serviços de inferência LLM. Ele pode ser implantado em ambientes K8s e usado para implantar e gerenciar tarefas de inferência de IA em grande escala. A Nvidia planeja integrar o Dynamo em sua estrutura de microsserviços NIM, tornando-o um componente da estrutura Nvidia AI Enterprise.

O Dynamo é o produto de próxima geração da plataforma de servidor de inferência de código aberto existente da Nvidia, Triton. Sua principal característica é a divisão das tarefas de inferência LLM em duas etapas, permitindo uma utilização mais flexível e eficiente das GPUs para otimizar o processamento de inferência, melhorar a eficiência e maximizar a utilização da GPU. O Dynamo pode alocar GPUs dinamicamente com base nos requisitos de inferência e acelerar a transferência assíncrona de dados entre as GPUs, reduzindo os tempos de resposta da inferência do modelo.

Os modelos GAI baseados em Transformer dividem a inferência em duas etapas: Prefill (pré-entrada), que converte dados de entrada em tokens para armazenamento, e Decode, um processo sequencial que gera o próximo token com base no anterior.

A inferência LLM tradicional atribui as tarefas Prefill e Decode à mesma GPU. No entanto, devido às diferentes características computacionais dessas tarefas, o Dynamo as divide, atribuindo recursos de GPU de acordo e ajustando dinamicamente a alocação com base nas características da tarefa. Isso otimiza o desempenho do cluster de GPU.

Os testes da Nvidia mostram que o uso do Dynamo com o modelo DeepSeek-R1 de 671 bilhões de parâmetros no GB200 NVL72 pode melhorar o desempenho da inferência em 30 vezes. O desempenho no Llama 70B em execução em GPUs Hopper também pode ser melhorado em mais do que o dobro.

O gerenciamento de tarefas de inferência é complexo devido à natureza intrincada da computação de inferência e à variedade de modelos de processamento paralelo. Huang enfatizou que a Nvidia lançou a estrutura Dynamo para fornecer um sistema operacional para fábricas de IA.

Os data centers tradicionais dependem de sistemas operacionais como o VMware para orquestrar diferentes aplicativos em recursos de TI corporativos. Os agentes de IA são os aplicativos do futuro e as fábricas de IA exigem o Dynamo, não o VMware.

A nomeação do novo sistema operacional de fábrica de IA por Huang em homenagem ao Dínamo, um motor que desencadeou a revolução industrial, revela suas expectativas e ambições para a plataforma.