Repensando a Eficiência da IA: Nem Sempre 100%

O avanço implacável do desenvolvimento de IA tem consistentemente demonstrado que modelos maiores tendem a ser mais inteligentes, mas suas demandas operacionais também aumentam. Isso cria um desafio significativo, especialmente em regiões com acesso limitado a chips de IA avançados. No entanto, independentemente das restrições geográficas, há uma tendência crescente entre os desenvolvedores de modelos de abraçar arquiteturas Mixture of Experts (MoE) combinadas com técnicas inovadoras de compressão. O objetivo? Reduzir drasticamente os recursos computacionais necessários para implantar e executar esses extensos Large Language Models (LLMs). À medida que nos aproximamos do terceiro aniversário do boom da IA generativa impulsionado pelo ChatGPT, a indústria está finalmente começando a considerar seriamente as implicações econômicas de manter esses modelos famintos por energia em funcionamento.

Embora os modelos MoE, como os da Mistral AI, existam há algum tempo, sua verdadeira descoberta ocorreu no último ano. Testemunhamos um aumento de novos LLMs de código aberto de gigantes da tecnologia como Microsoft, Google, IBM, Meta, DeepSeek e Alibaba, todos utilizando alguma forma de arquitetura MoE. O atrativo é direto: as arquiteturas MoE oferecem uma alternativa muito mais eficiente às arquiteturas de modelo "dense" tradicionais.

Superando Limitações de Memória

A fundação da arquitetura MoE remonta ao início dos anos 1990, com a publicação de "Adaptive Mixtures of Local Experts". A ideia central gira em torno da distribuição de tarefas para um ou mais submodelos especializados ou "experts", em vez de depender de um único modelo massivo treinado em um amplo espectro de dados.

Em teoria, cada expert pode ser meticulosamente otimizado para um domínio específico, desde codificação e matemática até escrita criativa. No entanto, vale a pena notar que a maioria dos desenvolvedores de modelos fornece detalhes limitados sobre os experts específicos dentro de seus modelos MoE, e o número de experts varia de modelo para modelo. Crucialmente, apenas uma fração do modelo geral é ativamente envolvida a qualquer momento.

Considere o modelo V3 da DeepSeek, que compreende 256 experts roteados junto com um expert compartilhado. Durante o processamento de tokens, apenas oito experts roteados, mais o compartilhado, são ativados. Essa ativação seletiva significa que os modelos MoE nem sempre conseguem o mesmo nível de qualidade que os modelos densos de tamanho semelhante. O modelo MoE Qwen3-30B-A3B da Alibaba, por exemplo, consistentemente teve desempenho inferior ao modelo denso Qwen3-32B nos testes de benchmark da Alibaba.

No entanto, é essencial contextualizar essa ligeira queda na qualidade em relação aos ganhos substanciais de eficiência oferecidos pelas arquiteturas MoE. A redução nos parâmetros ativos resulta em requisitos de largura de banda de memória que não são mais diretamente proporcionais à capacidade necessária para armazenar os pesos do modelo. Essencialmente, embora os modelos MoE ainda possam exigir memória substancial, eles não precisam necessariamente que seja a High Bandwidth Memory (HBM) mais rápida e cara.

Vamos ilustrar isso com uma comparação. Considere o maior modelo "denso" da Meta, Llama 3.1 405B, e Llama 4 Maverick, um modelo comparável que emprega uma arquitetura MoE com 17 bilhões de parâmetros ativos. Embora inúmeros fatores, como tamanho do lote, desempenho de ponto flutuante e cache de chave-valor, contribuam para o desempenho no mundo real, podemos aproximar os requisitos mínimos de largura de banda multiplicando o tamanho do modelo em gigabytes em uma determinada precisão (1 byte por parâmetro para modelos de 8 bits) pelos tokens-alvo por segundo em um tamanho de lote de um.

Executar uma versão quantizada de 8 bits do Llama 3.1 405B exigiria mais de 405 GB de vRAM e pelo menos 20 TB/s de largura de banda de memória para gerar texto a 50 tokens por segundo. Os sistemas baseados em HGX H100 da Nvidia, que até recentemente custavam US$ 300.000 ou mais, forneciam apenas 640 GB de HBM3 e aproximadamente 26,8 TB/s de largura de banda agregada. Executar o modelo completo de 16 bits exigiria pelo menos dois desses sistemas.

Em contraste, o Llama 4 Maverick, embora consuma a mesma quantidade de memória, requer menos de 1 TB/s de largura de banda para obter um desempenho comparável. Isso ocorre porque apenas 17 bilhões de parâmetros de experts de modelo estão ativamente envolvidos na geração da saída. Isso se traduz em um aumento de ordem de magnitude na velocidade de geração de texto no mesmo hardware.

Por outro lado, se o desempenho puro não é uma preocupação primária, muitos desses modelos agora podem ser executados em memória GDDR6, GDDR7 ou até DDR mais barata, embora mais lenta, como visto nos mais recentes Xeons da Intel.

Os novos RTX Pro Servers da Nvidia, anunciados na Computex, são projetados para este cenário. Em vez de depender de HBM cara e faminta por energia que requer embalagens avançadas, cada uma das oito GPUs RTX Pro 6000 nesses sistemas está equipada com 96 GB de memória GDDR7, o mesmo tipo encontrado em placas de jogos modernas.

Esses sistemas oferecem até 768 GB de vRAM e 12,8 TB/s de largura de banda agregada, mais do que suficiente para executar Llama 4 Maverick a centenas de tokens por segundo. Embora a Nvidia não tenha revelado os preços, a edição workstation dessas placas é vendida por cerca de US$ 8.500, sugerindo que esses servidores poderiam ter um preço inferior à metade do custo de um HGX H100 usado.

No entanto, MoE não significa o fim das GPUs empilhadas com HBM. Espere que o Llama 4 Behemoth, supondo que ele seja lançado, exija um rack cheio de GPUs devido ao seu tamanho.

Embora tenha aproximadamente metade dos parâmetros ativos do Llama 3.1 405B, ele possui um total de 2 trilhões de parâmetros. Atualmente, não há um único servidor de GPU convencional no mercado que possa acomodar o modelo completo de 16 bits e uma janela de contexto de um milhão de tokens ou mais.

O Renascimento da CPU na IA?

Dependendo da aplicação específica, uma GPU pode nem sempre ser necessária, particularmente em regiões onde o acesso a aceleradores de ponta é restrito.

A Intel apresentou uma plataforma Xeon 6 de soquete duplo equipada com MCRDIMMs de 8800 MT/s em abril. Esta configuração alcançou uma taxa de transferência de 240 tokens por segundo no Llama 4 Maverick, com uma latência de saída média de menos de 100 ms por token.

Em termos mais simples, a plataforma Xeon poderia suportar 10 tokens por segundo ou mais por usuário para aproximadamente 24 usuários simultâneos.

A Intel não divulgou os números de desempenho de usuário único, pois eles são menos relevantes em cenários do mundo real. No entanto, as estimativas sugerem um desempenho máximo de cerca de 100 tokens por segundo.

No entanto, a menos que não haja alternativas melhores ou requisitos específicos, a economia da inferência baseada em CPU permanece altamente dependente do caso de uso.

Redução de Peso: Poda e Quantização

As arquiteturas MoE podem reduzir a largura de banda de memória necessária para servir modelos grandes, mas não reduzem a quantidade de memória necessária para armazenar seus pesos. Mesmo com precisão de 8 bits, o Llama 4 Maverick requer mais de 400 GB de memória para ser executado, independentemente do número de parâmetros ativos.

Técnicas emergentes de poda e métodos de quantização podem potencialmente reduzir esse requisito pela metade sem sacrificar a qualidade.

A Nvidia tem sido uma defensora da poda, lançando versões podadas dos modelos Llama 3 da Meta que tiveram pesos redundantes removidos.

A Nvidia também foi uma das primeiras empresas a oferecer suporte a tipos de dados de ponto flutuante de 8 bits em 2022 e novamente com ponto flutuante de 4 bits com o lançamento de sua arquitetura Blackwell em 2024. Espera-se que os primeiros chips da AMD a oferecer suporte nativo a FP4 sejam lançados em breve.

Embora não seja estritamente essencial, o suporte de hardware nativo para esses tipos de dados geralmente reduz a probabilidade de encontrar gargalos computacionais, principalmente ao servir em escala.

Testemunhamos um número crescente de desenvolvedores de modelos adotando tipos de dados de precisão mais baixa, com Meta, Microsoft e Alibaba oferecendo versões quantizadas de oito e até quatro bits de seus modelos.

A quantização envolve a compressão de pesos de modelo de sua precisão nativa, normalmente BF16, para FP8 ou INT4. Isso efetivamente reduz a largura de banda de memória e os requisitos de capacidade dos modelos pela metade ou até três quartos, ao custo de alguma qualidade.

As perdas associadas à transição de 16 bits para oito bits são frequentemente negligenciáveis, e vários construtores de modelos, incluindo DeepSeek, começaram a treinar com precisão FP8 desde o início. No entanto, reduzir a precisão em mais quatro bits pode resultar em degradação significativa da qualidade. Consequentemente, muitas abordagens de quantização pós-treinamento, como GGUF, não comprimem todos os pesos da mesma forma, deixando alguns em níveis de precisão mais altos para minimizar a perda de qualidade.

O Google demonstrou recentemente o uso de treinamento com reconhecimento de quantização (QAT) para reduzir seus modelos Gemma 3 em um fator de 4x, mantendo os níveis de qualidade próximos ao BF16 nativo.

O QAT simula operações de baixa precisão durante o treinamento. Ao aplicar esta técnica por aproximadamente 5.000 etapas em um modelo não qualificado, o Google conseguiu reduzir a queda na perplexidade, uma métrica para medir perdas relacionadas à quantização, em 54 por cento quando convertido para INT4.

Outra abordagem de quantização baseada em QAT, conhecida como Bitnet, visa níveis de precisão ainda mais baixos, comprimindo modelos para apenas 1,58 bits, ou aproximadamente um décimo de seu tamanho original.

A Sinergia das Tecnologias

A combinação de MoE e quantização de 4 bits oferece vantagens significativas, particularmente quando a largura de banda é limitada.

Para outros que não são limitados pela largura de banda, no entanto, qualquer uma das duas tecnologias, seja MoE ou quantização, pode reduzir substancialmente o custo de equipamentos e operação para executar modelos maiores e mais poderosos; isso supondo que um serviço valioso possa ser encontrado para eles executarem.

E, caso contrário, você pode pelo menos se consolar por não estar sozinho - uma pesquisa recente da IBM revelou que apenas uma em cada quatro implantações de IA entregou o retorno sobre o investimento que foi prometido.