Repensando Chips de IA na Era Pós-DeepSeek

A rápida inovação na tecnologia de IA, exemplificada pelos avanços da DeepSeek, exige uma reavaliação fundamental de como construímos data centers, chips e sistemas para fornecer o poder computacional necessário. As inovações de engenharia da DeepSeek reduziram significativamente os custos de computação de IA, provocando uma discussão mais ampla sobre o futuro da infraestrutura de IA.

Embora a DeepSeek possa não ter expandido drasticamente as fronteiras da tecnologia de IA, sua influência no mercado de IA é profunda. Tecnologias como Mixture of Experts (MoE), Multi-Layer Attention (MLA) e Multi-Token Prediction (MTP) ganharam destaque ao lado da DeepSeek. Embora nem todas essas tecnologias tenham sido pioneiras da DeepSeek, sua implementação bem-sucedida estimulou a adoção generalizada. MLA, em particular, tornou-se um ponto focal de discussão em várias plataformas, desde dispositivos de borda até computação em nuvem.

MLA e o Desafio da Inovação Algorítmica

Elad Raz, CEO da NextSilicon, apontou recentemente que, embora o MLA melhore a eficiência da memória, ele também pode aumentar a carga de trabalho para os desenvolvedores e complicar a aplicação de IA em ambientes de produção. Os usuários de GPU podem precisar se envolver em otimização de ‘código manual’ para MLA. Este exemplo ressalta a necessidade de repensar a implementação de chips de IA e arquiteturas de infraestrutura na era pós-DeepSeek.

Para entender a importância do MLA, é essencial compreender os conceitos subjacentes dos Large Language Models (LLMs). Ao gerar respostas às entradas do usuário, os LLMs dependem fortemente dos vetores KV – chaves e valores – que permitem que o modelo se concentre em dados relevantes. Nos mecanismos de atenção, o modelo compara novas solicitações com chaves para determinar o conteúdo mais relevante.

Elad Raz usa uma analogia de um livro, sendo a chave como ‘os títulos dos capítulos de um livro, indicando sobre o que cada parte trata, com o valor sendo resumos mais detalhados sob esses títulos. Portanto, quando um usuário insere a solicitação, ele pede um termo de pesquisa para ajudar a gerar uma resposta. Está perguntando, ‘Sob este enredo, qual capítulo é mais relevante?’’

O MLA compacta esses títulos de capítulos (chaves) e resumos (valores), acelerando o processo de encontrar respostas e aumentando a eficiência. Em última análise, o MLA ajuda a DeepSeek a reduzir o uso de memória em 5-13%. Informações mais detalhadas podem ser encontradas no artigo oficial da DeepSeek. A conferência de desenvolvedores da MediaTek até discutiu o suporte para MLA em seus chips móveis Dimensity, sublinhando a extensa influência da DeepSeek.

Tecnologias como o MLA representam inovações algorítmicas típicas na era da IA. No entanto, o rápido ritmo de desenvolvimento da tecnologia de IA leva a um fluxo constante de inovações, o que, por sua vez, cria novos desafios, especialmente quando essas inovações são adaptadas a plataformas específicas. No caso do MLA, os usuários de GPU não-NVIDIA exigem codificação manual extra para aproveitar a tecnologia.

Embora as tecnologias da DeepSeek demonstrem a inovação e o valor da era da IA, o hardware e o software devem se adaptar a essas inovações. De acordo com Elad Raz, tal adaptação deve minimizar a complexidade para desenvolvedores e ambientes de produção. Caso contrário, o custo de cada inovação se torna proibitivamente alto.

A questão então se torna: ‘O que acontece se a próxima inovação algorítmica não se traduzir bem e simplesmente nas arquiteturas existentes?’

O Conflito Entre Design de Chips e Inovação Algorítmica

Nos últimos anos, os fabricantes de chips de IA têm relatado consistentemente que projetar grandes chips de IA leva pelo menos 1-2 anos. Isso significa que o design do chip deve começar bem antes do lançamento do chip no mercado. Dados os rápidos avanços na tecnologia de IA, o design de chips de IA deve ser prospectivo. Concentrar-se apenas nas necessidades atuais resultará em chips de IA desatualizados que não podem se adaptar às últimas inovações de aplicativos.

A inovação de algoritmos de aplicação de IA agora ocorre semanalmente. Como mencionado em artigos anteriores, o poder computacional necessário para que os modelos de IA alcancem as mesmas capacidades diminui de 4 a 10 vezes anualmente. O custo de inferência de modelos de IA que alcançam qualidade semelhante ao GPT-3 diminuiu 1200 vezes nos últimos três anos. Atualmente, modelos com 2B parâmetros podem atingir o mesmo nível do GPT-3 de 170B parâmetros de antigamente. Esta rápida inovação nas camadas superiores da pilha de tecnologia de IA apresenta desafios significativos para o planejamento e design tradicionais da arquitetura de chips.

Elad Raz acredita que a indústria precisa reconhecer inovações como a DeepSeek MLA como a norma para a tecnologia de IA. ‘A computação de próxima geração precisa não apenas otimizar para as cargas de trabalho de hoje, mas também acomodar futuros avanços.’ Esta perspectiva se aplica não apenas à indústria de chips, mas a toda a infraestrutura de nível médio a inferior da pilha de tecnologia de IA.

‘DeepSeek e outras inovações demonstraram o rápido avanço da inovação algorítmica’, disse Elad Raz. ‘Pesquisadores e cientistas de dados precisam de ferramentas mais versáteis e resilientes para impulsionar novos insights e descobertas. O mercado precisa de plataformas de computação de hardware inteligentes e definidas por software que permitam aos clientes ‘substituir’ as soluções de aceleradores existentes, permitindo que os desenvolvedores portem seu trabalho sem dor.’

Para resolver esta situação, a indústria deve projetar uma infraestrutura de computação mais inteligente, adaptável e flexível.

Flexibilidade e eficiência são frequentemente metas conflitantes. As CPUs são altamente flexíveis, mas têm uma eficiência de computação paralela significativamente menor do que as GPUs. As GPUs, com sua programabilidade, podem ser menos eficientes do que os chips ASIC de IA dedicados.

Elad Raz observou que a NVIDIA espera que os racks de data center de IA atinjam 600kW de consumo de energia em breve. Para contexto, 75% dos data centers corporativos padrão têm um consumo máximo de energia de apenas 15-20kW por rack. Independentemente dos ganhos de eficiência potenciais em IA, isso representa um desafio significativo para os data centers que constroem sistemas de infraestrutura de computação.

Na visão de Elad Raz, as GPUs e aceleradores de IA atuais podem não ser suficientes para atender às demandas potenciais de IA e High-Performance Computing (HPC). ‘Se não repensarmos fundamentalmente como melhoramos a eficiência da computação, a indústria corre o risco de atingir limites físicos e econômicos. Esta barreira também terá efeitos colaterais, limitando o acesso à IA e HPC para mais organizações, dificultando a inovação mesmo com avanços em algoritmos ou arquiteturas de GPU tradicionais.’

Recomendações e Requisitos para a Infraestrutura de Computação de Próxima Geração

Com base nessas observações, Elad Raz propôs ‘quatro pilares’ para definir a infraestrutura de computação de próxima geração:

(1) Substituibilidade Plug-and-Play: ‘A história mostrou que transições de arquitetura complexas, como a migração de CPU para GPU, podem levar décadas para serem totalmente implementadas. Portanto, as arquiteturas de computação de próxima geração devem suportar uma migração suave.’ Para substituibilidade ‘plug-and-play’, Elad Raz sugere que as novas arquiteturas de computação aprendam com os ecossistemas x86 e Arm, alcançando uma adoção mais ampla por meio da compatibilidade com versões anteriores.

Os designs modernos também devem evitar exigir que os desenvolvedores reescrevam grandes quantidades de código ou criem dependências de fornecedores específicos. ‘Por exemplo, o suporte para tecnologias emergentes como MLA deve ser padronizado, em vez de exigir ajustes manuais extras, como é o caso com GPUs não-NVIDIA. Os sistemas de próxima geração devem entender e otimizar novas cargas de trabalho imediatamente, sem exigir modificações manuais de código ou ajustes significativos de API.’

(2) Otimização de Desempenho Adaptável e em Tempo Real: Elad Raz acredita que a indústria deve se afastar dos aceleradores de função fixa. ‘A indústria precisa construir sobre bases de hardware inteligentes e definidas por software que possam se auto-otimizar dinamicamente em tempo de execução.’

‘Ao aprender continuamente com as cargas de trabalho, os sistemas futuros podem se ajustar em tempo real, maximizando a utilização e o desempenho sustentado, independentemente da carga de trabalho de aplicação específica. Esta adaptabilidade dinâmica significa que a infraestrutura pode fornecer eficiência consistente em cenários do mundo real, seja executando simulações HPC, modelos de IA complexos ou operações de banco de dados vetorial.’

(3) Eficiência Escalável: ‘Ao desacoplar hardware e software e se concentrar na otimização inteligente em tempo real, os sistemas futuros devem alcançar maior utilização e menor consumo geral de energia. Isso tornaria a infraestrutura mais econômica e escalável para atender às demandas em evolução de novas cargas de trabalho.’

(4) Design para o Futuro: Este ponto corresponde ao requisito prospectivo para a infraestrutura de IA, especialmente o design de chips. ‘Os algoritmos de ponta de hoje podem estar desatualizados amanhã.’ ‘Sejam redes neurais de IA ou modelos LLM baseados em Transformer, a infraestrutura de computação de próxima geração precisa ser adaptável, garantindo que os investimentos em tecnologia das empresas permaneçam resilientes nos próximos anos.’

Essas sugestões oferecem uma perspectiva relativamente idealizada, mas instigante. Esta metodologia de orientação deve ser considerada para o desenvolvimento futuro de tecnologias de IA e HPC, mesmo que algumas contradições inerentes permaneçam problemas de longa data na indústria. ‘Para liberar o potencial de IA, HPC e outras cargas de trabalho futuras de computação e uso intensivo de dados, devemos repensar a infraestrutura e abraçar soluções dinâmicas e inteligentes para apoiar a inovação e os pioneiros.’