Do Lucro Rápido à Revolução da IA: Shazeer e Dean

O Amanhecer da Evolução da IA: Uma Jornada de 25 Anos do PageRank à AGI

Duas luminárias da odisseia tecnológica do Google, Jeff Dean, o atual Cientista Chefe, e Noam Shazeer, uma figura fundamental por trás do modelo Transformer que voltou à empresa, recentemente participaram de um diálogo iluminador. Apresentada pelo renomado podcaster Dwarkesh Patel, a conversa ofereceu um vislumbre da evolução da IA, desde os dias fundacionais do MapReduce até a era transformadora das arquiteturas Transformer e MoE.

Esses veteranos experientes, com uma experiência combinada de décadas no Google, não apenas testemunharam, mas também moldaram ativamente as tecnologias definidoras da internet e da inteligência artificial. Ironicamente, Shazeer confessou que sua motivação inicial para ingressar no Google era uma busca financeira de curto prazo, um plano que foi dramaticamente derrubado por suas subsequentes contribuições para o campo.

O Estado Atual e a Trajetória Futura do Computação de IA

Em uma extensa troca de duas horas, Dean e Shazeer revelaram insights sobre o estado atual do computação de IA, revelando que:

  • A escala das operações transcendeu os data centers individuais; o treinamento do Gemini agora se estende por vários data centers em diferentes áreas metropolitanas, operando assincronamente.
  • Há um espaço substancial para crescimento no escalonamento do computação de inferência, pois interagir com a IA permanece significativamente mais econômico do que a leitura tradicional.
  • As arquiteturas de modelo futuras são imaginadas para superar a flexibilidade do MoE, permitindo o desenvolvimento independente de vários componentes do modelo por diferentes equipes.

Insights das Trincheiras: Programas de Recompensa por Bugs e Arquiteturas Futuras

A conversa também despertou interesse nas mídias sociais, com usuários destacando conceitos intrigantes, como:

  • O potencial de armazenar vastos modelos MoE na memória.
  • Os benefícios inesperados de bugs no código, que, à medida que a escala aumenta, podem inadvertidamente levar a descobertas inovadoras.

Dean desafiou a noção de que o computação de IA é proibitivamente caro. Ao comparar o custo de interagir com um livro versus interagir com uma IA sobre o mesmo livro, ele ilustrou um ponto convincente:

Os modelos de linguagem mais avançados operam a um custo incrivelmente baixo de aproximadamente $10^{-18}$ por operação, traduzindo-se em um milhão de tokens processados por um único dólar. Em contraste, a compra de um livro de bolso oferece meros 10.000 tokens por dólar.

Esta diferença gritante - uma vantagem de custo cem vezes maior para a interação com a IA - sublinha o potencial inexplorado para melhorar a inteligência da IA através do aumento do computação de inferência.

De uma perspectiva infraestrutural, a crescente importância do computação em tempo de inferência poderia remodelar o planejamento do data center. Isso pode exigir hardware especificamente adaptado para tarefas de inferência, reminiscente dos TPUs de primeira geração do Google, inicialmente projetados para inferência e posteriormente adaptados para treinamento.

Computação Distribuída e Assíncrona: Um Novo Paradigma

A crescente ênfase na inferência sugere que a comunicação contínua entre data centers pode se tornar desnecessária, potencialmente levando a um modelo computacional mais distribuído e assíncrono.

O Gemini 1.5 já embarcou neste caminho, aproveitando recursos computacionais em várias grandes cidades. Redes de alta velocidade sincronizam computações de diferentes data centers, alcançando escalas de treinamento sem precedentes. Para modelos grandes, onde cada etapa de treinamento pode levar vários segundos, mesmo uma latência de rede de 50 milissegundos representa um impacto mínimo.

No reino da inferência, a sensibilidade à latência torna-se uma consideração crítica. Embora as respostas imediatas exijam desempenho otimizado de baixa latência, tarefas não urgentes, como análise contextual complexa, podem tolerar tempos de processamento mais longos.

Um sistema mais adaptável e eficiente poderia gerenciar assincronamente várias tarefas, melhorando o desempenho geral e minimizando os tempos de espera do usuário. Além disso, avanços algorítmicos, como o uso de modelos de rascunho menores, podem aliviar gargalos no processo de inferência. Esta abordagem envolve modelos menores gerando tokens potenciais, que são então verificados por modelos maiores, acelerando significativamente o processo de inferência através da paralelização.

Shazeer acrescentou que, durante o treinamento assíncrono, cada réplica do modelo opera independentemente, enviando atualizações de gradiente para um sistema central para aplicação assíncrona. Apesar das implicações teóricas de pequenas flutuações de parâmetros, este método provou ser notavelmente bem-sucedido.

Em contraste, o treinamento síncrono oferece estabilidade e reprodutibilidade, uma preferência para muitos pesquisadores. Para garantir a replicabilidade no treinamento, Dean destacou a prática de registrar operações, particularmente atualizações de gradiente e sincronização de lote de dados. Ao reproduzir esses logs, mesmo o treinamento assíncrono pode produzir resultados reproduzíveis, tornando a depuração mais gerenciável e mitigando inconsistências causadas por fatores ambientais.

O Papel Serendipitoso dos Bugs

Expandindo sobre isso, Shazeer introduziu uma perspectiva intrigante:

Embora os modelos de treinamento encontrem vários bugs, a tolerância inerente ao ruído desses modelos permite o auto-ajuste, levando a resultados imprevistos. Alguns bugs até geram efeitos positivos, apresentando oportunidades de melhoria à medida que a escala amplifica as anomalias experimentais.

Quando questionado sobre as práticas de depuração, Shazeer descreveu sua abordagem de conduzir inúmeros experimentos de pequena escala para validação rápida. Este método simplifica a base de código e encurta os ciclos de experimento para horas em vez de semanas, facilitando feedback e ajustes rápidos.

Dean concordou, observando que muitos experimentos com resultados inicialmente desfavoráveis poderiam posteriormente fornecer insights cruciais. No entanto, os pesquisadores enfrentam o desafio da complexidade do código; embora melhorias incrementais sejam necessárias, elas também introduzem desafios de desempenho e manutenção, exigindo um equilíbrio entre a limpeza do sistema e a inovação.

A Estrutura Orgânica dos Modelos Futuros

Dean e Shazeer preveem uma mudança significativa nos modelos de IA de estruturas monolíticas para arquiteturas modulares.

Modelos como o Gemini 1.5 Pro já empregam uma arquitetura Mixture of Experts (MoE), ativando diferentes componentes com base na tarefa. Por exemplo, problemas matemáticos envolvem a seção proficiente em matemática, enquanto o processamento de imagem ativa o módulo especializado correspondente.

No entanto, as estruturas de modelo atuais permanecem um tanto rígidas, com módulos de especialistas sendo uniformes em tamanho e sem flexibilidade. Dean propôs uma visão mais voltada para o futuro: os modelos futuros devem adotar uma estrutura orgânica, permitindo que diferentes equipes desenvolvam ou aprimorem independentemente partes distintas do modelo.

Por exemplo, uma equipe especializada em idiomas do Sudeste Asiático poderia refinar o módulo relevante, enquanto outra se concentra em melhorar a compreensão do código. Esta abordagem modular não apenas aumenta a eficiência do desenvolvimento, mas também permite que equipes globais contribuam para o avanço do modelo.

Tecnicamente, os modelos podem otimizar continuamente módulos individuais através da destilação. Isso envolve condensar módulos grandes e de alto desempenho em versões menores e eficientes, que então continuam a aprender novos conhecimentos.

Um roteador pode selecionar a versão do módulo apropriada com base na complexidade da tarefa, equilibrando desempenho e eficiência - um conceito central para a arquitetura Pathway do Google.

Esta nova arquitetura exige infraestrutura robusta, incluindo clusters de TPUs poderosos e ampla memória de alta largura de banda (HBM). Embora cada chamada possa usar apenas uma fração dos parâmetros do modelo, todo o sistema precisa manter o modelo completo na memória para atender solicitações simultâneas.

Os modelos atuais podem decompor uma tarefa em 10 subtarefas com uma taxa de sucesso de 80%. Os modelos futuros podem potencialmente dividir uma tarefa em 100 ou 1.000 subtarefas, alcançando taxas de sucesso de 90% ou superiores.

O Momento “Caramba”: Reconhecimento Preciso de Gatos

Olhando para trás, 2007 marcou um marco significativo para modelos de linguagem grandes (LLMs).

Naquela época, o Google treinou um modelo N-gram usando 2 trilhões de tokens para tradução automática. No entanto, a dependência do armazenamento em disco para dados N-gram resultou em alta latência devido a E/S de disco extensiva (por exemplo, 100.000 pesquisas/palavra), levando 12 horas para traduzir uma única frase.

Para resolver isso, eles elaboraram várias estratégias, incluindo compressão de memória, arquitetura distribuída e otimização de API de processamento em lote:

  • Compressão de Memória: Carregar dados N-gram inteiramente na memória para evitar E/S de disco.
  • Arquitetura Distribuída: Distribuir dados entre várias máquinas (por exemplo, 200) para consultas paralelas.
  • Otimização de API de Processamento em Lote: Reduzir a sobrecarga por solicitação para melhorar a taxa de transferência.

Durante este período, o poder computacional começou a seguir a Lei de Moore, levando ao crescimento exponencial.

“Do final de 2008, graças à Lei de Moore, as redes neurais realmente começaram a funcionar.”

Quando perguntado sobre um momento “Caramba” - um momento de descrença de que um esforço de pesquisa em particular realmente funcionou - Jeff relatou o projeto de uma equipe inicial do Google onde eles treinaram um modelo para aprender recursos de alto nível (como reconhecer gatos e pedestres) a partir de quadros de vídeo do YouTube. Através do treinamento distribuído (2.000 máquinas, 16.000 núcleos), eles alcançaram aprendizado não supervisionado em grande escala.

Após o pré-treinamento não supervisionado, o desempenho do modelo em tarefas supervisionadas (ImageNet) melhorou em 60%, demonstrando o potencial do treinamento em grande escala e aprendizado não supervisionado.

Abordando se o Google permanece principalmente uma empresa de recuperação de informações, Jeff enfatizou:

“A IA cumpre a missão original do Google.”

Em essência, a IA não apenas recupera informações, mas também entende e gera conteúdo complexo, com vasto potencial futuro. Quanto à direção futura do Google, “Eu não sei.”

No entanto, pode-se antecipar a integração do Google e algum código de código aberto no contexto de cada desenvolvedor. Em outras palavras, ao permitir que os modelos lidem com mais tokens, pesquisar dentro da pesquisa aumentará ainda mais as capacidades e a utilidade do modelo.

Este conceito já está sendo experimentado internamente no Google.

“Na verdade, já conduzimos mais treinamento no modelo Gemini para desenvolvedores internos em nossa base de código interna.”

Mais precisamente, o Google alcançou internamente a meta de 25% de seu código sendo escrito por IA.

Os Tempos Mais Felizes no Google

Curiosamente, a dupla também compartilhou mais experiências intrigantes relacionadas ao Google.

Para Noam em 1999, juntar-se a uma grande empresa como o Google era inicialmente desagradável, pois ele sentia que suas habilidades poderiam ser subutilizadas. No entanto, depois de ver o gráfico de índice de volume de pesquisa diária do Google, ele rapidamente mudou de ideia:

“Essas pessoas certamente terão sucesso e parece que têm muitos problemas interessantes para resolver.”

Ele se juntou com uma intenção “pequena” específica:

“Ganhar algum dinheiro e depois seguir alegremente meus próprios interesses de pesquisa em IA.”

Ao ingressar no Google, ele conheceu seu mentor, Jeff (novos funcionários foram designados mentores), e eles colaboraram em vários projetos.

Neste ponto, Jeff interrompeu com seu próprio apreço pelo Google:

“Eu gosto do amplo mandato do Google para a visão RM (Responsiva e Multimodal), mesmo que seja uma direção, podemos fazer muitos projetos pequenos.”

Isso também proporcionou a Noam a liberdade que levou a pessoa que inicialmente planejou “bater e correr” a ficar a longo prazo.

Enquanto isso, quando o tópico se voltou para Jeff, sua tese de graduação sobre retropropagação paralela foi revisitada.

Este artigo de 8 páginas se tornou a principal tese de graduação de 1990 e é preservado na biblioteca da Universidade de Minnesota. Nele, Jeff explorou dois métodos para treinamento paralelo de redes neurais com base na retropropagação:

  • Abordagem particionada por padrão: Representar toda a rede neural em cada processador e dividir os padrões de entrada entre os processadores disponíveis.
  • Abordagem particionada por rede (abordagem em pipeline): Distribuir neurônios da rede neural entre os processadores disponíveis, formando um anel de comunicação. Os recursos passam por este pipeline, processados por neurônios em cada processador.

Ele testou esses métodos com redes neurais de diferentes tamanhos e vários dados de entrada. Os resultados mostraram que, para a abordagem particionada por padrão, redes maiores e mais padrões de entrada produziram melhor aceleração.

Mais notavelmente, o artigo revela como era uma rede neural “grande” em 1990:

“Uma rede neural de 3 camadas com 10, 21 e 10 neurônios por camada foi considerada muito grande.”

Jeff lembrou que usou até 32 processadores para seus testes.

(Naquela época, ele provavelmente não conseguia imaginar que 12 anos depois, ele, junto com Andrew Ng, Quoc Le e outros, usariam 16.000 núcleos de CPU para identificar gatos a partir de dados massivos.)

No entanto, Jeff admitiu que, para que essas descobertas de pesquisa fossem realmente eficazes, “precisávamos de cerca de um milhão de vezes mais poder de computação.”

Mais tarde, eles discutiram os potenciais riscos da IA, especialmente o problema do loop de feedback quando a IA se torna extremamente poderosa. Em outras palavras, a IA poderia entrar em um loop de aceleração incontrolável (ou seja, “explosão de inteligência”) escrevendo código ou melhorando seus algoritmos.

Isso poderia levar a IA a superar rapidamente o controle humano, até mesmo criando versões maliciosas. Como o anfitrião colocou, imagine “um milhão de programadores de topo como Jeff, eventualmente se transformando em um milhão de Jeffs maus.”

(Internauta): “Novo pesadelo desbloqueado, haha!”

Finalmente, refletindo sobre seus tempos mais felizes no Google, ambos compartilharam suas memórias.

Para Jeff, os momentos mais alegres nos primeiros anos do Google foram testemunhar o crescimento explosivo do tráfego de pesquisa do Google.

“Construir algo que 2 bilhões de pessoas agora usam é incrível.”

Recentemente, ele tem ficado emocionado em construir coisas com a equipe Gemini que as pessoas não acreditariam ser possível mesmo há cinco anos, e ele prevê que o impacto do modelo se expandirá ainda mais.

Noam ecoou experiências semelhantes e um senso de missão, até mesmo mencionando com carinho as “áreas de micro-cozinha” do Google.

Este é um espaço especial com cerca de 50 mesas, oferecendo café e lanches, onde as pessoas podem conversar livremente e trocar ideias.

Nesta menção, até Jeff ficou animado (doge).