GPT-4.5: 100.000 GPUs e Desafios

Em uma rara visão por trás das cortinas, a OpenAI compartilhou recentemente detalhes sobre o desenvolvimento de seu modelo mais ambicioso até agora, o GPT-4.5. Essa revelação veio mais de um mês após o lançamento do modelo, em uma conversa sincera de 45 minutos com o cofundador e CEO da OpenAI, Sam Altman, ao lado de três figuras técnicas-chave do projeto GPT-4.5. A discussão revelou uma série de desafios antes desconhecidos, incluindo atrasos significativos no cronograma, falhas frequentes no cluster computacional e caminhos imprevisíveis para aprimoramento de desempenho.

A Gênese do GPT-4.5: Uma Odisseia de Dois Anos

A iniciativa GPT-4.5, concebida dois anos antes de seu lançamento, representou o empreendimento mais meticulosamente planejado da OpenAI até o momento. Exigiu o esforço conjunto de centenas de indivíduos, com Altman observando que o projeto envolveu efetivamente ‘quase todos’ na OpenAI. Este amplo envolvimento sublinha a importância estratégica do GPT-4.5 dentro da missão mais ampla da organização.

Durante a fase de desenvolvimento, a equipe da OpenAI encontrou o que chamou de ‘problemas catastróficos’. A implantação de um cluster de 100.000 GPUs expôs vulnerabilidades latentes da infraestrutura que se manifestaram como falhas infrequentes, porém profundas. Para encontrar um equilíbrio entre conveniência e desempenho ideal, os engenheiros de sistema adotaram uma abordagem iterativa, essencialmente ‘construindo e consertando’ simultaneamente. Um bug particularmente difícil atormentou o cluster com erros recorrentes, permanecendo não detectado até que o processo de treinamento atingisse aproximadamente 40% da conclusão.

Paradoxalmente, essas provações contribuíram para o fortalecimento da base técnica da OpenAI. A experiência adquirida agora permite que uma equipe enxuta de apenas 5 a 10 indivíduos replique um modelo da magnitude do GPT-4. O salto de desempenho do GPT-4 para o GPT-4.5, estimado em cerca de dez vezes, foi caracterizado por ‘inteligência difícil de quantificar, mas amplamente aprimorada’, surpreendendo até mesmo aqueles dentro da OpenAI. Este salto qualitativo sugere avanços além do mero dimensionamento, apontando para melhorias fundamentais na capacidade do modelo de raciocinar e entender.

Olhando para o futuro, a OpenAI reconhece que alcançar a próxima ordem de magnitude em desempenho dependerá não apenas da potência computacional, mas sim da eficiência dos dados. O foco está mudando para o desenvolvimento de algoritmos que podem extrair mais conhecimento de conjuntos de dados existentes, maximizando assim a utilidade dos recursos computacionais disponíveis.

Além disso, a arquitetura está evoluindo de um único cluster para um design multi-cluster, prevendo cenários futuros de treinamento envolvendo aprendizado colaborativo em até 10 milhões de GPUs. Essa transição exige melhorias significativas na tolerância a falhas para garantir a estabilidade e confiabilidade de tais sistemas distribuídos em grande escala.

A conversa também se aprofundou na relação entre a ‘cauda longa’ dos dados e as leis de escalonamento, as vantagens da estreita colaboração entre as equipes de aprendizado de máquina e sistemas (co-design), a essência do aprendizado não supervisionado e uma cultura de resolução de problemas meticulosa.

Principais Atores por Trás do GPT-4.5

Além de Altman, os outros três membros da equipe OpenAI que participaram desta conversa foram:

  • Alex Paino: Responsável pelos algoritmos de aprendizado de máquina de pré-treinamento do GPT-4.5.
  • Amin Tootoonchian: Arquiteto chefe de sistema da OpenAI.
  • Daniel Selsam: Pesquisa eficiência de dados e algoritmos.

Origens e Evolução do GPT-4.5

Sam Altman: O que é preciso realmente para construir um modelo tão grande quanto o GPT-4.5?

Alex Paino: Iniciamos este projeto há cerca de dois anos. Naquela época, a OpenAI estava prestes a lançar um novo grande cluster de computação, e nossa equipe viu essa oportunidade e fez uma série de tarefas para determinar as funções que o modelo precisava incluir, e conduziu um grande número de testes de operações de redução de risco.

Desenvolvemos um plano longo para isso, envolvendo toda a pilha de tecnologia do sistema ao aprendizado de máquina. Reduzir riscos e se preparar para o treinamento é um longo processo de execução, e o treinamento em si também é um projeto muito grande.

Amin Tootoonchian: Acho que este processo requer uma estreita cooperação entre a equipe de aprendizado de máquina e a equipe de sistema desde o início, até que saibamos claramente qual modelo queremos treinar e, então, começarmos o treinamento.

Fizemos previsões em aprendizado de máquina e sistemas, tentando minimizar a lacuna entre expectativas e realidade. No entanto, como nosso ritmo de trabalho é muito rápido e temos que usar os recursos de computação mais recentes, o treinamento do modelo se tornou algo que é difícil de planejar perfeitamente com antecedência.

Quase sempre começamos o treinamento com muitos problemas não resolvidos e tentamos superar desafios e progredir durante o processo. A principal solução é aumentar mais recursos de computação.

A etapa final é a execução, que exige que muitas pessoas invistam muita energia e motivação por um longo tempo para concluir o processo de treinamento.

Sam Altman: O quanto você acha que a lacuna entre nossas expectativas e a realidade é?

Amin Tootoonchian: Em termos de sistema, no início, geralmente estamos longe do estado esperado. Sempre enfrentamos uma escolha: adiar o lançamento e esperar que o problema seja resolvido ou começar cedo e resolver o problema no processo. Isso sempre exige concessões para evitar atrasos irracionais no processo.

Mas quase sempre há problemas inesperados, e o que temos que fazer é lidar com esses nós o máximo possível, lidar com os fatores desconhecidos e formular um plano para o treinamento do modelo.

Alex Paino: Neste projeto, nosso objetivo é fazer o GPT-4.5, o que significa que suas capacidades devem ser 10 vezes mais inteligentes do que o GPT-4. Este é o objetivo inicial que estabelecemos há cerca de 2 anos.

Muitas coisas aconteceram neste processo. Estávamos pensando se poderíamos fazer melhor ou pior do que o esperado? Este é um processo muito complicado, mas no final, em termos dos cálculos eficazes que colocamos, obtivemos um modelo que achamos que é 10 vezes mais inteligente do que o GPT-4.

Amin Tootoonchian: Em termos de execução, o tempo gasto no projeto GPT-4.5 está longe do que inicialmente esperávamos.

A Revolução da Equipe Enxuta: Treinando o GPT-4 com Recursos Mínimos

Sam Altman: Quando o cluster expandiu de 10.000 placas para 100.000 placas, por que vocês encontraram tantos problemas?

Amin Tootoonchian: Acho que se os desenvolvedores de sistema forem sensíveis o suficiente, a maioria dos problemas pode ser observada no estágio de pequena escala.

Há também alguns problemas que não são exclusivos do estágio de treinamento em larga escala, mas originalmente ocorriam com frequência, mas se tornarão problemas catastróficos após o aumento da escala, especialmente quando a equipe não antecipou que esses problemas se deteriorariam a tal ponto com antecedência.

Sam Altman: Que coisas causaram consequências desastrosas?

Amin Tootoonchian: Acho que os problemas de infraestrutura são bem conhecidos. A taxa de falhas, o tipo de falha e a quantidade total de falhas são muito altos. O cluster de 100.000 placas é um pool de amostra em larga escala, então também descobrimos problemas que o fornecedor de poder de computação não observou.

A rede é uma parte disso, e aceleradores individuais também podem ter problemas. Mas esta também é a beleza deste sistema - quase todos os componentes precisam funcionar como esperado para produzir os resultados esperados. Nosso trabalho é minimizar esse problema o máximo possível.

Sam Altman: É realmente difícil trabalhar no limite da escala do cluster, mas também notei que fazer coisas que não estão mais na vanguarda da tecnologia se tornou muito mais fácil. Treinar o GPT-4.5 exige centenas de pessoas, e quase todos na OpenAI estão envolvidos.

Mas hoje, se você escolher uma equipe menor da OpenAI e treinar o GPT-4 do zero com todo o conhecimento que conhecemos e todo o trabalho do sistema, quantas pessoas seriam necessárias?

Alex Paino: Acho que pode levar cerca de 5 a 10 pessoas para fazer um modelo de nível GPT-4 agora. A pilha de tecnologia foi muito aprimorada no processo de conclusão do GPT-4.5.

Na verdade, fizemos coisas semelhantes no processo de treinamento do GPT-4.5 - treinamos o GPT-4o, que é um modelo de nível GPT-4, e o re-treinamos usando muito do mesmo conteúdo do projeto de pesquisa GPT-4.5. Menos pessoas foram usadas para esse treinamento.

Eficiência de Dados: A Chave para Desbloquear a Próxima Geração de Modelos

Sam Altman: Da sua perspectiva, Dan? Por que é difícil treinar modelos grandes?

Daniel Selsam: Acho que é difícil fazer qualquer coisa nova. Acho que mesmo apenas descobrir que alguém já fez algo torna muito mais fácil, porque a parte mais difícil é ter a crença de que você pode fazer algo em primeiro lugar. Acho que apenas saber que algo é viável é um super código de trapaça, tornando as coisas muito mais fáceis.

Alex Paino: Estamos expandindo a operação de pré-treinamento GPT para 10 vezes o que era antes, e sempre encontraremos algumas coisas novas interessantes que você não pode necessariamente prever.

Sam Altman: O que é necessário para atingir o próximo crescimento de 10x ou 100x na escala de pré-treinamento?

Daniel Selsam: Eficiência de dados. A arquitetura Transformer (que é o GPT) é muito eficiente no uso de dados. Ele pode absorver e comprimir informações bem e alcançar a generalização. Sua maior característica é que ele pode absorver informações de forma eficiente com recursos de computação.

No entanto, a profundidade de insight que ele obtém dos dados é limitada. Quando o poder de computação cresce rapidamente enquanto os dados crescem relativamente devagar, os dados se tornam um gargalo neste modelo padrão. Isso requer inovação algorítmica, desenvolvendo métodos que podem usar mais poder de computação para aprender mais conhecimento da mesma quantidade de dados.

Sam Altman: O que mais você acha que precisamos para manter a expansão além disso?

Amin Tootoonchian: Minha resposta é sobre o sistema. Acho que a enorme quantidade de trabalho exigida para o GPT-4.5 é essencialmente o resultado inevitável das especificações do modelo. Não podemos treinar o GPT-4.5 com exatamente a mesma arquitetura técnica do GPT-4.

Em termos de gerenciamento de estado, como os recursos de computação necessários excederam a capacidade de carga de um único cluster, temos que mudar para uma arquitetura de treinamento multi-cluster. Para atingir este objetivo, devemos integrar vários fluxos de trabalho diferentes em um curto período de tempo.

Embora isso tenha nos ajudado a alcançar um avanço gradual, para atingir a próxima ordem de magnitude de melhoria de desempenho, ainda precisamos resolver vários problemas técnicos conhecidos, mas temporariamente arquivados - esses problemas não podem ser evitados. É esse tipo de compensação técnica que prolonga constantemente o ciclo de desenvolvimento de um sistema perfeito. Estamos sempre fazendo compensações estratégicas no processo de busca do plano de implementação ideal.

É preciso deixar claro que o sistema em si não é o objetivo final. Seu valor de saída real é a consideração central. Para a próxima melhoria de desempenho de 10x, acho que o avanço na tolerância a falhas é crucial. Precisamos construir um mecanismo tolerante a falhas que colabore profundamente com a carga de trabalho para reduzir significativamente a ansiedade de operação e manutenção. A complexidade de operação e manutenção do sistema supergrande atual é essencialmente diferente da dos sistemas anteriores.

Sam Altman: Você sabe qual a porcentagem de falhas causadas por certos componentes durante o treinamento do GPT-4.5?

Amin Tootoonchian: Não tenho números específicos para compartilhar, mas em geral, a implantação inicial de uma nova geração de hardware geralmente enfrenta muitos desafios técnicos que não foram totalmente compreendidos. Escolhemos avançar o projeto antes que o problema fosse totalmente esclarecido, o que levou a uma alta taxa de falhas inicial.

Mas a experiência mostra que, à medida que a causa raiz é identificada e resolvida, a taxa de falhas será significativamente reduzida. Este fenômeno essencialmente reflete nosso aprofundamento do entendimento da infraestrutura - algumas pessoas chamam isso de limpar a infraestrutura ou entender os problemas básicos da infraestrutura.

Os estágios iniciais de execução são quase sempre bastante dolorosos. Enquanto avançamos o projeto, também estamos continuamente descobrindo e resolvendo novos modos de falha, mas eventualmente a taxa de falhas diminuirá gradualmente e o tempo de execução normal aumentará.

Esta é essencialmente uma questão de compensações de prioridade: nos estágios iniciais do ciclo de vida da infraestrutura, seu risco de falha é geralmente difícil de estimar com precisão; e se buscarmos excessivamente o estado ideal final (o original é ‘City Estate’, o design ideal da cidade-estado), isso pode levar ao sistema O desempenho de disponibilidade inicial é extremamente ruim.

Além da Computação: Inovação Algorítmica e o Potencial Inexplorado dos Dados

Sam Altman: Embora o modelo de inferência seja um componente-chavede nossa pilha de tecnologia futura, vamos nos concentrar temporariamente nos limites de desenvolvimento dos modelos tradicionais de pré-treinamento. Assumindo que temos poder de computação GPU ilimitado, largura de banda de rede ilimitada e fonte de alimentação ilimitada, mas ainda somos limitados pelos gargalos técnicos existentes - incluindo problemas de confiabilidade do sistema, falta de métodos de treinamento tolerantes a falhas e limitações dos conjuntos de dados existentes.

De acordo com nossa regra de evolução de alcançar um aumento de escala de 100 vezes para cada número de versão GPT principal, com base nos limites técnicos atuais, qual nível pode atingir o desenvolvimento de modelos de pré-treinamento? Especificamente, para os modelos da série GPT, com base em nosso sistema de conhecimento existente, que tipo de modelo pode teoricamente ser treinado? Podemos fazer o GPT-5.5?

Alex Paino: Da perspectiva do aprendizado de máquina e do desenvolvimento de algoritmos, ainda não atingimos um limite teórico claro. Na verdade, estamos apenas começando a explorar algoritmos com maior eficiência de dados e como usar mais plenamente os recursos de dados existentes. Esta situação é muito interessante - mesmo modelos como o GPT-4 são amplamente desenvolvidos sob condições de recursos de computação limitados, o que determinou a direção da maioria das pesquisas anteriores.

Mas a situação é completamente diferente agora. Desde o GPT-4.5, em algumas dimensões-chave, os dados, em vez da computação, estão se tornando a principal restrição. Esta mudança torna a pesquisa relacionada menos emocionante.

Sam Altman: Mas este é realmente um progresso incrível, e o mundo pode não perceber totalmente que os recursos computacionais não são mais o principal gargalo no melhor modelo que podemos construir. Esta mudança é muito significativa, afinal, vivemos em um ambiente limitado computacionalmente por muito tempo.

Revelando as Surpresas: Previsibilidade vs. Inteligência Imprevista

Sam Altman: Qual é a experiência de aprendizado de máquina mais interessante que aprendemos durante o treinamento do GPT-4.5? Apenas diga o que você quer compartilhar.

Amin Tootoonchian: Em geral, as coisas mais instigantes são aquelas que se desviam de nossas previsões - especialmente quando tentamos entender por que o desempenho real se desvia da curva esperada.

Alex Paino: Uma das descobertas mais surpreendentes para nós é que diferentes componentes de aprendizado de máquina têm desempenhos de escalabilidade muito diferentes. Algumas partes podem ser expandidas muito bem, enquanto outras não. Isto é o que realmente percebemos durante o processo de treinamento real. Esta experiência nos deu muita inspiração.

Daniel Selsam: Acho que as duas características principais do paradigma GPT são: primeiro, a perda de teste (uma métrica que mede o quão bem o modelo se desempenha em dados de teste não vistos) pode ser prevista com precisão; segundo, o desempenho do modelo mostra uma melhoria previsível com o aumento da escala. O que é ainda mais incrível é que a redução na perda de teste será transformada em um nível de inteligência aprimorado em todos os sentidos em várias maneiras difíceis de quantificar, mas incríveis e misteriosas.

Sam Altman: Você está absolutamente otimista sobre isso? Você concorda plenamente com este ponto de vista?

Daniel Selsam: Na verdade, o que eu quero dizer é que encontramos um fenômeno particularmente interessante no teste GPT-4.5 - após o reteste, as muitas capacidades sofisticadas mostradas pelo modelo excederam completamente as expectativas de todos.

Temos certeza de que ele se tornará mais inteligente de várias maneiras que são difíceis de definir com antecedência, e essas melhorias sutis podem ser observadas na satisfação do usuário após a implantação real: reservas de senso comum mais fortes, capacidade de compreensão contextual mais precisa e compreensão semântica mais sutil - esta é a magia trazida por essas perdas de teste extras. Na minha opinião, a Lei de Escalonamento foi perfeitamente verificada nesta dimensão.

O Poder da Colaboração: Equipes de Aprendizado de Máquina e Sistemas Trabalhando em Harmonia

Sam Altman: Qual foi o momento mais positivo durante todo o processo de treinamento? Qual é sua memória favorita? Obviamente, há muita dor, mas espero que essa dor tenha sido aliviada.

Alex Paino: Eu tenho um momento assim. Fizemos muito trabalho de aprendizado de máquina durante o treinamento, e acho que algumas das mudanças que fizemos durante o processo tiveram um impacto muito bom, talvez até melhor do que o esperado, o que foi um momento muito emocionante para nós.

Amin Tootoonchian: Para mim, ao mesmo tempo que o treinamento, também estamos construindo infraestrutura. Acreditamos firmemente que podemos atravessar este penhasco de desempenho, e temos um plano, e todos estão executando-o, mas leva muito tempo. Isto é trabalho duro e definitivamente mais difícil do que eu pensava. Minha previsão estava errada e subestimei o tempo que levaria para resolver esses problemas.

O momento em que a equipe finalmente superou aqueles problemas-chave e o desempenho foi significativamente melhorado ainda está fresco na minha memória. Você pode sentir claramente a mudança de energia em toda a equipe - todos estão repentinamente cheios de energia e correndo em direção ao objetivo final com nova motivação.

O mais incrível é que o tempo estimado de conclusão exibido em nosso rastreador de status continuou a encurtar dos dois anos iniciais e finalmente travou em um nó de tempo claro. Este progresso visível é incomensurável para aumentar o moral da equipe. Acho que esta é a beleza disso.

Gostaria de enfatizar que o trabalho de aprendizado de máquina nunca parou. Mesmo após o início do treinamento, este processo de co-design de aprendizado de máquina ainda está em andamento. A equipe de aprendizado de máquina não apenas acompanhou ativamente os problemas que haviam sido marcados como ‘processamento subsequente’, mas também continuou a entregar melhorias que realmente otimizaram o tempo de treinamento.

Isto incorpora perfeitamente o espírito de nossa equipe - não há uma fronteira de trabalho de ‘varrer a neve na frente de sua própria porta’ aqui, mas uma colaboração verdadeiramente perfeita. Esta coesão é nossa maior vantagem.

Planejamento Meticuloso e Busca Incansável por Anomalias no Pré-Treinamento GPT-4.5

Daniel Selsam: O mundo exterior tem discutido muito sobre os desafios e a precisão preditiva deste treinamento em si. Mas, na verdade, tudo isso é construído sobre um planejamento extremamente meticuloso - você pode falar mais sobre isso em detalhes?

Alex Paino: Este é definitivamente o plano mais meticuloso que fizemos até agora. Como eu disse, começamos a nos preparar para este projeto um ano antes do lançamento oficial do treinamento. Durante este período, conduzimos vários testes de controle de risco em grande escala.

Prestamos atenção especial à introdução gradual de todas as melhorias: começando de uma configuração básica de alta confiança - que pode ser entendida como uma arquitetura madura semelhante ao GPT-4, dominamos totalmente esta configuração no nível de aprendizado de máquina - e, em seguida, colocando novas características como blocos de construção.

A chave é verificar rigorosamente a escalabilidade de cada melhoria em diferentes escalas: não apenas para ver as melhorias de desempenho, mas também para garantir que essas melhorias possam continuar a ser eficazes à medida que o tamanho do modelo aumenta. Muitas melhorias têm um bom desempenho em testes de pequena escala, mas falharão em aplicações de grande escala.

Portanto, mantivemos um alto grau de vigilância ao longo do processo e continuamos a iterar e melhorar nossa metodologia de lei de escalonamento. Através desta prática de controle de risco, acumulamos muita experiência valiosa, que continuará a orientar o desenvolvimento de futuros modelos da série GPT.

Amin Tootoonchian: Lembro de um momento particularmente interessante que sinto muita falta. Você sabe, quase inevitavelmente encontramos vários bugs cada vez que iniciamos uma tarefa de treinamento, o que é comum. Mas a chave é garantir que o progresso não seja prejudicado, e devemos sempre confirmar se o progresso atual está realmente no caminho certo e se esses bugs terão um impacto fatal na saúde do treinamento.

Embora estivéssemos inicialmente muito certos de que havia falhas importantes, através de todo o sistema de monitoramento que construímos, fomos capazes de distinguir com precisão a causa raiz do problema: É uma falha de hardware? Que tipo de falha de hardware? É corrupção de dados? Ou é um bug no próprio modelo de aprendizado de máquina? Ou é uma condição de corrida no código?

Naquela época, tínhamos várias áreas de discussão de problemas abertas ao mesmo tempo, com uma grande variedade de sintomas. Após uma série de correções de bugs, caímos em um impasse: vários problemas não resolvidos foram empilhados na frente de nós, e todos estavam quebrando suas cabeças - estes foram causados por diferentes bugs? Ou é um bug que está causando problemas?

Mais tarde, realizamos uma votação e pedimos aos membros da equipe que votassem na causa raiz mais provável. Como resultado, a opção menos otimista atingiu a verdade: descobriu-se que havia um problema com a função torch.sum upstream do PyTorch, uma simples operação de soma.

Este bug é muito interessante. Você sabe que usamos principalmente o kernel Triton, e apenas em alguns cenários marginais insignificantes voltaremos às operações do torch. O bug da função torch.sum acionado por nosso caminho de código específico ocasionalmente causará acesso ilegal à memória devido às características de distribuição de dados - cometeu um erro ao calcular o deslocamento da memória.

O mais dramático é que quando um engenheiro finalmente localizou o problema e enviou uma correção, todos os erros com diferentes sintomas desapareceram. Todos mudaram excitadamente o canal Slack da ‘teoria de multi-bug’ para a ‘teoria de bug único’, e a cena foi muito feliz.

Por quanto tempo este bug esteve à espreita? Ele existe desde os estágios iniciais do treinamento e não foi encontrado até que a barra de progresso tivesse passado cerca de 40%. O processo de descoberta também foi cheio de drama: Naquela época, um kernel complexo chamava continuamente uma sequência, e a segunda chamada acionava acesso ilegal à memória.

Embora esta frequência de falha seja extremamente baixa (ela ocorre apenas uma vez a cada poucas centenas ou mesmo milhares de etapas de treinamento), é fácil ser ignorada como uma falha ocasional, mas o princípio de nossa equipe é: nunca deixe passar nenhuma anomalia. A melhor parte desta história está nesta persistência de não desistir facilmente.

A Busca por Sistemas Ideais: Um Horizonte Distante

Sam Altman: Após o início do pré-treinamento GPT-4.5, o que mais vocês têm que fazer?

Alex Paino: Todos nós precisamos observar a curva de perda frequentemente. Além disso, precisamos otimizar continuamente o sistema e melhorar o co-design que não foi concluído antes do início do treinamento. Monitoramos de perto vários indicadores estatísticos durante o processo de treinamento para garantir que não haja tendências anormais inesperadas. Ao mesmo tempo, exploramos possíveis planos de melhoria de uma perspectiva de aprendizado de máquina. Embora o trabalho de nível de dados seja temporariamente reduzido após o início do pré-treinamento, ainda há um grande número de tarefas a serem processadas.

Amin Tootoonchian: Acho que o aprendizado de máquina depende em grande parte da correção do julgamento. Após o início do pré-treinamento, enfrentando um grande número de sinais de ruído, somos como adivinhos interpretando folhas de chá, e precisamos julgar se o sistema é saudável. Esta é nossa responsabilidade.

Sam Altman: No nível do sistema, o que nos impede de conduzir o treinamento do modelo? São chips, processadores, memória, rede ou energia?

Amin Tootoonchian: A beleza do sistema é que, ao fazer o co-design, a carga de trabalho pode se adaptar à infraestrutura que você constrói. Não há uma afirmação geral aqui de que a rede é o gargalo, ou a largura de banda da memória é o gargalo, e assim por diante. Mesmo para modelos da mesma especificação, podemos escolher transferir os requisitos de recursos, e podemos escolher criar um sistema mais equilibrado, mas ter mais largura de banda da memória é sempre benéfico. É difícil responder a esta pergunta sem condições limitantes.

Ao projetar o GPT-4.5, podemos precisar que o sistema tenha algum tipo de atributo, que precisa ser gerado sob orientação humana. Portanto, o co-design é muito importante para formar a arquitetura do modelo e os elementos arquitetônicos, e em certa medida conecta os aspectos do sistema e do aprendizado de máquina. Se o sistema tem um atributo que não queremos ter muito, minha situação ideal é que tudo seja desacoplado para dar um ao outro o máximo de espaço.

Às vezes as coisas estão conectadas, e precisamos atender aos requisitos da infraestrutura, ou as coisas deveriam ser assim. Na maioria das vezes, precisamos de um sistema equilibrado e uma comunicação equilibrada. E o melhor meio de ajuste que temos são todos esses co-designs.

Sam Altman: Quão longe estamos desta meta do sistema ideal?

Amin Tootoonchian: Ainda estamos muito longe desse objetivo. O processo de construção de um sistema é sempre assim: primeiro há uma visão idealizada de como as coisas deveriam funcionar, e então reconciliar essas diferenças com os recursos existentes.

Acho que não estamos fazendo isso por teoria pela teoria, mas apenas para discutir o que queremos que ele se torne, para realizá-lo e para chegar o mais perto possível desse ideal. Esta pode ser a parte mais emocionante do campo do sistema. As pessoas costumavam dizer que este é um design de sistema elegante, e, finalmente, a história nos dirá se esta escolha está correta ou errada.

Sam Altman: Se você pudesse obter uma resposta para um problema de aprendizado de máquina antes do próximo grande treinamento, o que você mais gostaria de saber?

Alex Paino: Eu gostaria de saber quais algoritmos devemos usar sob dadoslimitados e campos específicos. Embora esta seja uma questão ampla, é de fato a mais crítica.

Sam Altman: Vocês conduzirão pré-treinamento síncrono com 10 milhões de GPUs ou mais no futuro?

Alex Paino: Acho que haverá, mas pode não ser um modelo de pré-treinamento tradicional. Sua forma pode ser muito diferente da tecnologia existente, mas ainda manterá o núcleo do aprendizado não supervisionado.

Amin Tootoonchian: Eu prefiro o modo semi-síncrono. Devido às leis físicas, a sincronização completa não é realista.

Daniel Selsam: Acho que é mais provável que seja descentralizado. Haverá definitivamente 10 milhões de GPUs trabalhando juntas em um sistema de IA para aprender e realizar tarefas, mas como as várias partes do cérebro, elas podem não necessariamente se comunicar umas com as outras.

O Poder Sinérgico das Melhorias Algorítmicas e Eficiência de Dados

Sam Altman: Quão grande é a lacuna entre os algoritmos mais avançados e a eficiência de dados humanos? Podemos esperar alcançar no futuro?

Daniel Selsam: É difícil comparar diretamente os dois. A lacuna no aprendizado de idiomas é definitivamente enorme. A chave é como definir a quantidade de informações recebidas pelos nervos visuais humanos. Acho que os algoritmos são geralmente muito menos eficientes em dados do que os humanos.

Por décadas, o aprendizado profundo se concentrou na eficiência do poder de computação. Além do crescimento de dados e poder de computação, o que é realmente surpreendente é o efeito sinérgico produzido por melhorias algorítmicas. Cada vez que o desempenho do algoritmo melhora em 10% ou 20%, terá um efeito significativo quando sobreposto à eficiência de dados. Até agora, não houve mobilização em torno da eficiência de dados, porque esta abordagem não vale a pena quando os dados não estão circulando e o poder de computação é limitado.

Agora, estamos entrando em um novo estágio de pesquisa de IA, e começaremos a acumular vitórias na eficiência de dados. Acho um pouco tolo prever agora que encontraremos obstáculos insuperáveis. A maneira como o cérebro humano funciona é certamente diferente de nossas melhorias de algoritmo, e devemos ser cautelosos a este respeito. Mas acho que devemos permanecer otimistas sobre o futuro desenvolvimento de algoritmos.

Sam Altman: Qual a correlação entre o pré-treinamento em maior escala e as habilidades mais fortes de aprendizado e raciocínio do modelo?

Alex Paino: O que observamos é que melhor pré-treinamento e aprendizado não supervisionado geralmente melhoram a inteligência geral do modelo e são de grande ajuda na generalização. Isso é complementar à capacidade de raciocínio, enquanto o raciocínio pode ser mais lento em melhorar a inteligência. Acho que eles são complementares.

Sam Altman: O pré-treinamento parece ser geral em muitas coisas, enquanto treinar um modelo só pode fazê-lo funcionar bem em um tipo de coisa, está certo?

Alex Paino: Isso é muito interessante, mas você não ficará surpreso com esta situação quando vir os dados que os treinam. A faixa de conjunto de dados de pré-treinamento é muito grande, e o que buscamos é amplitude e diversidade. Quando se trata de aprendizado por reforço do modelo e fazê-lo obter claramente bons sinais de recompensa e um bom ambiente de treinamento, acho difícil equilibrar a amplitude do conjunto de dados.

Daniel Selsam: Eu concordo, mas acho que há outro fator. O pré-treinamento está essencialmente comprimindo dados, descobrindo assim as conexões entre coisas diferentes. Trata-se de analogias e mais abstrato. O raciocínio é uma habilidade que requer pensamento cuidadoso sobre um problema específico e também pode obter soluções para muitos tipos de problemas. No entanto, no processo de pré-treinamento, um conhecimento mais abstrato pode ser aprendido ao comprimir dados em diferentes campos.

A Essência da Inteligência: Compressão e o Efeito Long-Tail

Sam Altman: Por que o aprendizado não supervisionado é eficaz?

Daniel Selsam: A chave é a compressão. A forma ideal de inteligência é a indução de Solomonoff. Em geral, o aprendizado de máquina considerará todas as possibilidades, mas tende a começar os testes com programas mais simples.

A essência do pré-treinamento atual é um processo de compressão, que alcança a expressão aproximada ao encontrar o programa mais simples para explicar todos os dados produzidos por humanos até agora.

Sam Altman: Como a próxima previsão de Token ajuda a alcançar a compressão?

Daniel Selsam: Há um paradoxo nas estatísticas - por que as redes profundas podem alcançar a generalização, embora pareçam incapazes de comprimir? Normalmente, quando você tem muitos dados e alguns modelos pequenos, esses modelos devem passar por compressão para aprender algo.

No pré-treinamento, a escala de dados e modelos é muito grande. Algumas pessoas pensam que este treinamento é apenas memória e aprendizado de interpolação. Na verdade, eles ignoram outra perspectiva de compreensão da compressão - compressão pré-sequencial. É como um compressor. Mesmo que o peso dos dados seja muito grande, o binário não precisa armazenar esta informação. O resultado da próxima previsão de Token pode recuperar rapidamente informações úteis e melhorar a eficiência da compressão.

Sam Altman: O processo de treinamento do GPT-4.5 custou muita mão de obra, tempo e dinheiro, que pode realmente ser considerado um experimento para verificar a Lei de Escalonamento, e os resultados provam que é eficaz e continuará por um longo tempo. Por que a Lei de Escalonamento pode ser chamada de lei do universo?

Daniel Selsam: Quanto maior o grau de compressão, mais forte a inteligência. Isto tem conotações filosóficas profundas. Por que leva mais tempo para treinar modelos maiores e a taxa de compressão é maior? Isto envolve muitas teorias, entre as quais eu gosto de Representações Esparsas.

Os conceitos-chave na realidade seguem uma distribuição de lei de potência. Por exemplo, o 100º conceito importante pode aparecer apenas uma vez em cada 100 documentos, e há um efeito long-tail óbvio. Esta característica de distribuição leva à necessidade de dados e poder de computação em larga escala para capturar efetivamente todos os conceitos-chave, e também determina que a Lei de Escalonamento continuará a existir efetivamente por um longo tempo.