GPT-4.5 da OpenAI: Desafios e Avanços no Treino

Superando ‘Problemas Catastróficos’ no Treinamento em Larga Escala

O desenvolvimento do GPT-4.5, um projeto iniciado dois anos antes, representa o empreendimento mais ambicioso da OpenAI até o momento. Esta enorme empreitada envolveu os esforços colaborativos de centenas de indivíduos, com Sam Altman, CEO da OpenAI, observando que o projeto exigiu um envolvimento organizacional quase total.

A jornada para criar o GPT-4.5 não foi isenta de obstáculos. A equipe encontrou inúmeros ‘problemas catastróficos’ durante a fase de pesquisa e desenvolvimento. A utilização de um cluster de 100.000 GPUs expôs falhas de infraestrutura anteriormente não vistas, de baixa probabilidade, mas profundas. Para equilibrar a conveniência com o desempenho ideal, a equipe de sistema da OpenAI foi compelida a adotar uma abordagem de ‘corrigir à medida que avançamos’. Um bug particularmente evasivo assolou o cluster com erros frequentes, permanecendo não detectado até que aproximadamente 40% do processo de treinamento tivesse decorrido.

Apesar destes desafios, o projeto GPT-4.5 catalisou o desenvolvimento de uma pilha de tecnologia mais robusta. Hoje, uma equipe enxuta de apenas 5-10 indivíduos pode replicar um modelo grande semelhante ao GPT-4. Os ganhos de desempenho do GPT-4 para o GPT-4.5 foram aproximadamente dez vezes maiores, rendendo ‘inteligência que é difícil de quantificar, mas aprimorada em todos os aspectos’, um resultado que surpreendeu até mesmo o próprio pessoal da OpenAI.

Mudança de Foco: Do Poder Computacional para a Eficiência de Dados

A OpenAI percebeu que alcançar o próximo salto de dez ou cem vezes em desempenho depende nãodo poder computacional bruto, mas da eficiência de dados – especificamente, a capacidade de extrair mais conhecimento da mesma quantidade de dados, aproveitando recursos computacionais maiores.

A arquitetura também está evoluindo de um único cluster para um paradigma multi-cluster. As iterações de treinamento futuras podem envolver o aprendizado colaborativo em até 10 milhões de GPUs, exigindo maior tolerância a falhas.

Diálogo de Sam Altman com a Equipe do GPT-4.5

A seguir, está uma compilação editada de uma discussão entre Sam Altman e a equipe do OpenAI GPT-4.5:

Sam Altman: O que é preciso para construir um modelo tão grande como o GPT-4.5?

Alex Paino: Começamos este projeto há cerca de dois anos. Naquela época, a OpenAI estava prestes a lançar um novo grande cluster de computação, e nossa equipe viu isso como uma oportunidade para conduzir uma série de operações para determinar as funções que o modelo precisava incluir, e conduziu um grande número de testes de operações de redução de risco.

Desenvolvemos um longo plano para isso, envolvendo toda a pilha de tecnologia, do sistema ao aprendizado de máquina. Reduzir riscos e se preparar para o treinamento é um longo processo de execução, e o treinamento em si é um projeto muito grande.

Amin Tootoonchian: Acho que este processo requer uma estreita cooperação entre a equipe de aprendizado de máquina e a equipe de sistema desde o início, até que esclareçamos qual modelo queremos treinar e, em seguida, iniciemos o treinamento.

Fizemos previsões nos aspectos de aprendizado de máquina e de sistema, tentando reduzir ao máximo a lacuna entre a expectativa e a realidade. Mas como nosso ritmo de trabalho é rápido e temos que usar os recursos de computação mais recentes, o treinamento do modelo se tornou algo que é difícil de planejar perfeitamente com antecedência.

Quase sempre começamos o treinamento com muitos problemas não resolvidos e tentamos superar os desafios e progredir durante a operação. A principal solução é adicionar mais recursos de computação.

O estágio final é a execução, que exige que muitas pessoas invistam muita energia e motivação por um longo tempo para concluir o processo de treinamento.

Sam Altman: O quanto você acha que é a lacuna entre nossas expectativas e a realidade?

Amin Tootoonchian: Em termos de sistema, geralmente estamos longe do estado esperado no início. Estamos sempre diante de uma escolha: adiar o início e esperar que o problema seja resolvido, ou começar cedo e resolver o problema no processo. Isso sempre exige uma troca para evitar atrasos irracionais no processo.

Mas quase sempre há alguns problemas inesperados, e o que temos que fazer é lidar com esses nós o máximo possível, lidar com os fatores desconhecidos e formular um plano para o treinamento do modelo.

Alex Paino: Neste projeto, nosso objetivo é fazer o GPT-4.5, o que significa que suas capacidades devem ser 10 vezes mais inteligentes que o GPT-4. Este é o objetivo inicial que estabelecemos há cerca de 2 anos.

Muitas coisas aconteceram durante este processo. Estávamos pensando se poderíamos fazer melhor ou seria pior do que o esperado? Este é um processo muito complicado, mas no final, em termos dos cálculos efetivos que investimos, obtivemos um modelo que achamos que atingiu 10 vezes mais inteligente que o GPT-4.

Amin Tootoonchian: Em termos de execução, o tempo gasto no projeto GPT-4.5 está longe do que esperávamos inicialmente.

Sam Altman: Por que vocês encontraram tantos problemas quando o cluster expandiu de 10.000 placas para 100.000 placas?

Amin Tootoonchian: Acho que se os desenvolvedores de sistema forem sensíveis o suficiente, a maioria dos problemas pode ser observada no estágio de pequena escala.

Alguns problemas não são exclusivos do estágio de treinamento em grande escala, mas já ocorreram antes, mas se tornarão problemas catastróficos após o aumento da escala, especialmente quando a equipe não previu que esses problemas piorariam a tal ponto.

Sam Altman: Que coisas causaram consequências catastróficas?

Amin Tootoonchian: Acho que os problemas de infraestrutura são bem conhecidos, seja a taxa de falha, o tipo de falha ou a quantidade total de falha é muito alta. O cluster de 100.000 placas é um pool de amostra em grande escala, então também descobrimos problemas que o fornecedor de poder de computação não observou.

A rede é uma delas, e aceleradores individuais também podem ter problemas. Mas esta também é a beleza deste sistema - quase todos os componentes precisam funcionar como esperado para produzir os resultados esperados. Nosso trabalho é minimizar este problema o máximo possível.

Sam Altman: É realmente difícil trabalhar no limite do tamanho do cluster, mas também notei que ficou muito mais fácil fazer coisas que não estão mais na vanguarda da tecnologia. Treinar o GPT-4.5 requer centenas de pessoas, e a OpenAI tem quase todos a bordo.

Mas hoje, se você selecionasse a menor equipe da OpenAI e retreinasse o GPT-4 do zero com todo o conhecimento e trabalho de sistema que conhecemos, quantas pessoas seriam necessárias?

Alex Paino: Acho que pode levar cerca de 5 a 10 pessoas para fazer um modelo de nível GPT-4 agora. A pilha de tecnologia foi muito aprimorada no processo de conclusão do GPT-4.5.

Na verdade, fizemos coisas semelhantes no processo de treinamento do GPT-4.5 - treinamos o GPT-4o, que é um modelo de nível GPT-4, e o retreinamos usando muito do mesmo conteúdo do projeto de pesquisa GPT-4.5. Menos pessoas foram usadas para esse treinamento.

Sam Altman: Da sua perspectiva, Dan? Por que é difícil treinar modelos grandes?

Daniel Selsam: Acho que é difícil fazer qualquer coisa nova. Acho que mesmo apenas descobrir que outra pessoa fez algo torna muito mais fácil, porque a parte mais difícil é ter a fé para fazer algo em primeiro lugar. Acho que apenas saber que algo é viável é um super código de trapaça que torna as coisas muito mais fáceis.

Alex Paino: Estamos expandindo a execução de pré-treinamento do GPT para 10 vezes o seu tamanho anterior, e sempre encontramos algumas coisas novas interessantes que você não pode necessariamente prever.

Sam Altman: O que é necessário para alcançar o próximo crescimento de 10x ou 100x na escala de pré-treinamento?

Daniel Selsam: Eficiência de dados. A arquitetura Transformer (ou seja, GPT) é muito eficiente na utilização de dados. Ele pode absorver e comprimir informações bem e alcançar a generalização. Sua maior característica é que ele pode absorver informações de forma eficiente com recursos de computação.

No entanto, a profundidade do insight que ele obtém dos dados é limitada. Quando o poder de computação cresce rapidamente e os dados crescem relativamente lentamente, os dados se tornam um gargalo para este modelo padrão. Isso requer inovação algorítmica para desenvolver métodos que possam usar mais poder de computação para aprender mais conhecimento da mesma quantidade de dados.

Sam Altman: O que mais você acha que precisamos para manter a expansão?

Amin Tootoonchian: Minha resposta é sobre o sistema. Acho que a enorme quantidade de trabalho necessária para o GPT-4.5 é essencialmente o resultado inevitável das especificações do modelo. Não podemos treinar o GPT-4.5 com a mesma arquitetura técnica exata do GPT-4.

Em termos de gerenciamento de estado, como os recursos de computação necessários excederam a capacidade de um único cluster, temos que recorrer a uma arquitetura de treinamento multi-cluster. Para alcançar este objetivo, devemos integrar vários fluxos de trabalho diferentes em um curto período de tempo.

Embora isso realmente nos tenha ajudado a alcançar avanços de estágio, para alcançar a próxima ordem de magnitude de melhoria de desempenho, ainda precisamos resolver vários problemas técnicos conhecidos, mas temporariamente arquivados - esses problemas não podem ser evitados. É este tipo de troca técnica que constantemente estende o ciclo de P&D do sistema perfeito, e estamos sempre fazendo trocas estratégicas no processo de busca pelo plano de implementação ideal.

É preciso deixar claro que o sistema em si não é o objetivo final, e seu valor de saída real é a consideração central. Para a próxima melhoria de desempenho de 10x, acho que o avanço na tolerância a falhas é crucial. Precisamos construir um mecanismo tolerante a falhas que seja profundamente sinérgico com a carga de trabalho para reduzir significativamente a ansiedade de operação e manutenção. A complexidade de operação e manutenção dos atuais sistemas de ultra-grande escala é essencialmente diferente dos sistemas anteriores.

Sam Altman: Você sabe qual porcentagem de falhas foi causada por certos componentes durante o treinamento do GPT-4.5?

Amin Tootoonchian: Não tenho números específicos para compartilhar, mas em geral, nos estágios iniciais da implantação de uma nova geração de hardware, a operação do sistema muitas vezes enfrenta muitos desafios técnicos que não são totalmente compreendidos. Escolhemos avançar o projeto antes que o problema fosse totalmente definido, o que levou a uma alta taxa de falha inicial.

Mas a experiência mostrou que, à medida que a causa raiz é identificada e resolvida, a taxa de falha diminui significativamente. Este fenômeno essencialmente reflete nossa compreensão mais profunda da infraestrutura - algumas pessoas chamam isso de limpar a infraestrutura ou entender os problemas básicos da infraestrutura.

Os estágios iniciais da execução são quase sempre bastante dolorosos. Ao avançar o projeto, também estamos continuamente descobrindo e resolvendo novos modos de falha, mas a taxa de falha diminuirá gradualmente e o tempo de operação normal se tornará mais longo.

Esta é essencialmente uma questão de trocas de prioridade: nos estágios iniciais do ciclo de vida da infraestrutura, seu risco de falha é muitas vezes difícil de estimar com precisão; e se buscarmos excessivamente o estado ideal final (o original é ‘City Estate’, o design ideal da cidade-estado), isso pode levar ao sistema O desempenho da disponibilidade nos estágios iniciais é extremamente ruim.

Sam Altman: Embora o modelo de raciocínio seja um componente chave da nossa futura pilha de tecnologia, vamos nos concentrar temporariamente no limite de desenvolvimento do modelo de pré-treinamento tradicional. Suponha que tenhamos poder de computação de GPU ilimitado, largura de banda de rede ilimitada e fonte de alimentação ilimitada, mas ainda estejamos limitados pelos gargalos técnicos existentes - incluindo problemas de confiabilidade do sistema, a falta de métodos de treinamento tolerantes a falhas e as limitações dos conjuntos de dados existentes.

De acordo com nossa lei de evolução de alcançar um aumento de escala de 100 vezes em cada grande número de versão do GPT, com base nos limites técnicos atuais, qual nível o desenvolvimento do modelo de pré-treinamento pode alcançar? Especificamente para os modelos da série GPT, com nosso sistema de conhecimento existente, que tipo de modelo podemos teoricamente treinar? O GPT-5.5 pode ser feito?

Alex Paino: Da perspectiva do aprendizado de máquina e desenvolvimento de algoritmos, ainda não atingimos um limite superior teórico claro. Na verdade, estamos apenas começando a explorar algoritmos com maior eficiência de dados e como fazer um uso mais completo dos recursos de dados existentes. Esta situação é muito interessante - mesmo modelos como o GPT-4 são amplamente desenvolvidos sob as restrições de recursos de computação limitados, o que também determina a direção da maioria das pesquisas anteriores.

Mas a situação é completamente diferente agora. Desde o GPT-4.5, em algumas dimensões chave, os dados, em vez da computação, estão se tornando a principal restrição. Esta mudança torna a pesquisa relacionada menos emocionante.

Sam Altman: Mas este é de fato um progresso incrível, e o mundo pode não perceber totalmente que os recursos de computação não são mais o principal gargalo nomelhor modelo que podemos construir. Esta mudança é profunda, afinal, vivemos em um ambiente restrito de computação por muito tempo.

Sam Altman: Qual é a experiência de aprendizado de máquina mais interessante que aprendemos no processo de treinamento do GPT-4.5? Apenas fale sobre o que você quer compartilhar.

Amin Tootoonchian: Em geral, os que mais fazem pensar são aquelas situações que se desviam de nossas previsões - especialmente quando tentamos entender por que o desempenho real se desvia da curva esperada.

Alex Paino: Uma das descobertas mais surpreendentes para nós é que o desempenho de escalabilidade de diferentes componentes de aprendizado de máquina varia muito. Algumas partes podem ser escaladas bem, enquanto outras não podem. Isso é o que realmente percebemos no processo de treinamento real. Esta experiência nos deu muita inspiração.

Daniel Selsam: Acho que as duas características principais do paradigma GPT são: primeiro, a perda de teste (uma métrica para medir o quão bem o modelo se comporta em dados de teste não vistos) pode ser prevista com precisão; segundo, o desempenho do modelo mostra uma melhoria previsível com a expansão da escala. Mais magicamente, a redução da perda de teste se transformará em um nível de inteligência aprimorado em todos os sentidos, de várias maneiras que são difíceis de quantificar, mas incríveis.

Sam Altman: Você está absolutamente otimista sobre isso? Você concorda totalmente com esta visão?

Daniel Selsam: Na verdade, o que quero dizer é que encontramos fenômenos particularmente interessantes no teste do GPT-4.5 - após o reteste, o modelo mostrou muitas habilidades sutis que excederam completamente as expectativas de todos.

Temos certeza de que ele se tornará mais inteligente de várias maneiras que não podem ser definidas de antemão, e após a implantação real, podemos observar esses níveis sutis de melhoria a partir da satisfação do usuário: reservas de senso comum mais fortes, capacidades de compreensão contextual mais precisas e compreensão semântica mais delicada - esta é exatamente a magia trazida por aquelas perdas de teste extras. Na minha opinião, a Lei de Escala foi perfeitamente verificada nesta dimensão.

Sam Altman: Qual foi o momento mais positivo durante todo o processo de treinamento? Qual é sua memória favorita? Obviamente, há muita dor, mas espero que essas dores tenham sido aliviadas.

Alex Paino: Eu tenho um momento assim. Fizemos muito trabalho de aprendizado de máquina durante o treinamento. Acho que algumas das mudanças que fizemos durante a operação tiveram um impacto razoavelmente bom, possivelmente melhor do que o esperado, o que foi um momento muito emocionante para nós.

Amin Tootoonchian: Para mim, ao mesmo tempo que treinamos, também estamos construindo infraestrutura. Acreditamos firmemente que podemos atravessar este penhasco de desempenho, e temos um plano, e todos estão executando-o, mas leva muito tempo. Isso é trabalho duro e definitivamente mais difícil do que eu pensava. Minha previsão estava errada, e subestimei o tempo que levaria para resolver esses problemas.

O momento em que a equipe finalmente superou aqueles problemas chave e o desempenho foi significativamente melhorado ainda está fresco na minha memória. Você pode sentir claramente a transformação de energia de toda a equipe - todos estão subitamente cheios de energia e correndo em direção ao objetivo final com nova motivação.

A coisa mais mágica é que o tempo estimado de conclusão exibido em nosso rastreador de status continuou a encurtar dos dois anos iniciais, e finalmente travou em um nó de tempo claro. Este progresso visível tem um impulso imensurável para o moral da equipe. Acho que esta é a beleza disso.

Gostaria de enfatizar que o trabalho de aprendizado de máquina nunca parou. Mesmo após o início do treinamento, este processo de co-design de aprendizado de máquina continua. A equipe de aprendizado de máquina não apenas acompanha ativamente aqueles problemas que foram marcados como ‘processamento subsequente’, mas também continua a entregar melhorias que realmente otimizam o tempo de treinamento.

Isso reflete perfeitamente o espírito de nossa equipe - não há uma fronteira de trabalho de ‘cada pessoa varre a neve em frente à sua própria porta’ aqui, mas uma colaboração verdadeiramente perfeita, e esta coesão é nossa maior força.

Sam Altman: O mundo exterior discutiu muito sobre os desafios e a precisão da previsão deste treinamento em si. Mas, na verdade, tudo isso é baseado em um planejamento extremamente minucioso - você pode falar mais sobre isso em detalhes?

Alex Paino: Este é definitivamente o nosso plano mais minucioso até agora. Como eu disse, começamos a nos preparar para este projeto um ano antes do início oficial do treinamento. Durante este período, conduzimos vários testes de controle de risco em grande escala.

Prestamos especial atenção à introdução gradual de todas as melhorias: começando com uma configuração básica de alta confiança - que pode ser entendida como uma arquitetura madura semelhante ao GPT-4, dominamos totalmente esta configuração no nível de aprendizado de máquina - e, em seguida, adicionando novos recursos camada por camada como blocos de construção.

A chave é verificar estritamente a escalabilidade de cada melhoria em diferentes escalas: não apenas para ver melhorias de desempenho, mas também para garantir que essas melhorias continuem a ser eficazes à medida que a escala do modelo se expande. Muitas melhorias funcionam bem em testes de pequena escala, mas falharão em aplicações de grande escala.

Portanto, mantivemos um alto grau de vigilância ao longo de todo o processo e continuamos a iterar e melhorar nossa metodologia de lei de expansão. Através desta prática de controle de risco, acumulamos muita experiência valiosa que continuará a guiar o desenvolvimento dos futuros modelos da série GPT.

Amin Tootoonchian: Lembro-me de um momento particularmente interessante que sinto muita falta. Você sabe, quase sempre encontramos vários bugs toda vez que iniciamos uma tarefa de treinamento. Isso já é corriqueiro. Mas a chave é garantir que o progresso não seja bloqueado e sempre confirmar se o progresso atual está de fato no caminho certo e se esses bugs terão um impacto fatal na saúde do treinamento.

Embora estivéssemos inicialmente muito confiantes de que havia grandes defeitos, através de todo o sistema de monitoramento que construímos, conseguimos distinguir com precisão a causa raiz do problema: É uma falha de hardware? Que tipo de falha de hardware? É corrupção de dados? Ou é um bug no próprio modelo de aprendizado de máquina? Ou é uma condição de corrida no código?

Naquela época, tínhamos várias áreas de discussão de problemas abertas ao mesmo tempo, com vários sintomas. Após uma série de correções de bugs, ficamos presos: havia vários problemas não resolvidos na nossa frente, e todos estavam quebrando a cabeça - estes foram causados por bugs diferentes? Ou é um bug no trabalho?

Mais tarde, realizamos uma votação para deixar os membros da equipe votarem na causa raiz mais provável. A opção menos promissora atingiu a verdade: descobriu-se que havia um problema com a função torch.sum a montante do PyTorch, uma simples operação de soma.

Este bug é particularmente interessante. Você sabe, usamos principalmente o kernel Triton, e só voltaremos para as operações de torch em alguns cenários de ponta sem importância. E o bug da função torch.sum acionado pelo nosso caminho de código específico causará acidentalmente acesso ilegal à memória devido às características de distribuição de dados - ele cometeu um erro ao calcular o deslocamento da memória.

O mais dramático é que quando um engenheiro finalmente localizou o problema e enviou uma correção, todos os relatórios de erro com diferentes sintomas desapareceram. Todos mudaram animadamente o canal Slack da ‘teoria multi-bug’ para a ‘teoria de bug único’, e a cena foi muito feliz.

Há quanto tempo este bug está à espreita? Ele existe desde os estágios iniciais do treinamento e não foi identificado até que a barra de progresso passasse cerca de 40%. O processo de descoberta também foi cheio de drama: naquela época, um kernel complexo chamava sequencialmente sequências, e a segunda chamada acionava acesso ilegal à memória.

Embora esta frequência de travamento seja extremamente baixa (ocorre apenas uma vez a cada algumas centenas ou mesmo milhares de etapas de treinamento), é fácil ser ignorada como uma falha ocasional, mas a diretriz de nossa equipe é: nunca deixe passar nenhuma anomalia. A melhor parte desta história está nesta perseverança de não desistir facilmente.

Sam Altman: O que mais você precisa fazer depois que o pré-treinamento do GPT-4.5 é iniciado?

Alex Paino: Todos nós precisamos observar a curva de perda frequentemente. Além disso, precisamos continuar a otimizar o sistema e melhorar o co-design que não foi concluído antes do início do treinamento. Monitoramos de perto várias estatísticas durante o processo de treinamento para garantir que não haja tendências inesperadas. Ao mesmo tempo, exploramos possíveis planos de melhoria de uma perspectiva de aprendizado de máquina. Embora o trabalho em nível de dados seja temporariamente reduzido após o início do pré-treinamento, ainda há muitas tarefas a serem processadas.

Amin Tootoonchian: Acho que o aprendizado de máquina depende em grande parte do julgamento de correção. Após o início do pré-treinamento, enfrentando uma grande quantidade de sinais de ruído, somos como adivinhos interpretando borra de chá, e precisamos julgar se o sistema é saudável. Esta é a nossa responsabilidade.

Sam Altman: Em nível de sistema, o que nos impedirá de conduzir o treinamento do modelo? É chip, processador, memória, rede ou fonte de alimentação?

Amin Tootoonchian: A beleza do sistema é que, ao fazer o design colaborativo, a carga de trabalho pode se adaptar à infraestrutura que você constrói. Não há um ditado universal de que a rede é o gargalo, ou a largura de banda da memória é o gargalo, etc. Mesmo para modelos da mesma especificação, podemos escolher transferir os requisitos de recursos. Podemos escolher criar um sistema mais equilibrado, mas ter mais largura de banda da memória é sempre benéfico. É difícil responder a esta pergunta sem condições limitantes.

Ao projetar o GPT-4.5, podemos precisar ter um certo atributo no sistema, que precisa ser gerado através da orientação humana. Portanto, o design colaborativo é muito importante para formar a arquitetura do modelo e os elementos arquitetônicos, e até certo ponto conecta os aspectos de sistema e aprendizado de máquina. Se o sistema tiver um atributo que não queremos muito ter. Minha situação ideal é que tudo deve ser desacoplado para dar uns aos outros o maior espaço possível.

Às vezes, as coisas estão conectadas, e precisamos atender aos requisitos da infraestrutura, ou as coisas devem ser assim. Na maioria das vezes, precisamos de um sistema equilibrado, uma comunicação equilibrada. E os melhores meios de regulação que temos são todos estes designs colaborativos.

Sam Altman: Quão longe estamos de tal objetivo de sistema ideal?

Amin Tootoonchian: Estamos longe desse objetivo. O processo de construção de um sistema é sempre assim: primeiro há uma visão idealizada de como as coisas devem funcionar, e então essas diferenças são reconciliadas com os recursos existentes.

Eu não acho que estamos fazendo isso por teoria por causa da teoria, mas apenas para discutir o que queremos que se torne, para realizar isso e para chegar o mais perto possível desse ideal. Esta pode ser a parte mais emocionante do campo do sistema. As pessoas costumavam dizer que este é um design de sistema elegante, e eventualmente a história nos dirá se esta escolha está certa ou errada.

Sam Altman: Se você pudesse obter uma resposta para uma pergunta de aprendizado de máquina antes do próximo grande treinamento, o que você mais gostaria de saber?

Alex Paino: Eu quero saber quais algoritmos devemos usar sob dados limitados e campos específicos. Embora esta seja uma pergunta ampla, é de fato a mais crítica.

Sam Altman: Vocês conduzirão pré-treinamento síncrono com 10 milhões de GPUs ou mais no futuro?

Alex Paino: Eu acho que haverá, mas pode não ser o modelo de pré-treinamento tradicional. Sua forma pode ser muito diferente das tecnologias existentes, mas ainda reterá o núcleo do aprendizado não supervisionado.

Amin Tootoonchian: Eu prefiro um modelo semi-síncrono. Devido às leis físicas, a sincronização completa não é muito realista.

Daniel Selsam: Eu acho que é mais provável que seja descentralizado. Definitivamente haverá 10 milhões de GPUs trabalhando juntas em um sistema de IA que aprende e executa tarefas, mas como as várias partes do cérebro, elas podem não necessariamente se comunicar umas com as outras.

Sam Altman: Quanta diferença existe entre os algoritmos mais avançados atuais e a eficiência de dados humana? É possível alcançar no futuro?

Daniel Selsam: Os dois são difíceis de comparar diretamente. A lacuna no aprendizado de línguas é definitivamente enorme. A chave está em como definir a quantidade de informações recebidas pelos nervos visuais humanos. Eu acho que a eficiência de dados geral dos algoritmos é muito menor do que a dos humanos.

Por décadas, o aprendizado profundo se concentrou na eficiência computacional. Além do crescimento de dados e poder de computação, o que é realmente surpreendente é o efeito sobreposto produzido pelas melhorias do algoritmo. Cada vez que o desempenho do algoritmo é melhorado em 10% ou 20%, ele terá um efeito significativo quando sobreposto à eficiência de dados. Até agora, não houve tal mobilização em torno da eficiência de dados, porque não vale a pena quando os dados não estão fluindo e o poder de computação é limitado.

Agora, estamos entrando em um novo estágio de pesquisa de IA, e começaremos a acumular vitórias de eficiência de dados. Eu acho que é um pouco tolo prever agora que encontraremos obstáculos intransponíveis. A maneira como o cérebro humano opera é definitivamente diferente de nossasmelhorias de algoritmo, e devemos ser cautelosos a este respeito. Mas eu acho que devemos permanecer otimistas sobre o desenvolvimento futuro dos algoritmos.

Sam Altman: Qual é a correlação entre o pré-treinamento em maior escala e as habilidades de aprendizado e raciocínio mais fortes do modelo?

Alex Paino: O que observamos é que melhor pré-treinamento e aprendizado não supervisionado tendem a melhorar a inteligência geral do modelo e ajudam muito na generalização, o que é complementar à capacidade de raciocínio, enquanto o raciocínio pode ser um pouco mais lento em melhorar a inteligência. Eu acho que eles são complementares.

Sam Altman: O pré-treinamento parece ser universal em muitas coisas, enquanto treinar um modelo só pode fazê-lo se dar bem em um tipo de coisa, certo?

Alex Paino: Isso é muito interessante, mas quando você vê os dados que os treinam, você não ficará surpreso com esta situação. A faixa de conjunto de dados de pré-treinamento é muito grande, e o que buscamos é amplitude e diversidade. Quando se trata de reforço do modelo e fazê-lo obter claramente bons sinais de recompensa e um bom ambiente de treinamento, eu acho que é difícil levar em conta a amplitude do conjunto de dados.

Daniel Selsam: Eu concordo, mas acho que há outro fator. O pré-treinamento está essencialmente comprimindo dados, descobrindo assim as conexões entre coisas diferentes. É sobre analogia e mais abstrato. O raciocínio é uma habilidade que requer pensamento cuidadoso sobre uma questão específica e também pode obter soluções para muitos tipos de problemas. Mas no processo de pré-treinamento, um conhecimento mais abstrato pode ser aprendido ao comprimir dados em diferentes campos.

Sam Altman: Por que o aprendizado não supervisionado é eficaz?

Daniel Selsam: A chave é a compressão. A forma ideal de inteligência é a indução de Solomonov. Em geral, o aprendizado de máquina considerará todas as possibilidades, mas tende a começar com programas mais simples para teste.

A essência do pré-treinamento atual é um processo de compressão, que alcança a expressão aproximada encontrando o programa mais simples para explicar todos os dados que os humanos produziram até agora.

Sam Altman: Como a próxima previsão de Token ajuda a alcançar a compressão?

Daniel Selsam: Há um paradoxo nas estatísticas - por que as redes profundas parecem incapazes de comprimir, mas podem alcançar a generalização? Normalmente falando, quando você tem muitos dados e alguns modelos pequenos, esses modelos devem passar por compressão para aprender alguma coisa.

No pré-treinamento, a escala de dados e modelos é muito grande. Algumas pessoas pensam que este treinamento é apenas memória e aprendizado de interpolação. Na verdade, eles ignoram outra perspectiva de compreensão da compressão - compressão pré-sequencial. É como um compressor. Mesmo que o peso dos dados seja muito grande, o binário não precisa armazenar esta informação. O resultado da próxima previsão de Token pode recuperar rapidamente informações úteis e melhorar a eficiência da compressão.

Sam Altman: O processo de treinamento do GPT-4.5 custou muita mão de obra, tempo e dinheiro, o que pode realmente ser considerado como um experimento para verificar a Lei de Escala, e os resultados provam que é eficaz e continuará por um longo tempo. Por que a Lei de Escala pode ser chamada de lei do universo?

Daniel Selsam: Quanto maior o grau de compressão, mais poderosa a inteligência, o que tem profundas implicações filosóficas. Por que leva mais tempo para treinar modelos maiores e a taxa de compressão é maior? Isso envolve muitas teorias, entre as quais eu gosto de Representações Esparsas.

Os conceitos chave na realidade seguem uma distribuição de lei de potência. Por exemplo, o 100º conceito mais importante pode aparecer apenas uma vez em cada 100 documentos, e há um efeito de cauda longa óbvio. Esta característica de distribuição significa que dados e poder de computação em grande escala são necessários para capturar efetivamente todos os conceitos chave, e também determina que a Lei de Escala será eficaz por um longo tempo.