Novo Modelo Open-Source da Nvidia Supera DeepSeek-R1

Os modelos da série Llama-Nemotron da Nvidia superaram oficialmente o DeepSeek-R1, e os detalhes de seu treinamento foram totalmente divulgados, oferecendo insights sobre como esses modelos foram desenvolvidos para alcançar um desempenho superior.

Esses modelos agora são totalmente open-source, marcando um avanço significativo na tecnologia de IA acessível. Isso significa que uma série de modelos de inferência que superam significativamente o DeepSeek-R1 em termos de taxa de transferência de inferência e eficiência de memória estão agora disponíveis para qualquer pessoa usar e modificar.

Revelando os Segredos por Trás do Sucesso do Modelo

Então, como exatamente esses modelos, que superam o DeepSeek-R1, foram criados? O relatório técnico da Nvidia revela os elementos críticos de seu processo de treinamento:

  • Supervised Fine-Tuning com Dados Sintéticos + Reinforcement Learning: Essa combinação aumenta significativamente as capacidades de raciocínio do modelo.
  • Comprehensive Post-Training Process: Um processo de pós-treinamento robusto e bem projetado é crucial para otimizar o desempenho do modelo.

No mês passado, a Nvidia anunciou oficialmente o Llama-Nemotron 253B, que rapidamente ofuscou o Llama 4 (que tinha apenas três dias e enfrentava uma "crise de integridade" devido à manipulação do leaderboard). O lançamento desta série de modelos causou um grande rebuliço na indústria.

De acordo com o Artificial Analysis Intelligence Index, o Llama-Nemotron-Ultra é atualmente considerado o modelo open-source "mais inteligente" em abril de 2025.

A Nvidia lançou três modelos na série Llama-Nemotron: LN-Nano 8B, LN-Super 49B e LN-Ultra 253B.

Notavelmente, o LN-Ultra não só supera o DeepSeek-R1 em desempenho, mas também é executado em um único nó 8xH100, oferecendo maior taxa de transferência de inferência.

Esses modelos são otimizados para inferência de alta taxa de transferência, mantendo fortes capacidades de raciocínio e um comprimento de contexto de até 128K.

Além disso, a Nvidia introduziu um recurso inovador de switch de inferência na comunidade global de open-source de IA. Os usuários podem alternar dinamicamente entre o modo de bate-papo padrão e o modo de raciocínio usando o prompt do sistema "detailed thinking on/off".

Este design permite que o modelo atenda às necessidades gerais do dia a dia e lide com tarefas complexas de raciocínio em várias etapas sem precisar de diferentes modelos ou arquiteturas.

O Processo de Construção: Uma Abordagem de Cinco Etapas

A construção dos modelos Llama-Nemotron é dividida em cinco etapas distintas:

Etapa 1: Otimização da eficiência de raciocínio usando pesquisa de arquitetura neural (NAS) com base nos modelos da série Llama 3, com a introdução do Feedforward Network Fusion (FFN Fusion).

Etapa 2: Recuperação do desempenho do modelo por meio de destilação de conhecimento e pré-treinamento contínuo.

Etapa 3: Supervised fine-tuning (SFT), que combina dados de instrução padrão com processos de raciocínio de modelos de professor poderosos como o DeepSeek-R1, permitindo que o modelo execute raciocínio em várias etapas.

Etapa 4: Reinforcement learning em larga escala em conjuntos de dados matemáticos e STEM complexos, o que é crucial para que o modelo de aluno supere as capacidades do modelo de professor. Para o LN-Ultra, esta etapa melhora significativamente o desempenho no benchmark GPQA-D, estabelecendo-o como o modelo mais forte para raciocínio científico no domínio open-source.

Para suportar um treinamento de reinforcement learning em tão grande escala, a equipe desenvolveu uma nova estrutura de treinamento com várias medidas de otimização, o mais importante suportando a capacidade de geração de precisão FP8.

Etapa 5: Um breve treinamento de alinhamento focado em seguir instruções e aderir às preferências humanas.

Arquitetura Inovadora para Eficiência de Inferência Otimizada

LN-Super e LN-Ultra aproveitam a estrutura Puzzle para pesquisa de arquitetura neural para otimizar a eficiência de inferência do modelo.

Puzzle transforma modelos de linguagem grandes em versões eficientes e adaptadas ao hardware, otimizadas para implantação.

Por meio de "block-by-block local distillation," os desenvolvedores construíram uma biblioteca de módulos Transformer alternativos usando o Llama 3 Instruct.

Neste processo, cada módulo é treinado independentemente e em paralelo, aproximando a funcionalidade do módulo original enquanto otimiza o desempenho computacional.

Cada módulo alternativo tem trade-offs específicos de "precision-efficiency". Alguns módulos são mais eficientes, mas podem resultar em um certo declínio na qualidade, criando um trade-off claro entre o custo computacional e a precisão do modelo.

Essas variações de módulo incluem:

Attention Mechanism Removal: Alguns módulos omitem completamente o mecanismo de atenção, reduzindo a quantidade de computação e o consumo de memória do cache KV.

Variable FFN Dimensions: As dimensões intermediárias das redes feedforward são ajustadas, permitindo a compressão do modelo em diferentes granularidades.

Após construir a biblioteca de módulos, o Puzzle seleciona um módulo de cada camada para montar um modelo completo.

Este processo de seleção é controlado por um mixed-integer programming (MIP) solver, que encontra a configuração ideal com base em restrições como compatibilidade de hardware, latência máxima permitida, orçamento de memória ou taxa de transferência de inferência desejada.

Vertical Compression e FFN Fusion

No modelo LN-Ultra, os pesquisadores introduziram o FFN Fusion (Feedforward Network Fusion), uma técnica de compressão adicional para reduzir a profundidade da sequência do modelo e melhorar a eficiência da latência de raciocínio.

A remoção de algumas camadas de atenção pelo Puzzle resulta em uma estrutura única: vários blocos FFN contínuos aparecem frequentemente na estrutura do modelo.

O FFN Fusion identifica essas estruturas contínuas e as substitui por camadas FFN executáveis em paralelo, mais largas, mas em menor número.

Este método de substituição reduz as etapas de cálculo sequencial sem sacrificar a expressividade do modelo, melhorando significativamente a utilização de recursos de computação - especialmente em ambientes multi-GPU, onde a sobrecarga de comunicação entre camadas é significativa.

O modelo LN-Ultra supera consistentemente o DeepSeek-R1 e o Llama-3.1-405B em termos de precisão e eficiência, alcançando um equilíbrio ideal.

Post-NAS Training: Knowledge Distillation e Continued Pre-training

Após a fase de pesquisa de arquitetura neural (NAS), tanto o LN-Super quanto o LN-Ultra passaram por treinamento adicional para melhorar a compatibilidade entre os módulos e recuperar qualquer perda de qualidade que possa ter ocorrido durante a substituição do módulo.

  • O LN-Super foi treinado no conjunto de dados Distillation Mix para 40 bilhões de tokens sob o objetivo de destilação de conhecimento.
  • O LN-Ultra foi inicialmente treinado no mesmo conjunto de dados de destilação para 65 bilhões de tokens, seguido de treinamento contínuo no conjunto de dados de pré-treinamento de quarta etapa do Nemotron-H para 88 bilhões de tokens.

Esta etapa final de pré-treinamento permitiu que o LN-Ultra não só alcançasse o modelo de referência, Llama 3.1-405B-Instruct, mas também o superasse em testes de benchmark importantes.

Isso mostra que a destilação e o pré-treinamento breves podem alcançar a compatibilidade entre a otimização arquitetural agressiva e o alto desempenho do modelo.

Supervised Fine-Tuning: Refinando a Habilidade de Raciocínio

O Supervised Fine-Tuning (SFT) atua como um "personal trainer" para os modelos Llama-Nemotron, visando especificamente as etapas de raciocínio para tarefas específicas e aprendendo técnicas de inferência de modelos de "aluno estrela" como o DeepSeek-R1.

Para instilar habilidades de raciocínio genuínas, dados de treinamento de raciocínio em grande escala e de alta qualidade são essenciais.

Dados Sintéticos: Adaptados para Raciocínio

Os pesquisadores selecionaram cuidadosamente amostras de dados contendo dados de raciocínio e não raciocínio para supervised fine-tuning.

Para amostras de raciocínio, eles adicionaram "detailed thinking on" às instruções do sistema, enquanto para amostras de não raciocínio, eles usaram "detailed thinking off".

Esta configuração permite que o modelo alterne o comportamento de raciocínio com base em prompts durante a fase de raciocínio.

Dados sintéticos para raciocínio foram preparados em matemática, codificação e áreas relacionadas.

Para treinar o modelo para seguir as instruções do "switch de raciocínio", os pesquisadores construíram conjuntos de dados emparelhados, onde cada prompt corresponde a uma resposta com raciocínio e outra sem raciocínio.

Este emparelhamento permite que o modelo aprenda a ajustar seu comportamento de raciocínio com base nas instruções do sistema.

A filtragem subsequente dessas respostas é realizada com base em respostas padrão ou modelos de recompensa.

Processo de Fine-Tuning

Todos os modelos foram treinados em dados de fine-tuning de instrução usando perda de entropia cruzada no nível do token.

Na maioria das configurações de treinamento, os dados de raciocínio e não raciocínio são misturados para formar lotes de treinamento, onde cada prompt é emparelhado com uma resposta correspondente com base nas instruções do sistema "detailed thinking on/off".

Estender o treinamento para várias rodadas pode melhorar o desempenho, especialmente para modelos menores.

O NeMo-Aligner foi usado para treinamento de reinforcement learning, suportando GRPO e treinamento de modelos heterogêneos.

O vLLM foi usado para a fase de geração e o Megatron-LM foi usado para a fase de treinamento.

As fases de treinamento e raciocínio compartilharam o mesmo lote de GPUs, concluídas no mesmo dispositivo.

Todo o processo de treinamento usou 72 nós, cada um equipado com 8 GPUs H100.

A fase de geração usou precisão FP8, a fase de treinamento usou precisão BF16 e o estado do otimizador usou FP32.

Cada fase manteve um peso de modelo independente, que foi sincronizado no início de cada etapa.

Reinforcement Learning: A Chave para Superar a Habilidade de Raciocínio do R1

O supervised fine-tuning (SFT) permite que o modelo extraia conhecimento de modelos de professor poderosos, alcançando excelentes capacidades.

No entanto, a destilação de conhecimento inerentemente define um limite no desempenho do modelo de aluno, particularmente quando a capacidade do modelo base do modelo de aluno não excede a do modelo de professor.

Por meio do supervised fine-tuning, o desempenho do LN-Ultra pode se aproximar do DeepSeek-R1, mas não pode superá-lo.

O reinforcement learning (RL) em larga escala é um método viável para permitir que o modelo de aluno supere o modelo de professor, porque permite que o modelo explore continuamente novas possibilidades e autoaprenda.

Devido a restrições de recursos, os pesquisadores aplicaram apenas o RL de raciocínio ao LN-Ultra, resultando em um modelo de aluno que superou o modelo de professor.

Ao longo do processo de treinamento de reinforcement learning de raciocínio, a precisão do LN-Ultra no conjunto de dados GPQA-Diamond melhorou.

Processo de Treinamento: Um Foco no Raciocínio Científico

Para o LN-Ultra, os pesquisadores aprimoraram sua capacidade de raciocínio científico por meio do reinforcement learning (RL) em larga escala, usando o algoritmo Grouped Relative Policy Optimization (GRPO), o mesmo usado pelo DeepSeek-R1.

Todo o processo de treinamento exigiu aproximadamente 140.000 horas H100, treinando continuamente o modelo até que ele convergisse em tarefas de raciocínio.

O design do mecanismo de recompensa incluiu duas categorias:

  • Recompensa de Precisão: Com base nas respostas padrão (numéricas/sentença/parágrafo), chamando o modelo Llama-3.3-70B-Instruct julga o grau de correspondência dos resultados da previsão.
  • Recompensa de Formato: Seguindo o esquema do DeepSeek-AI, o modelo é forçado a envolver o processo de raciocínio com tags <think\> no modo "detailed thinking", e a aparência de tais tags é proibida no modo não detailed thinking.

A equipe de pesquisa também pré-processou os dados, incluindo filtragem de dados e treinamento curricular.

  • Data Screening: O LN-Super é usado com antecedência para gerar 8 respostas para cada pergunta, e amostras simples com uma taxa de aprovação ≥ 75% são removidas.
  • Curriculum Training: A alocação progressiva de lotes com base na taxa de aprovação é adotada.

Dynamic Distribution: Modelagem da dificuldade do lote com uma função gaussiana, inicialmente focando em amostras de alta taxa de aprovação (simples) e posteriormente mudando para amostras de baixa taxa de aprovação (difíceis).

Padding Logic: As amostras são alocadas de acordo com a distribuição alvo primeiro, e a capacidade restante é complementada do maior pool de amostras restantes.

Intra-Batch Processing: As amostras no mesmo lote são embaralhadas aleatoriamente para manter a diversidade.

Reinforcement Learning para Otimização de Preferências

Após concluir o treinamento de raciocínio científico, os pesquisadores conduziram uma breve fase de reinforcement learning para os modelos LN-Super e LN-Ultra, focando em melhorar suas habilidades de seguir instruções.

Os pesquisadores também usaram RLHF para otimizar as capacidades gerais de ajuda e desempenho de bate-papo dos modelos, mantendo as capacidades dos modelosem matemática, ciência e outras áreas.

O LN-Super alcançou uma alta pontuação de 88,3 no teste Arena Hard, superando modelos proprietários como o Claude 3.5 Sonnet e o GPT-4o-2024-05-13, e também melhor do que modelos open-source maiores.

Para alcançar este resultado, eles adotaram o método "OnLine Reward-Policy Optimization", maximizando a recompensa de previsão do modelo no conjunto de dados HelpSteer2. O modelo de recompensa usado foi o Llama-3.1-Nemotron-70B-Reward.

Duas rodadas de treinamento online de RPO aumentaram a pontuação Arena Hard de 69,1 para 88,1.

Para o LN-Ultra, eles usaram um processo semelhante, mas adotaram o GRPO.

Para o LN-Nano, eles conduziram duas rodadas de treinamento offline de RPO, usando dados de treinamento gerados pela política.

A primeira rodada combinou dados de raciocínio e não raciocínio com prompts de sistema apropriados para otimizar a capacidade de controle de raciocínio do modelo. A segunda rodada focou em melhorar as habilidades de seguir instruções.

Resultados da Avaliação: Uma Avaliação Abrangente

Os pesquisadores avaliaram o desempenho de todos os modelos Llama-Nemotron em duas categorias de benchmark: tarefas de raciocínio e tarefas de não raciocínio.

Os benchmarks de raciocínio incluíram: AIME24 e AIME25, GPQA-Diamond, LiveCodeBench e MATH500.

Os benchmarks de não raciocínio incluíram: IFEval para avaliação de seguir instruções, BFCL V2 Live para avaliação de uso de ferramentas de chamada de função e Arena-Hard para avaliar o alinhamento com as preferências de conversa humana.

O LN-Nano alcançou excelente desempenho em todos os benchmarks de raciocínio, apesar de seu pequeno tamanho.

Isso demonstra que os processos de supervised fine-tuning e os conjuntos de dados de raciocínio bem selecionados são eficazes na transferência de habilidades de raciocínio estruturadas para modelos menores.

O LN-Super mostrou forte competitividade em tarefas de raciocínio e não raciocínio quando comparado com outros modelos de escala de parâmetros semelhante.

No modo "reasoning off", o desempenho do LN-Super foi comparável ao seu modelo de origem destilado, Llama-3.3-70B; no modo "reasoning on", ele superou outros modelos concorrentes, como o DeepSeek-R1-Distilled-Llama-70B, demonstrando forte capacidade de raciocínio, mantendo uma boa capacidade de seguir instruções.

Esses resultados indicam que o LN-Super é um modelo versátil que combina as vantagens de modelos otimizados para raciocínio e modelos de não raciocínio, tornando-o adequado para tarefas de assistente diárias e tarefas de raciocínio estruturadas.

O LN-Ultra teve um desempenho igual ou melhor do que todos os modelos de peso open-source existentes em benchmarks de raciocínio e não raciocínio. Ele alcançou o nível mais avançado em modelos open-source no GPQA, demonstrando totalmente a eficácia dos métodos de treinamento de reinforcement learning em larga escala dos pesquisadores da Nvidia.

Ao contrário do DeepSeek-R1, que requer uma configuração de hardware 8×H200, o LN-Ultra é otimizado para ser executado de forma eficiente em um único nó 8×H100, fornecendo maior taxa de transferência de raciocínio e eficiência de implantação.

A fase SFT do LN-Ultra se aproximou ou atingiu o desempenho do DeepSeek-R1 em vários benchmarks de raciocínio (incluindo GPQA e AIME).

Além das capacidades de raciocínio e diálogo para as quais o modelo foi originalmente treinado, eles também testaram o modelo em uma tarefa de distribuição.

Especificamente, o modelo foi testado no conjunto de dados JudgeBench, exigindo que ele distinguisse entre respostas de alta qualidade e baixa qualidade.

O novo modelo superou os atuais modelos proprietários e open-source de ponta nesta tarefa.

O LN-Ultra se tornou o modelo open-source de melhor desempenho, excedendo significativamente o DeepSeek-R1, perdendo apenas para o modelo proprietário o3-mini(high).

Além disso, o desempenho do LN-Super também excedeu o o1-mini, indicando que o novo modelo tem forte capacidade de generalização em várias tarefas.