A busca por inteligência artificial capaz de verdadeiramente raciocinar tem sido há muito tempo uma perseguição central no campo. Os primeiros sinais de entusiasmo em torno do modelo "o1" da OpenAI acenderam um interesse generalizado em alavancar técnicas de aprendizado por reforço (RL) em grande escala para construir sistemas capazes de raciocínio sofisticado. Após isso, a decisão da DeepSeek-R1 de lançar seu modelo como de código aberto alimentou ainda mais o entusiasmo e capacitou a comunidade de IA a perseguir vigorosamente o desenvolvimento de modelos de raciocínio de ponta.
No entanto, esta explosão inicial de atividade foi rapidamente atenuada por um obstáculo significativo. Detalhes técnicos críticos, de importância vital para a replicação bem-sucedida – especificamente, as estratégias precisas empregadas para a curadoria de dados e as receitas intrincadas que governam o treinamento de RL – estavam conspicuamente ausentes do relatório original da DeepSeek-R1. Essa omissão deixou os pesquisadores em um estado de considerável frustração, lidando com o desafio de recriar os sucessos relatados. A consequência foi uma paisagem de pesquisa um tanto fragmentada, com uma multiplicidade de esforços independentes explorando diferentes tamanhos de modelo, vários checkpoints iniciais e uma gama diversificada de domínios-alvo. Apesar desta intensa atividade, uma receita de treinamento abrangente e consistentemente eficaz permaneceu indescritível.
As abordagens tradicionais para treinar modelos de linguagem para raciocínio têm se concentrado principalmente nos domínios da matemática e do código de computador. Estas metodologias geralmente dependem de uma combinação de pré-treinamento em grandes conjuntos de dados e ajuste fino supervisionado para especializar os modelos para estas tarefas particulares. As primeiras tentativas de incorporar o aprendizado por reforço neste processo, tipicamente utilizando modelos de recompensa específicos do domínio, produziram apenas ganhos limitados. Isto resultou dos desafios inerentes associados às tarefas matemáticas e de codificação, onde erros subtis podem levar a resultados drasticamente incorretos.
Investigações mais recentes, impulsionadas pelo lançamento do DeepSeek-R1, exploraram o uso de métodos de verificação baseados em regras. No reino da matemática, estes métodos muitas vezes envolvem a exigência de formatos de saída específicos que permitam a verificação precisa e automatizada da solução. Da mesma forma, no contexto do código, os pesquisadores têm alavancado os mecanismos de feedback inerentes da compilação e execução para orientar o processo de aprendizagem. No entanto, estas abordagens têm sido geralmente centradas estreitamente em domínios individuais, faltando a capacidade de lidar eficazmente com prompts heterogéneos que misturam problemas matemáticos e de codificação. Além disso, as avaliações têm sido frequentemente restritas a benchmarks específicos como AIME e LiveCodeBench, limitando a generalização das descobertas. Finalmente, a instabilidade do treinamento continua a ser um problema persistente, muitas vezes necessitando o uso de técnicas complexas, tais como aumentos progressivos do comprimento da resposta e mitigação do colapso da entropia.
Agora, os pesquisadores da NVIDIA estão mudando o jogo, pois demonstram o significativo potencial do aprendizado por reforço em grande escala para aprimorar drasticamente as capacidades de raciocínio de modelos relativamente pequenos e médios. Seus métodos alcançam níveis de desempenho que superam abordagens de última geração baseadas em técnicas de destilação. A abordagem da NVIDIA utiliza uma estratégia de treinamento sequencial: primeiro, realizando o treinamento de RL exclusivamente em prompts relacionados à matemática e, subsequentemente, mudando para prompts focados exclusivamente em código.
Um Método Sequencial para Raciocínio Aprimorado
As descobertas? O treinamento inicial de RL em problemas matemáticos não apenas melhora drasticamente o desempenho em benchmarks matemáticos, mas, surpreendentemente, também gera um aumento significativo nas capacidades de raciocínio de código. Além disso, iterações estendidas de treinamento de RL focadas especificamente em código aumentam ainda mais o desempenho do código com apenas uma degradação mínima no desempenho matemático. Esta abordagem destaca um ponto crucial: o treinamento matemático pode atuar como uma forte base para tarefas de raciocínio mais complexas, como a codificação.
Integral para o sucesso da abordagem NVIDIA é um pipeline robusto de curadoria de dados. Este pipeline é meticulosamente projetado para coletar prompts desafiadores caracterizados tanto pela alta dificuldade quanto pela disponibilidade de respostas e casos de teste verificáveis e de alta qualidade. Isso permite que RL baseado em verificação seja aplicado efetivamente em ambos os domínios matemático e de codificação.
Curadoria de Dados para Matemática e Código
A metodologia de curadoria de dados empregada pelos pesquisadores da NVIDIA distingue cuidadosamente entre os requisitos para RL somente para matemática e RL somente para código.
RL Somente para Matemática: A criação de dados de treinamento para RL somente para matemática envolve a fusão de dados dos conjuntos de dados DeepScaler e NuminaMath. Esses conjuntos de dados abrangem uma ampla gama de tópicos matemáticos, incluindo álgebra, combinatórias, teoria dos números e geometria. Para manter a integridade dos dados, um rigoroso processo de filtragem é aplicado, utilizando um filtro de 9 gramas para remover conteúdo redundante ou inadequado e implementando regras de exclusão estritas para eliminar entradas potencialmente problemáticas. O modelo DeepSeek-R1 então desempenha um papel crucial na validação da qualidade das perguntas. Cada pergunta é submetida a oito tentativas independentes pelo modelo, e apenas as soluções que recebem uma votação majoritária de correção via verificação baseada em regras são retidas para inclusão no conjunto de dados final.
RL Somente para Código: O conjunto de dados para RL somente para código é construído usando dados provenientes de plataformas modernas de programação competitiva. Essas plataformas fornecem uma rica fonte de problemas de codificação que abrangem uma gama diversificada de tópicos algorítmicos. Os problemas são formatados para se alinhar com as convenções de chamada de função e entrada/saída padrão (stdin/stdout) comumente usadas nesses ambientes. Os pesquisadores realizam um meticuloso processo de filtragem para eliminar problemas incompatíveis e curar meticulosamente casos de teste abrangentes projetados para cobrir casos extremos e condições de contorno. Além disso, cada problema recebe uma pontuação de dificuldade determinada por meio da avaliação pelo modelo DeepSeek-R1-671B. Este processo rigoroso resulta em um conjunto de dados de alta qualidade consistindo em 8.520 problemas de codificação verificados.
AceReason-Nemotron: Resultados e Benchmarks
Os resultados da pesquisa da NVIDIA são convincentes. O modelo AceReason-Nemotron-7B alcança melhorias de precisão significativas de 14,5% e 14,6% nas desafiadoras competições AIME 2024 e 2025, respectivamente, quando comparado aos modelos SFT iniciais. Além disso, demonstra ganhos substanciais de 14,2% e 8% nos benchmarks LiveCodeBench v5 e v6, respectivamente. A variante maior de 14B do modelo mostra um desempenho ainda maior, superando modelos maiores como DeepSeek-R1-Distill-Qwen-32B e DeepSeek-R1-Distill-Llama-70B. Isso alcança os melhores resultados da classe entre modelos de raciocínio abertos baseados em RL.
Comparado com modelos de última geração baseados em destilação, o AceReason-Nemotron-14B supera o OpenMath-14B/32B em 2,1%/4,4% nos benchmarks AIME e o OpenCodeReasoning-14B em 1,7%/0,8% no LiveCodeBench. Isso demonstra de forma convincente que o RL pode alcançar limites superiores de desempenho mais altos do que as abordagens de destilação, mantendo um desempenho competitivo contra modelos de fronteira avançados como QWQ-32B e o3-mini.
As implicações desses resultados são significativas. Eles sugerem que o RL em grande escala tem o potencial de desbloquear novos níveis de capacidades de raciocínio em modelos de IA, superando as limitações das abordagens tradicionais. A estratégia sequencial de treinamento específico do domínio, combinada com um pipeline robusto de curadoria de dados, fornece um plano para futuras pesquisas nesta área.
Aprendizado por Reforço Impulsiona os Limites do Raciocínio
Esta pesquisa sublinha o significativo potencial do aprendizado por reforço para impulsionar as fronteiras das capacidades de raciocínio do modelo. Ao empregar estrategicamente o treinamento específico do domínio e curar meticulosamente dados de alta qualidade, isso permite que os modelos de IA resolvam problemas anteriormente intratáveis e estabeleçam novos benchmarks para o desenvolvimento de modelos de raciocínio e, em última análise, levem a uma nova geração de sistemas de IA capazes de enfrentar desafios do mundo real com precisão e eficiência sem precedentes. A capacidade de raciocinar eficazmente é uma pedra angular da inteligência, e os avanços alcançados pela NVIDIA representam um passo importante para a realização do pleno potencial da inteligência artificial. Pesquisas futuras provavelmente se concentrarão em dimensionar essas técnicas para modelos ainda maiores e explorar novas estratégias de curadoria de dados para melhorar ainda mais o desempenho do raciocínio. O desenvolvimento de funções de recompensa e estratégias de exploração mais sofisticadas também será crucial para superar os desafios associados ao treinamento de modelos de IA para tarefas de raciocínio complexas. Em última análise, o objetivo é criar sistemas de IA que possam raciocinar, aprender e adaptar-se de forma semelhante aos humanos, permitindo-lhes resolver problemas complexos e tomar decisões informadas em uma ampla gama de domínios.
Além disso, o uso de RL oferece vantagens além da precisão bruta. Os agentes de RL podem aprender a otimizar para uma variedade de objetivos, como eficiência, robustez e interpretabilidade. Por exemplo, um agente de RL poderia ser treinado para gerar código que não seja apenas correto, mas também eficiente e fácil de entender. Essa capacidade é particularmente importante em aplicações críticas para a segurança, onde é essencial garantir que os sistemas de IA sejam confiáveis e previsíveis.
O trabalho da NVIDIA destaca a crescente importância da curadoria de dados na pesquisa de IA. A qualidade dos dados de treinamento tem um impacto significativo no desempenho dos modelos de IA, e conjuntos de dados cuidadosamente selecionados são essenciais para alcançar resultados de última geração. O pipeline de curadoria de dados desenvolvido pela NVIDIA é um recurso valioso para pesquisadores que trabalham em modelos de raciocínio e pode ser adaptado para uso em outros domínios também.
A combinação de RL em grande escala, treinamento específico do domínio e curadoria robusta de dados provou ser uma fórmula vencedora para melhorar as capacidades de raciocínio dos modelos de IA. À medida que essas técnicas continuam a evoluir, podemos esperar ver avanços ainda mais impressionantes no campo da IA, e esperamos ver avanços contínuos dos modelos de IA em um futuro próximo.