Enquanto o DeepSeek-R2 permanece elusivo, os modelos menores da Microsoft estão causando impacto, demonstrando capacidades de raciocínio impressionantes treinadas em um conjunto de dados surpreendentemente pequeno.
A Ascensão dos Modelos de Raciocínio Phi-4
O mundo da IA está atualmente cativado por modelos de raciocínio, e a Microsoft introduziu recentemente a família Phi-4 de modelos de inferência. Isso inclui Phi-4-reasoning, Phi-4-reasoning-plus e Phi-4-mini-reasoning. O que é particularmente notável é que mesmo o maior desses modelos, ostentando meros 14 bilhões de parâmetros, pode ser executado sem problemas em laptops de alto desempenho. Além disso, o Phi-4-mini-reasoning de 3,8 bilhões de parâmetros supera o modelo destilado DeepSeek-R1 de 8 bilhões de parâmetros em raciocínio matemático, destacando o poder de modelos menores em tarefas de inferência.
Em vez de esperar pelo lançamento do modelo de raciocínio DeepSeek-R2 de segunda geração em abril, a Microsoft revelou uma nova série de modelos de raciocínio Phi-4. Esses modelos exibem desempenho excepcional em raciocínio matemático, superando o modelo destilado DeepSeek-R1, apesar do Phi-4-Mini-Reasoning ter uma escala de parâmetros menor.
Ahmed Awadallah, Gerente de Pesquisa Parceiro no laboratório Microsoft AI Frontiers, descreveu o Phi-4-reasoning e resumiu os recursos do novo modelo.
- O modelo é treinado com Supervised Fine-tuning (usando um conjunto de dados de exemplo de raciocínio cuidadosamente selecionado) e Reinforcement Learning.
- Ele tem um bom desempenho em benchmarks de inferência e pode ser comparável a modelos superiores maiores, como o DeepSeek R1.
- Ele continua a ter um bom desempenho em novos testes (como AIME 2025, HMMT)
- A capacidade de raciocínio tem forte transferibilidade/capacidade de generalização, mesmo após apenas supervised fine-tuning, ele pode se adaptar a novas tarefas (como k-SAT, resolução de equações matemáticas, agendamento, etc.)
- Retém e melhora muito as capacidades gerais (como compreensão e execução de instruções)
Ele afirmou que o Phi-4 ainda tem vários aspectos que precisam ser melhorados, especialmente em comprimento de contexto, capacidade de codificação e integração de ferramentas.
Além do modelo em si, a Microsoft também compartilhou um relatório técnico detalhado que fornece uma análise aprofundada do processo de treinamento e avaliação do modelo.
No X, Dimitris Papailiopoulos, Pesquisador Principal no laboratório Microsoft Research AI Frontiers e Professor Associado na Universidade de Wisconsin, introduziu mais informações sobre o modelo de raciocínio Phi-4.
Ele acredita que o Phi-4-reasoning atingiu completamente o nível de pós-graduação e pode ser executado em um PC local.
Isso excedeu suas expectativas para o desenvolvimento da IA.
O novo modelo tem poucos parâmetros, mas um forte desempenho.
Uma Potência de Desempenho
Apesar de seu tamanho modesto, este modelo se destaca em benchmarks de matemática como AIME, HMMT e OmniMath. Ele tem um desempenho igual ou superior a modelos de peso aberto maiores como QwQ-32B, R1-70B e R1, e modelos fechados como o1-mini e sonnet 3.7.
Este modelo é pequeno em tamanho e adequado para ser executado sem problemas em laptops de alto desempenho.
Ao mesmo tempo, ele é capaz de resolver muitos quebra-cabeças que mesmo modelos não-raciocínio maiores e alguns modelos de raciocínio não conseguem resolver.
Ele também passou no teste DimitrisEval!
Surpreendentemente, o raciocínio parece ser uma ‘meta-habilidade’ verdadeiramente transferível que pode ser aprendida mesmo através de supervised fine-tuning SFT!
Evidência 1: Mesmo sem treinamento especializado em tarefas não-raciocínio, os pesquisadores ainda observaram melhorias de desempenho significativas em IFEval, FlenQA e PhiBench interno (um aumento de mais de 10 pontos!).
Além disso, há muito poucos dados relacionados à codificação durante o estágio SFT (e nenhum durante o estágio RL), mas o modelo ainda tem um bom desempenho a esse respeito.
Além disso, Dimitris Papailiopoulos revelou que a programação é um foco fundamental para versões subsequentes.
Evidência 2: No caso de alguns problemas específicos que não foram explicitamente treinados (seja SFT ou estágio RL), como o problema do caixeiro-viajante, resolução de labirintos, k-SAT, planejamento restrito, etc., o modelo tem um desempenho muito bom nessas tarefas!
E o Phi-4 (e até o GPT-4) não consegue fazer isso.
Isso ilustra totalmente que a capacidade de raciocínio pode realmente ser transferida como uma habilidade!
Após uma rodada muito curta de reinforcement learning (usando apenas 6.000 amostras, em comparação com 1,4 milhão de exemplos para SFT), o mecanismo de raciocínio do modelo parece estar ‘bloqueado’.
Isso deixou Dimitris Papailiopoulos particularmente chocado.
Ele sente que é como se o reinforcement learning tivesse ensinado o modelo a raciocinar em ‘sua própria linguagem’, aumentando a precisão em cerca de 10% em AIME e HMMT, e aumentando o comprimento médio da resposta em 50% em problemas difíceis.
Reinforcement learning é realmente eficaz!!
O fenômeno do mecanismo de raciocínio sendo ‘bloqueado’ geralmente torna a distribuição de saída do modelo mais concentrada e a precisão também é maior.
O fato de que o reinforcement learning pode melhorar significativamente as capacidades do modelo também foi refletido em pesquisas anteriores da Microsoft.
No estágio de reinforcement learning, o novo modelo nem sequer foi especialmente otimizado para dados: 6.000 perguntas foram apenas selecionadas aleatoriamente de uma seleção maior de conjuntos de dados.
Então, por que a Microsoft não conduziu mais treinamento de reinforcement learning?
Porque o modelo gerou respostas para perguntas que excederam o comprimento do contexto de 32k (o comprimento em que o modelo não foi treinado), eles só podiam truncá-lo.
Além disso, com a ajuda de cálculos de raciocínio paralelos (como Maj@N), o novo modelo de raciocínio quase atingiu o limite de desempenho no AIME 2025, e até superou o desempenho pass@1 de seu modelo professor (o3-mini).
E concluiu toda a coleta de dados antes de fevereiro de 2025, e assim é o HMMT.
Em outras tarefas, os pesquisadores também observaram o fenômeno de ‘superar o professor’, como tarefas de OmniMath e Planejamento de Calendário.
O design do prompt no estágio SFT, juntamente com o subsequente processo de reinforcement learning, parece ter dado ao modelo a capacidade de ‘auto-melhorar’, excedendo o escopo do conhecimento fornecido pelo modelo professor.
Na figura abaixo, magenta representa o o3-mini e verde representa o Phi.
Um fenômeno interessante é que: textos longos com comprimentos de resposta nos 25% superiores estão frequentemente fortemente correlacionados com respostas erradas!
No entanto, por outro lado, na maioria das avaliações, o comprimento médio da resposta geral é maior e a precisão é maior.
Em outras palavras, aumentar os recursos computacionais durante os testes ajuda, mas o modelo também é propenso a ‘divagar’ quando está ‘preso’.
Em relação às limitações do modelo, também há algumas coisas a serem observadas:
- A capacidade de lidar com comprimentos de contexto superiores a 32k não foi totalmente expandida ou testada.
- O modelo é propenso a ‘pensar demais’ ao lidar com problemas simples, e pode parecer muito prolixo na autoavaliação.
- A capacidade de diálogos de várias rodadas não foi amplamente testada.
Claro, há mais ‘pontos cegos’ a serem descobertos, mas, no geral, a equipe de pesquisa sente que está no caminho certo!
Surpresas de Treinamento
Suriya Gunasekar, Gerente de Pesquisa Principal na Microsoft Research e pertencente à equipe ‘AGI Physics’ responsável pelo desenvolvimento da série de modelos Phi, concentrou-se em apresentar os princípios básicos do trabalho.
Desta vez, a equipe Microsoft Phi concentrou-se no estágio de pós-treinamento e lançou o Phi-4-reasoning (usando apenas SFT) e o Phi-4-reasoning-plus (SFT + uma pequena quantidade de RL).
Ambos são modelos 14B que demonstraram fortes capacidades em raciocínio e benchmarks de tarefas gerais.
O cerne deste trabalho reside na seleção de prompts e na exploração experimental de habilidades de raciocínio transferíveis e auto-aperfeiçoadas.
Houve duas descobertas surpreendentes durante o processo de treinamento:
Primeiro, desde que algumas trajetórias de raciocínio de cadeia longa (CoT) treinadas no domínio sejam usadas, o Phi-4 pode alcançar melhorias de desempenho significativas em várias tarefas, como agendamento, resolução de labirintos (sem entrada visual), IFEva, FlenQA, KITAB (question answering baseado em pesquisa) e PhiBench interno;
Segundo, mesmo que apenas 6.000 exemplos matemáticos sejam usados para treinamento RL mínimo, o desempenho do modelo é significativamente melhorado em alguns benchmarks, com a maior melhoria atingindo 10% (mas o uso de token aumentou cerca de 1,5 vezes), e a transferência entre domínios de habilidades também foi observada durante o estágio RL.
Em outras palavras, em comparação com os principais concorrentes como OpenAI e Google, a série de raciocínio Microsoft Phi-4 demonstra novas possibilidades: modelos pequenos podem igualar ou até superar modelos grandes em tarefas específicas usando dados de alta qualidade e estratégias de treinamento refinadas.
Métodos Principais
O modelo de raciocínio Phi-4-reasoning tem 14 bilhões de parâmetros e tem um forte desempenho em tarefas de raciocínio complexas.
O modelo é baseado em Phi-4 para treinamento de supervised fine-tuning, usando um conjunto cuidadosamente selecionado de prompts ‘ensináveis’ que têm complexidade e diversidade apropriadas; os exemplos de raciocínio gerados por o3-mini são usados como referências durante o processo de treinamento.
O Phi-4-reasoning pode gerar cadeias de raciocínio detalhadas e fazer pleno uso de recursos computacionais durante o processo de raciocínio.
Com base nisso, a Microsoft desenvolveu ainda mais o Phi-4-reasoning-plus.
Ele é aprimorado com base no modelo original por meio de um pequeno estágio de reinforcement learning baseado em resultados, e gera cadeias de raciocínio mais longas e poderosas.
A pesquisa mostra que um conjunto de dados SFT bem projetado pode melhorar significativamente o efeito de modelos de linguagem de raciocínio, e o reinforcement learning (RL) pode amplificar ainda mais essa melhoria com base nisso.
Em experimentos SFT, mesmo nesta configuração de geração relativamente simples, a seleção cuidadosa e a filtragem rigorosa de problemas sementes ainda são fundamentais para o sucesso do modelo.
Eles submeteram todo o conjunto de dados de treinamento a um processo de descontaminação rigoroso para garantir que não contenha dados que se sobreponham altamente com raciocínio amplamente utilizado ou perguntas de benchmark geral, incluindo alguns benchmarks não mencionados neste relatório.
A lista completa de testes de benchmark que foram descontaminados é a seguinte:
- Matemática e Raciocínio: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- Programação: LiveCodeBench, Codeforces, HumanEval, MBPP
- Question Answering e Conhecimento Geral: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- Outras Tarefas de Avaliação: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
Através do Supervised Finetuning (SFT) do modelo Phi-4 com 14 bilhões de parâmetros, os pesquisadores obtiveram o Phi-4-reasoning, sem qualquer reinforcement learning antes disso.
O objetivo SFT é refinar a capacidade de raciocínio estruturado contida no modelo básico.
A arquitetura do Phi-4-reasoning é a mesma do modelo Phi-4, mas com duas modificações principais:
- Tokens de raciocínio: Os dois tokens de espaço reservado no modelo básico são reutilizados como e tokens, que são usados para marcar o início e o fim de um processo de raciocínio (‘pensamento’).
- Comprimento de Token Aumentado: O comprimento máximo de token inicialmente suportado pelo modelo básico (Phi-4) era 16K. Para acomodar tokens de raciocínio adicionais, a frequência base de RoPE foi dobrada e o modelo foi treinado em um comprimento máximo de token de 32K.
Eles usaram um método sintético para gerar um grande número de exemplos de raciocínio de cadeia de pensamento.
O conjunto de dados SFT usado contém mais de 1,4 milhão de pares prompt-resposta, totalizando 8,3 bilhões de tokens únicos, abrangendo campos de raciocínio como matemática e programação, bem como dados de alinhamento para IA segura e responsável.
A Figura 4a mostra as mudanças nos principais indicadores ao longo do processo de iteração SFT.
No início do treinamento, o modelo começou a usar tokens de ‘pensamento’ explícitos, o que indica que o modelo aprendeu rapidamente este formato estruturado raso.
No entanto, como mostrado na Figura 4a, a eficácia do módulo de cadeia de pensamento e a capacidade de raciocínio do modelo estão melhorando ao longo do processo de treinamento, o que indica que o modelo não está apenas copiando o formato, mas está realmente aprendendo habilidades de raciocínio.
Curiosamente, ao contrário do reinforcement learning, os pesquisadores não viram um aumento no comprimento da resposta durante o processo SFT.
Na verdade, como mostrado na Figura 4b, o comprimento médio da resposta diminuiu ligeiramente.
Isso mostra que, à medida que o treinamento avança, o modelo está aprendendo a usar seu orçamento de token de forma mais eficaz.
Para avaliar sistematicamente diferentes estratégias de treinamento, eles usaram um benchmark fixo - AIME 2024 e GPQA diamond - como um indicador de progresso.
No geral, o método experimental pode ser dividido em dois estágios: exploração e escala.
No estágio de exploração, os pesquisadores usaram ciclos de treinamento mais curtos e fontes de dados e campos limitados para iterar rapidamente e extrair métodos de treinamento robustos.
Na fase de expansão subsequente, os pesquisadores resumiram os resultados de experimentos de redução de risco precoce e finalizaram as configurações SFT.
A Figura 5 resume este progresso, destacando experimentos de ablação para várias escolhas de design importantes.
A Figura 5 mostra uma visão geral de alto nível do ciclo experimental de supervised fine-tuning (SFT) Phi-4-reasoning, incluindo fases de exploração e expansão, usando alguns experimentos de exemplo para representar. Cada cluster de pontos representa os resultados experimentais de uma escolha de design de treinamento específica.
A Figura 7 mostra as principais descobertas do modelo Phi-4-reasoning-plus durante o processo de treinamento GRPO.
Começando com o modelo base de supervised fine-tuning (SFT) Phi-4-reasoning, apenas 90 passos de treinamento GRPO aumentaram o desempenho do AIME em mais de 10% (Figura 7a).
Continuar aumentando o número de passos de treinamento não trouxe benefícios adicionais, o que indica que o potencial de um modelo SFT forte está perto do limite de desempenho. Deve-se notar que a saída no treinamento GRPO é limitada a 31k tokens, o que restringe objetivamente o espaço de otimização do GRPO.
Como mostrado na Figura 7c, o comprimento da resposta está fortemente correlacionado com o desempenho do AIME, enquanto a correlação entre a pontuação de recompensa e a pontuação do AIME é fraca. Este efeito de crescimento do comprimento da resposta é o efeito esperado do treinamento GRPO - o modelo melhora sua capacidade de raciocínio aumentando o ‘tempo de pensamento’.
A Figura 7d revela ainda que, devido ao design do modelo de recompensa, o comprimento de geração de respostas erradas cresce significativamente mais rápido do que as respostas corretas (quando a resposta atual do modelo está errada, o sistema o incentivará a pensar por mais tempo).
Na verdade, realizar amostragem de rejeição com base apenas no comprimento da resposta (especialmente respostas longas que excedem significativamente a mediana) pode melhorar ainda mais o desempenho do GRPO.
Como mostrado na Figura 7d, a tendência de crescimento de respostas mais curtas (comprimento localizado no quartil inferior de 25%) durante o processo de treinamento é semelhante ao comprimento médio de respostas corretas, enquanto o comprimento de respostas erradas está mais próximo do quartil de 75% do comprimento geral da resposta.
Este fenômeno de diferenciação indica que a amostragem de rejeição baseada no comprimento pode melhorar a eficiência do modelo, suprimindo saídas incorretas excessivamente longas.