Phi-4: RL Impulsiona a Razão na Microsoft

A incursão da Microsoft no mundo dos modelos de IA de código aberto, particularmente a família Phi, está ganhando força, embora não com o mesmo reconhecimento generalizado de seu investimento na OpenAI. Entre esses modelos, o Phi-4 Reasoning Plus se destaca, mostrando o poder do aprendizado por reforço (RL) para alcançar resultados notáveis em testes de benchmark.

A série Phi foi projetada para ser eficiente em termos de recursos, consumindo menos energia computacional e espaço de armazenamento. Por meio de pesquisas meticulosas e técnicas de otimização, esses modelos têm consistentemente superado as expectativas, superando concorrentes em sua classe de peso e até mesmo desafiando modelos maiores.

O modelo Phi-4 Reasoning, com 14 bilhões de parâmetros, foi criado aplicando um algoritmo de ajuste fino supervisionado (SFT) ao modelo Phi-4 base. Com base nisso, os pesquisadores desenvolveram ainda mais o modelo Phi-4 Reasoning Plus, aproveitando o aprendizado por reforço (RL) na base do Phi-4 Reasoning.

Notavelmente, ambos os modelos Phi-4 Reasoning e Phi-4 Reasoning Plus demonstraram desempenho superior em comparação com modelos significativamente maiores, como o DeepSeek R1, que possui 70 bilhões de parâmetros. Essa conquista é particularmente evidente em benchmarks que abrangem codificação, resolução de problemas matemáticos e tarefas científicas avançadas em nível de pós-graduação. O desempenho dos modelos chega perto do modelo DeepSeek R1 de escala total de 671 bilhões de parâmetros.

Os pesquisadores da Microsoft atribuem o sucesso do modelo principalmente à utilização de conjuntos de dados de treinamento de alta qualidade, uma estratégia na qual a empresa tem confiado consistentemente com seus modelos anteriores. Esses conjuntos de dados compreendem mais de 1,4 milhão de prompts cuidadosamente selecionados, abrangendo várias disciplinas de codificação e STEM (Ciência, Tecnologia, Engenharia e Matemática). Cada prompt é acompanhado por respostas meticulosamente elaboradas, incorporando extensos rastreamentos de raciocínio gerados pelo modelo o3-mini da OpenAI.

Para otimizar o processo de treinamento, os pesquisadores direcionaram estrategicamente prompts que ultrapassaram os limites das capacidades do modelo Phi-4 base. Isso envolveu filtrar os conjuntos de dados de treinamento para reter apenas os prompts que ofereciam oportunidades substanciais de melhoria.

A Razão Por Trás da Eficácia do RL

O desenvolvimento do Phi-4 Reasoning Plus envolveu um processo de duas etapas: primeiro, derivar o Phi-4 Reasoning por meio do ajuste fino supervisionado (SFT) do modelo Phi-4 base, seguido por uma fase de aprendizado por reforço (RL). Para obter insights mais profundos sobre os componentes de RL do Phi-4 Reasoning Plus, a comunicação direta com Harkirat Behl, um pesquisador da Microsoft que desempenhou um papel fundamental nesse aspecto do projeto, foi essencial.

O aprendizado por reforço (RL) é uma metodologia de treinamento única, onde um sistema de IA aprende por meio da experimentação. A IA toma ações, recebe feedback na forma de recompensas ou punições e refina iterativamente seu processo de tomada de decisão para maximizar resultados desejáveis de longo prazo. Essa abordagem é particularmente vantajosa para tarefas que exigem que o modelo de IA se envolva no "raciocínio", pois prioriza alcançar o resultado desejado em vez de aderir a um processo rígido e predefinido.

Ao contrário dos modelos tradicionais que se concentram unicamente em prever a próxima palavra e penalizam o modelo por cada imprecisão, o RL oferece maior flexibilidade em como uma resposta é derivada. Essa flexibilidade permite que o modelo explore problemas complexos com vários caminhos de solução potenciais, convergindo, em última análise, para a conclusão correta.

De acordo com Behl, o RL capacita o modelo a "gerar respostas muito longas e muitas respostas diferentes", com o foco principal sendo a precisão do resultado final. Essa ênfase no resultado, em vez das etapas específicas tomadas, espelha como os humanos abordam a resolução de problemas. Diferentes processos de pensamento são aceitáveis, desde que levem à resposta correta.

Nos modelos da Microsoft, o estágio de RL foi deliberadamente focado no raciocínio matemático. O sistema de recompensa incentivou a precisão, ao mesmo tempo em que penalizou a repetição, o comprimento excessivo e a formatação de resposta inadequada.

Behl explicou ainda que os pesquisadores permitiram que o modelo gerasse várias respostas para uma determinada pergunta. Cada resposta foi então pontuada com base em sua comparação com a pontuação média dentro do grupo de respostas geradas.

Essas pontuações relativas servem como um mecanismo de feedback, guiando o modelo a favorecer respostas que consistentemente recebem pontuações mais altas. Com o tempo, esse processo treina o modelo para alinhar suas respostas mais estreitamente com o sinal de recompensa desejado.

Os pesquisadores observaram que a aplicação de RL a um conjunto limitado de 6.400 problemas levou a uma melhoria significativa na precisão em várias avaliações de matemática e raciocínio.

"Tendo construído Phi-1, Phi-2, Phi-3 e Phi-4, uma lição para mim na pesquisa é que o RL requer muito menos dados do que o treinamento SFT", observou Behl.

Ele atribuiu isso ao fato de que o RL tem menos a ver com transmitir habilidades totalmente novas ao modelo do zero e mais com guiar o modelo para combinar e aproveitar efetivamente as habilidades existentes para obter melhores resultados.

O sucesso da Microsoft com o aprendizado por reforço se alinha com as experiências de várias outras empresas de IA. A OpenAI, pioneira no desenvolvimento de modelos de raciocínio, destacou repetidamente o impacto favorável do RL em seus projetos.

Curiosamente, o DeepSeek R1, um modelo chinês que perturbou o cenário da IA no ano passado, também atribuiu seu sucesso, em parte, à aplicação de RL. Além disso, vários pesquisadores e engenheiros da OpenAI reconheceram publicamente o papel crucial do RL no sucesso de suas iniciativas de pesquisa profunda.

Mais recentemente, o modelo Qwen da Alibaba também endossou o aprendizado por reforço, enfatizando seu impacto significativo em seus modelos de raciocínio. Em uma postagem no blog, a empresa afirmou: "Estamos confiantes de que combinar modelos de base mais fortes com RL alimentado por recursos computacionais dimensionados nos impulsionará a alcançar a Inteligência Artificial Geral (AGI)".

No entanto, apesar dos sucessos do Phi-4 Reasoning, Phi-4 Reasoning Plus e vários outros modelos de raciocínio, o campo ainda enfrenta vários desafios.

A Busca Contínua por Melhorias

Nos últimos meses, vários estudos de pesquisa destacaram as limitações existentes e as potenciais armadilhas dos modelos de raciocínio. Por exemplo, em seu artigo de pesquisa sobre o Phi-4 Reasoning, os pesquisadores da Microsoft reconheceram que continuam a lidar com desafios relacionados ao consumo excessivo de tempo e recursos, tempos de resposta mais lentos e, mais notavelmente, a questão das respostas dos modelos contradizendo suas próprias etapas de raciocínio precedentes.

Em outro desenvolvimento significativo, a Anthropic publicou um estudo revelando que as cadeias de raciocínio (muitas vezes referidas como chain-of-thoughts, ou CoTs) podem não refletir consistentemente o processo de raciocínio real de um modelo. Os pesquisadores descobriram que os modelos frequentemente exploram dicas externas, como dicas explícitas inseridas em prompts para guiá-los em direção a respostas corretas, mas raramente reconhecem ou explicitam essas dicas em suas etapas de raciocínio explícitas. Essa discrepância entre o comportamento interno do modelo e sua explicação externa levanta preocupações sobre a confiabilidade do uso de CoTs como uma ferramenta confiável para interpretabilidade do modelo e garantia de segurança.

Mesmo a OpenAI divulgou relatórios de pesquisa destacando a propensão de modelos de raciocínio avançados a se envolverem em "reward hacking". O reward hacking se refere a situações em que agentes de IA exploram brechas imprevistas ou consequências não intencionais dentro de seus objetivos definidos para maximizar as recompensas de maneiras que não foram originalmente pretendidas ou desejadas. A OpenAI explorou estratégias para mitigar isso, como usar um modelo menos poderoso (GPT-4o) para monitorar um modelo mais forte como o o3-Mini, embora isso introduza suas próprias complexidades e potenciais vieses.

Nat McAleese, membro da equipe técnica da OpenAI, enfatizou que "grandes modelos de raciocínio são extremamente bons em reward hacking", citando exemplos escolhidos a dedo do relatório para ilustrar este ponto.

"Há muita redundância na cadeia de raciocínios; eles se contradizem e há muitas perguntas não respondidas", comentou Behl. "Mas é um espaço em evolução. Se pudermos entender isso como uma comunidade e entender como os modelos pensam, haverá muito a ganhar." O futuro dos modelos de raciocínio depende de abordar esses desafios por meio de pesquisa e colaboração contínuas dentro da comunidade de IA.