Quanto a aprendizagem por reforço, reforçada por alguma verificação extra, pode elevar as capacidades dos modelos de linguagem grande (LLMs)? A equipa Qwen da Alibaba está numa jornada para descobrir com a sua última criação, QwQ.
QwQ, um modelo de “raciocínio”, possui uns relativamente compactos 32 biliões de parâmetros. No entanto, a Alibaba afirma que ele supera o DeepSeek R1, com os seus massivos 671 biliões de parâmetros, em benchmarks específicos relacionados com matemática, codificação e chamadas de função (function-calling).
A equipa Qwen, de forma semelhante à abordagem adotada com o R1, empregou a aprendizagem por reforço para refinar o raciocínio da cadeia de pensamento (chain-of-thought) do QwQ. Este método melhora a análise de problemas e as capacidades de decomposição. A aprendizagem por reforço tradicionalmente fortalece o raciocínio passo a passo, recompensando os modelos por respostas corretas, promovendo assim respostas mais precisas. No entanto, o QwQ dá um passo adiante ao incorporar um verificador de precisão e um servidor de execução de código. Isso garante que as recompensas sejam concedidas exclusivamente para soluções matemáticas precisas e código funcional.
A equipa Qwen afirma que essa abordagem resulta num modelo que supera o seu tamanho, alcançando um desempenho comparável e, às vezes, até mesmo excedendo, modelos muito maiores.
No entanto, os benchmarks de IA podem ser enganosos. Então, vamos examinar como essas afirmações se traduzem em cenários do mundo real e, em seguida, iremos guiá-lo sobre como colocar o QwQ a funcionar de forma independente.
Avaliação de Desempenho
Submetemos o QwQ a uma série de prompts de teste, abrangendo conhecimento geral, raciocínio espacial, resolução de problemas, matemática e outras questões conhecidas por desafiar até mesmo os LLMs mais avançados.
Devido aos requisitos substanciais de memória do modelo completo, conduzimos os nossos testes em duas configurações para atender a utilizadores com diferentes capacidades de RAM. Inicialmente, avaliámos o modelo completo usando a demo QwQ no Hugging Face. Posteriormente, testámos uma versão quantizada de 4 bits numa GPU de 24 GB (Nvidia 3090 ou AMD Radeon RX 7900XTX) para avaliar o impacto da quantização na precisão.
Para a maioria das questões de conhecimento geral, o QwQ exibiu um desempenho semelhante ao R1 de 671 biliões de parâmetros da DeepSeek e outros modelos de raciocínio como o o3-mini da OpenAI, fazendo uma breve pausa para formular os seus pensamentos antes de fornecer a resposta.
Os pontos fortes do modelo, talvez sem surpresa, tornam-se evidentes ao lidar com desafios mais complexos de lógica, codificação ou matemática. Vamos aprofundar essas áreas antes de abordar algumas das suas limitações.
Proeza de Raciocínio Espacial
Começámos com um teste de raciocínio espacial relativamente novo, desenvolvido pela Homebrew Research como parte do seu projeto AlphaMaze.
O teste apresenta ao modelo um labirinto em formato de texto, como mostrado abaixo. A tarefa do modelo é navegar da origem “O” até ao alvo “T”.