Qwen-32B: Potência Compacta da Alibaba
Alibaba lança o Qwen-32B, um modelo de raciocínio de 32 bilhões de parâmetros que rivaliza com modelos maiores. Utilizando aprendizagem por reforço em larga escala, o QwQ-32B alcança desempenho comparável ao DeepSeek-R1 de 67,1 bilhões de parâmetros, demonstrando o potencial da RL para aprimorar modelos de linguagem.