DeepSeek-R1 battuto in 32B? QwQ di Alibaba
Quanto l'apprendimento per rinforzo può migliorare le capacità dei modelli linguistici? Il team Qwen di Alibaba cerca la risposta con QwQ, un modello da 32 miliardi di parametri che supera DeepSeek R1 in alcuni benchmark.