Quanto può l’apprendimento per rinforzo, supportato da alcune verifiche extra, elevare le capacità dei modelli linguistici di grandi dimensioni (LLM)? Il team Qwen di Alibaba è alla ricerca di una risposta con la sua ultima creazione, QwQ.
QwQ, un modello di “ragionamento”, vanta un numero relativamente compatto di 32 miliardi di parametri. Tuttavia, Alibaba afferma che supera DeepSeek R1, con i suoi massicci 671 miliardi di parametri, in specifici benchmark relativi a matematica, codifica e function-calling.
Il team Qwen, in modo simile all’approccio adottato con R1, ha impiegato l’apprendimento per rinforzo per perfezionare il ragionamento chain-of-thought di QwQ. Questo metodo migliora l’analisi dei problemi e le capacità di scomposizione. L’apprendimento per rinforzo tradizionalmente rafforza il ragionamento graduale premiando i modelli per le risposte corrette, favorendo così risposte più accurate. Tuttavia, QwQ fa un ulteriore passo avanti incorporando un verificatore di accuratezza e un server di esecuzione del codice. Ciò garantisce che i premi siano concessi esclusivamente per soluzioni matematiche accurate e codice funzionale.
Il team Qwen afferma che questo approccio si traduce in un modello che supera le sue dimensioni, ottenendo prestazioni paragonabili e talvolta persino superiori a modelli molto più grandi.
Tuttavia, i benchmark dell’IA possono essere ingannevoli. Quindi, esaminiamo come queste affermazioni si traducono in scenari del mondo reale e poi ti guideremo su come far funzionare QwQ in modo indipendente.
Valutazione delle prestazioni
Abbiamo sottoposto QwQ a una serie di prompt di test, comprendenti conoscenze generali, ragionamento spaziale, problem-solving, matematica e altre domande note per mettere alla prova anche gli LLM più avanzati.
A causa dei notevoli requisiti di memoria del modello completo, abbiamo condotto i nostri test in due configurazioni per soddisfare gli utenti con diverse capacità di RAM. Inizialmente, abbiamo valutato il modello completo utilizzando la demo QwQ su Hugging Face. Successivamente, abbiamo testato una versione quantizzata a 4 bit su una GPU da 24 GB (Nvidia 3090 o AMD Radeon RX 7900XTX) per valutare l’impatto della quantizzazione sull’accuratezza.
Per la maggior parte delle domande di conoscenza generale, QwQ ha mostrato prestazioni simili a R1 da 671 miliardi di parametri di DeepSeek e ad altri modelli di ragionamento come o3-mini di OpenAI, facendo una breve pausa per formulare i suoi pensieri prima di fornire la risposta.
I punti di forza del modello, forse non sorprendentemente, diventano evidenti quando si affrontano sfide logiche, di codifica o matematiche più complesse. Approfondiamo queste aree prima di affrontare alcune delle sue limitazioni.
Abilità di ragionamento spaziale
Abbiamo iniziato con un test di ragionamento spaziale relativamente nuovo ideato da Homebrew Research come parte del loro progetto AlphaMaze.
Il test presenta al modello un labirinto in formato testo, come mostrato di seguito. Il compito del modello è navigare dall’origine “O” al bersaglio “T”.
Analisi Dettagliata di QwQ: Un Approfondimento sul Modello di Alibaba
Il panorama dell’intelligenza artificiale è in continua evoluzione, con modelli linguistici (LLM) sempre più potenti e sofisticati. Alibaba, attraverso il suo team Qwen, si inserisce in questa corsa all’innovazione con QwQ, un modello che promette di ridefinire il rapporto tra dimensioni e prestazioni.
QwQ si distingue per un’architettura relativamente compatta, con “soli” 32 miliardi di parametri. Questo lo pone in netto contrasto con giganti come DeepSeek R1, che ne vanta ben 671 miliardi. Eppure, secondo le dichiarazioni di Alibaba, QwQ non solo tiene testa a DeepSeek R1, ma lo supera in specifici benchmark, in particolare quelli legati a matematica, programmazione e function-calling.
La chiave di questo successo risiede nell’approccio adottato dal team Qwen, che ha fatto ampio uso dell’apprendimento per rinforzo (reinforcement learning). Questa tecnica, già utilizzata per affinare il modello R1, è stata ulteriormente potenziata in QwQ.
L’Apprendimento per Rinforzo: Il Motore del Ragionamento
L’apprendimento per rinforzo è una tecnica di addestramento in cui il modello impara attraverso tentativi ed errori, ricevendo ricompense per le azioni corrette e penalità per quelle errate. Nel contesto di QwQ, questo si traduce in un miglioramento del ragionamento chain-of-thought, ovvero la capacità del modello di analizzare un problema, scomporlo in passaggi intermedi e giungere alla soluzione finale.
Tradizionalmente, l’apprendimento per rinforzo premia il modello per ogni risposta corretta, incentivando così la produzione di output accurati. QwQ, però, introduce un’innovazione significativa: un verificatore di accuratezza e un server di esecuzione del codice.
Il Verificatore di Accuratezza e il Server di Esecuzione: La Garanzia della Precisione
Questi due componenti aggiuntivi rappresentano un salto di qualità nell’addestramento di QwQ. Il verificatore di accuratezza assicura che le ricompense vengano assegnate solo per soluzioni matematiche effettivamente corrette, evitando così che il modello impari scorciatoie o produca risposte plausibili ma errate.
Il server di esecuzione del codice, invece, verifica che il codice generato dal modello sia funzionale e produca i risultati attesi. Questo è particolarmente importante per le attività di programmazione, dove la correttezza sintattica non è sufficiente a garantire la validità del codice.
Grazie a questa combinazione di apprendimento per rinforzo, verificatore di accuratezza e server di esecuzione, QwQ è in grado di raggiungere un livello di precisione e affidabilità superiore, anche rispetto a modelli di dimensioni maggiori.
Oltre i Benchmark: Un’Analisi nel Mondo Reale
I benchmark, per quanto utili, possono talvolta fornire un quadro parziale delle reali capacità di un modello. Per questo motivo, è fondamentale valutare QwQ in scenari più vicini all’utilizzo quotidiano.
Abbiamo sottoposto QwQ a una serie di test, spaziando da domande di cultura generale a problemi di ragionamento spaziale, logica, matematica e programmazione. Questi test sono stati progettati per mettere alla prova anche gli LLM più avanzati.
Test su Diverse Configurazioni Hardware
Data la notevole richiesta di memoria del modello completo, abbiamo condotto i test in due configurazioni:
- Modello Completo: Abbiamo utilizzato la demo di QwQ disponibile su Hugging Face, sfruttando le risorse messe a disposizione dalla piattaforma.
- Versione Quantizzata a 4-bit: Abbiamo eseguito il modello su una GPU da 24 GB (Nvidia 3090 o AMD Radeon RX 7900XTX), per valutare l’impatto della quantizzazione sull’accuratezza. La quantizzazione è una tecnica che riduce la precisione numerica dei parametri del modello, consentendo di eseguirlo su hardware meno potente, a scapito di una potenziale perdita di accuratezza.
Risultati dei Test: Conoscenza Generale e Ragionamento
Per le domande di cultura generale, QwQ ha mostrato prestazioni paragonabili a quelle di DeepSeek R1 e di altri modelli di ragionamento, come o3-mini di OpenAI. Il modello impiega un breve tempo per elaborare la risposta, dimostrando di “riflettere” prima di fornire l’output.
I veri punti di forza di QwQ, tuttavia, emergono quando si affrontano problemi più complessi, che richiedono capacità di ragionamento logico, matematico o di programmazione.
Il Test di Ragionamento Spaziale AlphaMaze
Per valutare le capacità di ragionamento spaziale di QwQ, abbiamo utilizzato il test AlphaMaze, sviluppato da Homebrew Research. Questo test presenta al modello un labirinto rappresentato in formato testo. L’obiettivo è trovare il percorso più breve dall’origine (“O”) al bersaglio (“T”). Questo tipo di test richiede al modello non solo di comprendere la rappresentazione testuale del labirinto, ma anche di pianificare un percorso efficiente, dimostrando capacità di ragionamento spaziale e problem-solving.
Limitazioni e Considerazioni
Nonostante le promettenti prestazioni, è importante sottolineare che QwQ, come tutti gli LLM, presenta ancora alcune limitazioni. Ad esempio, potrebbe avere difficoltà con domande ambigue o che richiedono conoscenze molto specifiche e di nicchia. Inoltre, la quantizzazione a 4-bit, pur consentendo l’esecuzione su hardware meno potente, potrebbe comportare una leggera riduzione dell’accuratezza in alcuni casi.
Conclusioni: Un Passo Avanti per l’IA
QwQ rappresenta un passo avanti significativo nel campo dell’intelligenza artificiale. Dimostra che è possibile ottenere prestazioni elevate anche con modelli di dimensioni relativamente contenute, grazie a tecniche di addestramento avanzate come l’apprendimento per rinforzo e l’introduzione di meccanismi di verifica dell’accuratezza.
L’approccio di Alibaba apre nuove prospettive per lo sviluppo di LLM più efficienti e accessibili, aprendo la strada a una più ampia diffusione di applicazioni basate sull’intelligenza artificiale. Il futuro dell’IA è sempre più orientato verso modelli che non solo sono potenti, ma anche ottimizzati per l’utilizzo in contesti reali, con un’attenzione particolare all’efficienza e all’affidabilità. QwQ è un esempio concreto di questa tendenza.