Alibaba: Qwen-32B sfida i modelli più grandi

Alibaba presenta Qwen-32B: un concentrato di potenza che sfida i modelli più grandi

Con un annuncio a sorpresa in tarda serata, Alibaba ha reso open-source il suo ultimo modello di ragionamento, Qwen-32B (QwQ-32B). Con 32 miliardi di parametri, questo modello dimostra prestazioni paragonabili a quelle del DeepSeek-R1, un modello completo significativamente più grande con 67,1 miliardi di parametri.

Il team di Qwen ha sottolineato la propria ricerca sull’espansione delle tecniche di apprendimento per rinforzo (RL). Hanno dichiarato: ‘Abbiamo esplorato metodi per estendere l’RL, ottenendo risultati impressionanti basati sul nostro Qwen2.5-32B. Abbiamo scoperto che l’addestramento RL può migliorare continuamente le prestazioni, specialmente in compiti matematici e di codifica. Abbiamo osservato che la continua scalabilità dell’RL può aiutare i modelli di medie dimensioni a raggiungere prestazioni paragonabili a quelle dei modelli MoE giganti. Diamo il benvenuto a tutti per chattare con il nostro nuovo modello e fornirci feedback!’.

QwQ-32B è ora disponibile su Hugging Face e ModelScope con la licenza open-source Apache 2.0. Gli utenti possono anche interagire direttamente con il modello tramite Qwen Chat. Il popolare strumento di distribuzione locale, Ollama, ha già integrato il supporto, accessibile tramite il comando: ollama run qwq.

In concomitanza con il rilascio, il team di Qwen ha pubblicato un post sul blog intitolato ‘QwQ-32B: Sfruttare la potenza dell’apprendimento per rinforzo’, che descrive in dettaglio i progressi rivoluzionari.

Il post del blog sottolinea l’immenso potenziale dell’apprendimento per rinforzo (RL) su larga scala per superare i tradizionali metodi di pre-addestramento e post-addestramento nel migliorare le prestazioni del modello. Ricerche recenti, come l’integrazione di dati di avvio a freddo e l’addestramento multi-stadio di DeepSeek-R1, dimostrano la capacità dell’RL di potenziare significativamente le capacità di ragionamento, consentendo un pensiero più profondo e la risoluzione di problemi complessi.

L’esplorazione del team di Qwen si è concentrata sullo sfruttamento dell’RL su larga scala per elevare l’intelligenza dei modelli linguistici di grandi dimensioni, culminando nella creazione di QwQ-32B. Questo modello da 32 miliardi di parametri rivaleggia notevolmente con le prestazioni del DeepSeek-R1 da 67,1 miliardi di parametri (con 37 miliardi attivati). Il team ha sottolineato: ‘Questo risultato sottolinea l’efficacia dell’applicazione dell’apprendimento per rinforzo a modelli di base robusti e pre-addestrati’.

QwQ-32B incorpora anche capacità relative agli agenti, consentendogli di valutare criticamente le proprie azioni mentre utilizza gli strumenti e di adattare il proprio processo di ragionamento in base al feedback ambientale. ‘Speriamo che i nostri sforzi dimostrino che la combinazione di potenti modelli di base con l’apprendimento per rinforzo su larga scala potrebbe essere un percorso praticabile verso l’Intelligenza Artificiale Generale (AGI)’, ha affermato il team.

Prestazioni del modello: Benchmarking di QwQ-32B

QwQ-32B è stato sottoposto a una valutazione rigorosa su una serie di benchmark, che comprendono il ragionamento matematico, la programmazione e le capacità generali. I risultati mostrano le prestazioni di QwQ-32B in confronto ad altri modelli leader, tra cui DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e l’originale DeepSeek-R1.

I risultati sono sorprendenti. QwQ-32B dimostra prestazioni eccezionali, superando leggermente DeepSeek-R1-67B sui benchmark LiveBench, IFEval e BFCL. Ciò evidenzia l’efficienza e la potenza dell’approccio di apprendimento per rinforzo adottato dal team di Qwen.

Approfondimento sull’apprendimento per rinforzo

Lo sviluppo di QwQ-32B ha sfruttato l’apprendimento per rinforzo su larga scala costruito su una base di avvio a freddo. La fase iniziale si è concentrata specificamente sull’addestramento RL per compiti matematici e di programmazione. A differenza degli approcci tradizionali che si basano su modelli di ricompensa, il team di Qwen ha fornito feedback per i problemi matematici verificando la correttezza delle risposte generate. Per i compiti di codifica, il feedback è stato derivato da un server di esecuzione del codice, valutando se il codice generato ha superato con successo i test case.

Man mano che l’addestramento procedeva attraverso più iterazioni, QwQ-32B mostrava miglioramenti consistenti delle prestazioni in entrambi i domini. Questo processo di raffinamento iterativo, guidato dal feedback diretto sull’accuratezza della soluzione, si è dimostrato molto efficace.

Dopo la fase iniziale di RL focalizzata su matematica e programmazione, è stata introdotta una fase successiva di RL per migliorare le capacità generali. Questa fase ha utilizzato modelli di ricompensa generali e validatori basati su regole per l’addestramento. I risultati hanno indicato che anche un piccolo numero di passaggi nell’RL generale potrebbe aumentare le capacità complessive senza influire significativamente sulle prestazioni dei compiti matematici e di programmazione precedentemente addestrati. Ciò dimostra l’adattabilità e la robustezza del modello.

Direzioni future: espandere gli orizzonti dell’IA

Il team di Qwen ha anche condiviso i propri piani futuri, affermando: ‘Questo è il primo passo di Qwen nello sfruttare l’apprendimento per rinforzo (RL) su larga scala per migliorare le capacità di ragionamento. Attraverso questo viaggio, non solo abbiamo assistito all’immenso potenziale della scalabilità dell’RL, ma abbiamo anche riconosciuto le possibilità non sfruttate all’interno dei modelli linguistici pre-addestrati. Mentre lavoriamo allo sviluppo della prossima generazione di Qwen, crediamo che la combinazione di modelli di base ancora più potenti con l’RL, alimentata da risorse computazionali scalate, ci avvicinerà al raggiungimento dell’Intelligenza Artificiale Generale (AGI). Inoltre, stiamo esplorando attivamente l’integrazione degli agenti con l’RL per consentire il ragionamento a lungo termine, con l’obiettivo di sbloccare un’intelligenza ancora maggiore attraverso un tempo di ragionamento esteso’. Questo impegno per il miglioramento continuo e l’esplorazione sottolinea la dedizione del team a superare i limiti dell’IA.

Accoglienza della comunità: QwQ-32B ottiene un ampio consenso

Il rilascio di QwQ-32B è stato accolto con entusiasmo e feedback positivi. La comunità dell’IA, inclusi molti utenti di Qwen, attendeva con impazienza la presentazione di questo nuovo modello.

Il recente entusiasmo per DeepSeek ha evidenziato la preferenza della comunità per il modello completo a causa delle limitazioni della versione distillata. Tuttavia, il modello completo da 67,1 miliardi di parametri presentava sfide di implementazione, in particolare per i dispositivi edge con risorse limitate. Qwen-32B, con le sue dimensioni significativamente ridotte, risolve questo problema, aprendo possibilità per una distribuzione più ampia.

Un utente ha commentato: ‘Probabilmente non è ancora fattibile sui telefoni cellulari, ma i Mac con RAM sufficiente potrebbero essere in grado di gestirlo’. Questo sentimento riflette l’ottimismo che circonda il potenziale di eseguire QwQ-32B su dispositivi con risorse limitate.

Un altro utente si è rivolto direttamente a Binyuan Hui, uno scienziato del Tongyi Laboratory di Alibaba, sollecitando lo sviluppo di modelli ancora più piccoli. Ciò evidenzia la domanda di modelli di IA sempre più compatti ed efficienti.

Gli utenti hanno anche condiviso le loro esperienze, elogiando la velocità e la reattività del modello. Un utente ha mostrato una dimostrazione, evidenziando le rapide capacità di elaborazione di QwQ-32B.

Awni Hannun, un ricercatore di machine learning presso Apple, ha confermato l’esecuzione corretta di QwQ-32B su un M4 Max, sottolineandone la velocità impressionante. Questa convalida da parte di un ricercatore di spicco consolida ulteriormente le affermazioni sulle prestazioni del modello.

Il team di Qwen ha anche reso disponibile una versione di anteprima di QwQ-32B sulla loro interfaccia di chat ufficiale, Qwen Chat, incoraggiando gli utenti a testare e fornire feedback. Questo approccio interattivo favorisce il coinvolgimento della comunità e consente la valutazione nel mondo reale delle capacità del modello.

La rapida adozione di QwQ-32B da parte della comunità e la sua integrazione in strumenti popolari come Ollama dimostrano l’importanza e l’impatto del modello. La combinazione di prestazioni elevate, dimensioni del modello ridotte e l’uso innovativo dell’apprendimento per rinforzo ha posizionato QwQ-32B come un importante progresso nel campo dei modelli linguistici di grandi dimensioni. La natura open-source del modello incoraggia ulteriormente la collaborazione e l’innovazione all’interno della comunità dell’IA, aprendo la strada a future scoperte. L’attenzione alla distribuzione pratica e alle applicazioni del mondo reale evidenzia il potenziale di QwQ-32B di avere un impatto sostanziale oltre le impostazioni di ricerca, portando capacità di IA avanzate a una gamma più ampia di utenti e dispositivi. Gli sforzi di ricerca e sviluppo in corso da parte del team di Qwen promettono progressi ancora più entusiasmanti nella ricerca dell’AGI.