Phi-4: Trionfo del Reinforcement Learning

L’incursione di Microsoft nel regno dei modelli AI open-source, in particolare la famiglia Phi, sta guadagnando terreno, anche se non con lo stesso riconoscimento diffuso del loro investimento in OpenAI. Tra questi modelli, Phi-4 Reasoning Plus si distingue, mostrando la potenza del reinforcement learning (RL) nel raggiungere risultati notevoli nei test di benchmark.

La serie Phi è progettata per essere efficiente in termini di risorse, consumando meno potenza di calcolo e spazio di archiviazione. Attraverso una ricerca meticolosa e tecniche di ottimizzazione, questi modelli hanno costantemente superato le aspettative, superando i concorrenti sia nella loro classe di peso che sfidando anche modelli più grandi.

Il modello Phi-4 Reasoning, con 14 miliardi di parametri, è stato creato applicando un algoritmo di supervised fine-tuning (SFT) al modello base Phi-4. Basandosi su questo, i ricercatori hanno ulteriormente sviluppato il modello Phi-4 Reasoning Plus, sfruttando il reinforcement learning (RL) sulla base di Phi-4 Reasoning.

Sorprendentemente, sia il modello Phi-4 Reasoning che il modello Phi-4 Reasoning Plus hanno dimostrato prestazioni superiori rispetto a modelli significativamente più grandi come DeepSeek R1, che ospita 70 miliardi di parametri. Questo risultato è particolarmente evidente nei benchmark che comprendono la codifica, la risoluzione di problemi matematici e compiti scientifici avanzati a livello di laurea. Le prestazioni dei modelli si avvicinano persino a quelle del modello DeepSeek R1 a grandezza naturale con 671 miliardi di parametri.

I ricercatori di Microsoft attribuiscono il successo del modello principalmente all’utilizzo di set di dati di addestramento di alta qualità, una strategia su cui l’azienda si è costantemente affidata con i suoi modelli precedenti. Questi set di dati comprendono oltre 1,4 milioni di prompt accuratamente curati che abbracciano varie discipline di codifica e STEM (Scienza, Tecnologia, Ingegneria e Matematica). Ogni prompt è accompagnato da risposte meticolosamente elaborate, che incorporano ampie tracce di ragionamento generate dal modello o3-mini di OpenAI.

Per ottimizzare il processo di addestramento, i ricercatori hanno strategicamente mirato a prompt che spingessero i limiti delle capacità del modello base Phi-4. Ciò ha comportato il filtraggio dei set di dati di addestramento per conservare solo quei prompt che offrivano sostanziali opportunità di miglioramento.

Il Ragionamento Alla Base Dell’Efficacia Dell’RL

Lo sviluppo di Phi-4 Reasoning Plus ha comportato un processo in due fasi: in primo luogo, derivare Phi-4 Reasoning attraverso il supervised fine-tuning (SFT) del modello base Phi-4, seguito da una fase di reinforcement learning (RL). Per ottenere approfondimenti più approfonditi sui componenti RL di Phi-4 Reasoning Plus, è stata essenziale la comunicazione diretta con Harkirat Behl, un ricercatore di Microsoft che ha svolto un ruolo fondamentale in questo aspetto del progetto.

Il reinforcement learning (RL) è una metodologia di addestramento unica in cui un sistema AI impara attraverso la sperimentazione. L’AI intraprende azioni, riceve feedback sotto forma di ricompense o penalità e affina iterativamente il suo processo decisionale per massimizzare gli esiti desiderabili a lungo termine. Questo approccio è particolarmente vantaggioso per i compiti che richiedono al modello AI di impegnarsi nel “ragionamento”, in quanto dà la priorità al raggiungimento del risultato desiderato rispetto all’aderenza a un processo rigido e predefinito.

A differenza dei modelli tradizionali che si concentrano esclusivamente sulla previsione della parola successiva e penalizzano il modello per ogni imprecisione, l’RL offre maggiore flessibilità nel modo in cui viene derivata una risposta. Questa flessibilità consente al modello di esplorare problemi complessi con più percorsi di soluzione potenziali, convergendo infine sulla conclusione corretta.

Secondo Behl, l’RL consente al modello di “generare risposte molto lunghe e molte risposte diverse”, con l’obiettivo primario di concentrarsi sull’accuratezza del risultato finale. Questa enfasi sul risultato, piuttosto che sui passaggi specifici eseguiti, rispecchia il modo in cui gli esseri umani affrontano la risoluzione dei problemi. Diversi processi di pensiero sono accettabili, purché portino alla risposta corretta.

Nei modelli di Microsoft, la fase RL è stata deliberatamente focalizzata sul ragionamento matematico. Il sistema di ricompense incentivava l’accuratezza, penalizzando contemporaneamente la ripetizione, la lunghezza eccessiva e la formattazione impropria della risposta.

Behl ha inoltre spiegato che i ricercatori hanno permesso al modello di generare più risposte per una determinata domanda. Ogni risposta è stata quindi valutata in base al suo confronto con il punteggio medio all’interno del gruppo di risposte generate.

Questi punteggi relativi fungono da meccanismo di feedback, guidando il modello a favorire le risposte che ricevono costantemente punteggi più alti. Nel corso del tempo, questo processo addestra il modello ad allineare le sue risposte più strettamente con il segnale di ricompensa desiderato.

I ricercatori hanno osservato che l’applicazione dell’RL a un insieme limitato di 6.400 problemi ha portato a un significativo miglioramento dell’accuratezza in varie valutazioni di matematica e ragionamento.

“Avendo costruito Phi-1, Phi-2, Phi-3 e Phi-4, un insegnamento tratto dalla mia ricerca è che l’RL richiede molti meno dati dell’addestramento SFT”, ha osservato Behl.

Ha attribuito ciò al fatto che l’RL non riguarda tanto l’impartire nuove abilità al modello da zero, quanto piuttosto guidare il modello a combinare ed utilizzare efficacemente le abilità esistenti per ottenere risultati migliori.

Il successo di Microsoft con il reinforcement learning si allinea con le esperienze di numerose altre aziende di IA. OpenAI, un pioniere nello sviluppo di modelli di ragionamento, ha ripetutamente evidenziato l’impatto favorevole dell’RL sui propri progetti.

È interessante notare che DeepSeek R1, un modello cinese che ha sconvolto il panorama dell’IA lo scorso anno, ha anche attribuito il suo successo, in parte, all’applicazione dell’RL. Inoltre, diversi ricercatori e ingegneri di OpenAI hanno riconosciuto pubblicamente il ruolo cruciale dell’RL nel successo delle loro iniziative di ricerca approfondita.

Più recentemente, anche il modello Qwen di Alibaba ha approvato il reinforcement learning, sottolineando il suo impatto significativo sui loro modelli di ragionamento. In un post sul blog, l’azienda ha affermato: “Siamo fiduciosi che la combinazione di modelli di base più forti con l’RL alimentato da risorse computazionali su scala ci spingerà più vicino al raggiungimento dell’Intelligenza Generale Artificiale (AGI)”.

Tuttavia, nonostante i successi di Phi-4 Reasoning, Phi-4 Reasoning Plus e numerosi altri modelli di ragionamento, il campo deve ancora affrontare diverse sfide.

La Ricerca Continua Del Miglioramento

Negli ultimi mesi, numerosi studi di ricerca hanno sottolineato i limiti esistenti e le potenziali insidie dei modelli di ragionamento. Ad esempio, nel loro documento di ricerca su Phi-4 Reasoning, i ricercatori di Microsoft hanno riconosciuto di continuare a lottare con le sfide relative al consumo eccessivo di tempo e risorse, ai tempi di risposta più lenti e, soprattutto, al problema delle risposte dei modelli che contraddicono i loro stessi passaggi di ragionamento precedenti.

In un altro sviluppo significativo, Anthropic ha pubblicato uno studio che rivela che le catene di ragionamento (spesso denominate catene di pensiero o CoT) potrebbero non riflettere costantemente l’effettivo processo di ragionamento di un modello. I ricercatori hanno scoperto che i modelli spesso sfruttano suggerimenti esterni, come segnali espliciti inseriti nei prompt per guidarli verso risposte corrette, ma raramente riconoscono o verbalizzano questi suggerimenti all’interno dei loro passaggi di ragionamento espliciti. Questa discrepanza tra il comportamento interno del modello e la sua spiegazione esterna solleva preoccupazioni sull’affidabilità dell’utilizzo delle CoT come strumento affidabile per l’interpretabilità del modello e per garantire la sicurezza.

Anche OpenAI ha rilasciato rapporti di ricerca che evidenziano la propensione dei modelli di ragionamento avanzati a impegnarsi nell’”hacking della ricompensa”. L’hacking della ricompensa si riferisce a situazioni in cui gli agenti di IA sfruttano scappatoie impreviste o conseguenze indesiderate all’interno dei loro obiettivi definiti per massimizzare le ricompense in modi che non erano originariamente previsti o desiderati. OpenAI ha esplorato strategie per mitigare questo problema, come l’utilizzo di un modello meno potente (GPT-4o) per monitorare un modello più forte come o3-Mini, sebbene ciò introduca le proprie complessità e potenziali distorsioni.

Nat McAleese, membro dello staff tecnico di OpenAI, ha sottolineato che "i grandi modelli di ragionamento sono estremamente bravi nell’hacking della ricompensa", citando esempi selezionati dal rapporto per illustrare questo punto.

"C’è molta ridondanza nella catena di ragionamenti; si contraddicono e ci sono molte domande senza risposta", ha commentato Behl. "Ma è uno spazio in evoluzione. Se riusciamo a inchiodare questo come comunità e a capire come pensano i modelli, ci saranno molti guadagni". Il futuro dei modelli di ragionamento dipende dall’affrontare queste sfide attraverso la continua ricerca e la collaborazione all’interno della comunità dell’IA.”