Piccolo Modello Microsoft: Un 'Cheat Code' Matematico

L’Ascesa dei Modelli di Ragionamento Phi-4

Il mondo dell’AI è attualmente affascinato dai modelli di ragionamento, e Microsoft ha recentemente introdotto la famiglia Phi-4 di modelli di inferenza. Questa include Phi-4-reasoning, Phi-4-reasoning-plus, e Phi-4-mini-reasoning. Ciò che è particolarmente degno di nota è che anche il più grande di questi modelli, con soli 14 miliardi di parametri, può funzionare senza problemi su laptop ad alte prestazioni. Inoltre, il Phi-4-mini-reasoning da 3.8 miliardi di parametri supera il modello distillato DeepSeek-R1 da 8 miliardi di parametri nel ragionamento matematico, evidenziando la potenza dei modelli più piccoli nei compiti di inferenza.

Invece di aspettare il rilascio del modello di ragionamento di seconda generazione DeepSeek-R2 ad aprile, Microsoft ha svelato una nuova serie di modelli di ragionamento Phi-4. Questi modelli esibiscono prestazioni eccezionali nel ragionamento matematico, superando il modello distillato DeepSeek-R1, nonostante Phi-4-Mini-Reasoning abbia una scala di parametri più piccola.

Ahmed Awadallah, Partner Research Manager presso il laboratorio Microsoft AI Frontiers, ha descritto il Phi-4-reasoning e ha riassunto le caratteristiche del nuovo modello.

  • Il modello è addestrato con Supervised Fine-tuning (utilizzando un dataset di esempi di ragionamento attentamente selezionato) e Reinforcement Learning.
  • Funziona bene nei benchmark di inferenza e può essere paragonabile a modelli top più grandi come DeepSeek R1.
  • Continua a funzionare fortemente su nuovi test (come AIME 2025, HMMT)
  • L’abilità di ragionamento ha una forte capacità di trasferibilità/generalizzazione, anche dopo solo il supervised fine-tuning, può adattarsi a nuovi compiti (come k-SAT, risoluzione di equazioni matematiche, scheduling, ecc.)
  • Mantiene e migliora notevolmente le capacità generali (come la comprensione e l’esecuzione delle istruzioni)

Ha affermato che Phi-4 ha ancora diversi aspetti che necessitano di miglioramento, specialmente nella lunghezza del contesto, nell’abilità di codifica e nell’integrazione degli strumenti.

Oltre al modello stesso, Microsoft ha anche condiviso un rapporto tecnico dettagliato che fornisce un’analisi approfondita del processo di addestramento e valutazione del modello.

Su X, Dimitris Papailiopoulos, Principal Researcher presso Microsoft Research AI Frontiers laboratory e Associate Professor presso l’University of Wisconsin, ha introdotto ulteriori informazioni sul modello di ragionamento Phi-4.

Crede che Phi-4-reasoning abbia completamente raggiunto il livello di laurea e possa essere eseguito su un PC locale.

Questo ha superato le sue aspettative per lo sviluppo dell’AI.

Il nuovo modello ha pochi parametri ma una forte performance.

Una Potenza di Performance

Nonostante le sue modeste dimensioni, questo modello eccelle nei benchmark di matematica come AIME, HMMT e OmniMath. Si comporta alla pari o supera modelli open-weight più grandi come QwQ-32B, R1-70B e R1, e modelli chiusi come o1-mini e sonnet 3.7.

Questo modello è di piccole dimensioni e adatto per funzionare senza problemi su laptop ad alte prestazioni.

Allo stesso tempo, è in grado di risolvere molti enigmi che anche modelli più grandi non di ragionamento e alcuni modelli di ragionamento non possono risolvere.

Ha anche superato il test DimitrisEval!

Sorprendentemente, il ragionamento sembra essere una “meta-skill” veramente trasferibile che può essere appresa anche attraverso il supervised fine-tuning SFT!

Evidenza 1: Anche senza un addestramento specializzato su compiti non di ragionamento, i ricercatori hanno comunque osservato significativi miglioramenti delle prestazioni su IFEval, FlenQA e PhiBench interno (un aumento di più di 10 punti!).

Inoltre, ci sono pochissimi dati relativi alla codifica durante la fase SFT (e nessuno durante la fase RL), ma il modello funziona comunque bene a riguardo.

Inoltre, Dimitris Papailiopoulos ha rivelato che la programmazione è un focus chiave per le versioni successive.

Evidenza 2: Nel caso di alcuni problemi specifici su cui non è stato esplicitamente addestrato (né fase SFT né RL), come il problema del commesso viaggiatore, la risoluzione di labirinti, k-SAT, la pianificazione vincolata, ecc., il modello si comporta molto bene in questi compiti!

E Phi-4 (e persino GPT-4) non possono farlo.

Questo illustra pienamente che l’abilità di ragionamento può effettivamente essere trasferita come una skill!

Dopo un brevissimo ciclo di reinforcement learning (utilizzando solo 6.000 esempi, rispetto a 1.4 milioni di esempi per SFT), il meccanismo di ragionamento del modello sembra essere “bloccato”.

Questo ha particolarmente scioccato Dimitris Papailiopoulos.

Sente come se il reinforcement learning avesse insegnato al modello a ragionare nella “sua lingua”, aumentando la precisione di circa il 10% su AIME e HMMT, e aumentando la lunghezza media della risposta del 50% nei problemi difficili.

Il reinforcement learning è davvero efficace!!

Il fenomeno del meccanismo di ragionamento che viene “bloccato” di solito rende la distribuzione dell’output del modello più concentrata e anche la precisione è maggiore.

Il fatto che il reinforcement learning possa migliorare significativamente le capacità del modello si è riflesso anche in precedenti ricerche di Microsoft.

Nella fase di reinforcement learning, il nuovo modello non è stato nemmeno ottimizzato appositamente per i dati: 6.000 domande sono state semplicemente selezionate casualmente da una più ampia selezione di dataset.

Quindi perché Microsoft non ha condotto più addestramento di reinforcement learning?

Perché il modello ha generato risposte a domande che superavano la lunghezza del contesto di 32k (la lunghezza su cui il modello non è stato addestrato), potevano solo troncarlo.

Inoltre, con l’aiuto di calcoli di ragionamento paralleli (come Maj@N), il nuovo modello di ragionamento ha quasi raggiunto il limite di prestazioni su AIME 2025, e ha persino superato la performance pass@1 del suo modello insegnante (o3-mini).

E ha completato tutta la raccolta dati prima di febbraio 2025, e così è HMMT.

In altri compiti, i ricercatori hanno anche osservato il fenomeno di “superare l’insegnante”, come i compiti di OmniMath e Calendar Planning.

Il design del prompt nella fase SFT, unito al successivo processo di reinforcement learning, sembra aver dato al modello la capacità di “auto-migliorarsi”, superando la portata della conoscenza fornita dal modello insegnante.

Nella figura sottostante, il magenta rappresenta o3-mini e il verde rappresenta Phi.

Un fenomeno interessante è che: testi lunghi con lunghezze di risposta nel top 25% sono spesso fortemente correlati con risposte sbagliate!

Tuttavia, d’altra parte, nella maggior parte delle valutazioni, la lunghezza media della risposta complessiva è più lunga e la precisione è più alta.

In altre parole, aumentare le risorse di calcolo durante i test aiuta, ma il modello è anche incline a “divagare” quando è “bloccato”.

Per quanto riguarda i limiti del modello, ci sono anche alcune cose a cui prestare attenzione:

  • La capacità di gestire lunghezze di contesto superiori a 32k non è stata completamente ampliata o testata.
  • Il modello è incline a “pensare troppo” quando si tratta di problemi semplici, e può sembrare troppo prolisso nell’autovalutazione.
  • La capacità di dialoghi multi-turn non è stata ampiamente testata.

Naturalmente, ci sono più “punti ciechi” da scoprire, ma nel complesso, il team di ricerca sente di essere sulla strada giusta!

Sorprese di Addestramento

Suriya Gunasekar, Principal Research Manager presso Microsoft Research e appartenente al team “AGI Physics” responsabile dello sviluppo della serie di modelli Phi, si è concentrato sull’introduzione dei principi fondamentali del lavoro.

Questa volta, il team Microsoft Phi si è concentrato sulla fase di post-addestramento e ha lanciato Phi-4-reasoning (utilizzando solo SFT) e Phi-4-reasoning-plus (SFT+ una piccola quantità di RL).

Entrambi sono modelli 14B che hanno dimostrato forti capacità nei benchmark di ragionamento e nei compiti generali.

Il fulcro di questo lavoro risiede nella selezione dei prompt e nell’esplorazione sperimentale di skill di ragionamento trasferibili e auto-miglioranti.

Ci sono state due scoperte sorprendenti durante il processo di addestramento:

In primo luogo, fintanto che vengono utilizzate alcune traiettorie di ragionamento a catena lunga (CoT) addestrate nel dominio, Phi-4 può ottenere significativi miglioramenti delle prestazioni in più compiti come la pianificazione, la risoluzione di labirinti (senza input visivo), IFEva, FlenQA, KITAB (question answering basato sulla ricerca) e PhiBench interno;

In secondo luogo, anche se vengono utilizzati solo 6.000 esempi matematici per un addestramento RL minimo, le prestazioni del modello sono significativamente migliorate in alcuni benchmark, con il miglioramento più alto che raggiunge il 10% (ma l’utilizzo di token è aumentato di circa 1,5 volte), ed è stato osservato anche il trasferimento inter-dominio di skill durante la fase RL.

In altre parole, rispetto ai principali concorrenti come OpenAI e Google, la serie di ragionamento Microsoft Phi-4 dimostra nuove possibilità: i modelli piccoli possono eguagliare o persino superare i modelli grandi in compiti specifici utilizzando dati di alta qualità e strategie di addestramento raffinate.

Metodi Fondamentali

Il modello di ragionamento Phi-4-reasoning ha 14 miliardi di parametri e si comporta fortemente in compiti di ragionamento complessi.

Il modello è basato su Phi-4 per l’addestramento di supervised fine-tuning, utilizzando un set attentamente selezionato di prompt “insegnabili” che hanno sia una complessità appropriata che una diversità; gli esempi di ragionamento generati da o3-mini vengono utilizzati come riferimenti durante il processo di addestramento.

Phi-4-reasoning può generare catene di ragionamento dettagliate e sfruttare appieno le risorse di calcolo durante il processo di ragionamento.

Su questa base, Microsoft ha ulteriormente sviluppato Phi-4-reasoning-plus.

È potenziato sulla base del modello originale attraverso una piccola fase di reinforcement learning basato sui risultati e genera catene di ragionamento più lunghe e più potenti.

La ricerca mostra che un dataset SFT ben progettato può migliorare significativamente l’effetto dei modelli linguistici di ragionamento e il reinforcement learning (RL) può ulteriormente amplificare questo miglioramento su questa base.

Negli esperimenti SFT, anche in questa impostazione di generazione relativamente semplice, un’attenta selezione e un filtraggio rigoroso dei problemi iniziali sono ancora fondamentali per il successo del modello.

Hanno sottoposto l’intero set di dati di addestramento a un rigoroso processo di decontaminazione per garantire che non contenga dati che si sovrappongono fortemente a domande di ragionamento o benchmark generali ampiamente utilizzati, inclusi alcuni benchmark non menzionati in questo rapporto.

L’elenco completo dei test benchmark che sono stati decontaminati è il seguente:

  • Matematica e Ragionamento: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Programmazione: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Question Answering e Conoscenza Generale: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Altri Compiti di Valutazione: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Attraverso il Supervised Finetuning (SFT) del modello Phi-4 con 14 miliardi di parametri, i ricercatori hanno ottenuto Phi-4-reasoning, senza alcun reinforcement learning prima di ciò.

L’obiettivo SFT è quello di affinare l’abilità di ragionamento strutturato contenuta nel modello di base.

L’architettura di Phi-4-reasoning è la stessa del modello Phi-4, ma con due modifiche chiave:

  • Token di ragionamento: I due token placeholder nel modello di base vengono riutilizzati come e token, che vengono utilizzati per contrassegnare l’inizio e la fine di un processo di ragionamento (“pensiero”).
  • Aumento della Lunghezza dei Token: La lunghezza massima dei token inizialmente supportata dal modello di base (Phi-4) era di 16K. Al fine di accogliere ulteriori token di ragionamento, la frequenza di base di RoPE è stata raddoppiata e il modello è stato addestrato a una lunghezza massima dei token di 32K.

Hanno usato un metodo sintetico per generare un gran numero di esempi di ragionamento a catena di pensiero.

Il dataset SFT utilizzato contiene più di 1.4 milioni di coppie prompt-risposta, per un totale di 8.3 miliardi di token unici, che coprono campi di ragionamento come la matematica e la programmazione, nonché dati di allineamento per un’AI sicura e responsabile.

La Figura 4a mostra i cambiamenti negli indicatori chiave durante tutto il processo di iterazione SFT.

All’inizio dell’addestramento, il modello ha iniziato a utilizzare token di “pensiero” espliciti, il che indica che il modello ha rapidamente imparato questo formato strutturato superficiale.

Tuttavia, come mostrato nella Figura 4a, l’efficacia del modulo a catena di pensiero e l’abilità di ragionamento del modello stanno migliorando durante tutto il processo di addestramento, il che indica che il modello non sta solo copiando il formato, ma sta effettivamente imparando skill di ragionamento.

È interessante notare che, a differenza del reinforcement learning, i ricercatori non hanno visto un aumento della lunghezza della risposta durante il processo SFT.

Infatti, come mostrato nella Figura 4b, la lunghezza media della risposta è leggermente diminuita.

Questo dimostra che, man mano che l’addestramento progredisce, il modello sta imparando a utilizzare il suo budget di token in modo più efficace.

Al fine di valutare sistematicamente diverse strategie di addestramento, hanno utilizzato un benchmark fisso - AIME 2024 e GPQA diamond - come indicatore di progresso.

Nel complesso, il metodo sperimentale può essere suddiviso in due fasi: esplorazione e scalatura.

Nella fase di esplorazione, i ricercatori hanno utilizzato cicli di addestramento più brevi e fonti e campi di dati limitati per iterare rapidamente ed estrarre metodi di addestramento robusti.

Nella successiva fase di espansione, i ricercatori hanno riassunto i risultati dei primi esperimenti di riduzione del rischio e hanno finalizzato le impostazioni SFT.

La Figura 5 riassume questo progresso, evidenziando gli esperimenti di ablazione per diverse scelte di design chiave.

La Figura 5 mostra una panoramica di alto livello del ciclo sperimentale di supervised fine-tuning (SFT) di Phi-4-reasoning, comprese le fasi di esplorazione ed espansione, utilizzando alcuni esperimenti di esempio per rappresentare. Ogni cluster di punti rappresenta i risultati sperimentali di una specifica scelta di design dell’addestramento.

La Figura 7 mostra i risultati chiave del modello Phi-4-reasoning-plus durante il processo di addestramento GRPO.

A partire dal modello di base di supervised fine-tuning (SFT) Phi-4-reasoning, solo 90 passaggi di addestramento GRPO hanno aumentato le prestazioni di AIME di oltre il 10% (Figura 7a).

Continuare ad aumentare il numero di passaggi di addestramento non ha portato ulteriori vantaggi, il che indica che il potenziale di un forte modello SFT è vicino al soffitto delle prestazioni. Va notato che l’output nell’addestramento GRPO è limitato a un massimo di 31k token, il che limita oggettivamente lo spazio di ottimizzazione di GRPO.

Come mostrato nella Figura 7c, la lunghezza della risposta è fortemente correlata con le prestazioni di AIME, mentre la correlazione tra il punteggio di ricompensa e il punteggio di AIME è debole. Questo effetto di crescita della lunghezza della risposta è l’effetto previsto dell’addestramento GRPO: il modello migliora la sua abilità di ragionamento aumentando il “tempo di pensiero”.

La Figura 7d rivela ulteriormente che, a causa del design del modello di ricompensa, la lunghezza di generazione delle risposte sbagliate cresce significativamente più velocemente delle risposte corrette (quando la risposta corrente del modello è sbagliata, il sistema lo incoraggerà a pensare per un periodo di tempo più lungo).

Infatti, eseguire un campionamento di rifiuto basato esclusivamente sulla lunghezza della risposta (specialmente le risposte lunghe che superano significativamente la mediana) può ulteriormente migliorare le prestazioni di GRPO.

Come mostrato nella Figura 7d, l’andamento della crescita delle risposte più brevi (la lunghezza si trova nel quantile inferiore del 25%) durante il processo di addestramento è simile alla lunghezza media delle risposte corrette, mentre la lunghezza delle risposte sbagliate è più vicina al quantile del 75% della lunghezza complessiva della risposta.

Questo fenomeno di differenziazione indica che il campionamento di rifiuto basato sulla lunghezza può migliorare l’efficienza del modello sopprimendo output errati eccessivamente lunghi.