De Opkomst van de Phi-4 Redeneermodellen
De AI-wereld is momenteel gefascineerd door redeneermodellen, en Microsoft heeft recentelijk de Phi-4 familie van inferentiemodellen geïntroduceerd. Dit omvat Phi-4-reasoning, Phi-4-reasoning-plus, en Phi-4-mini-reasoning. Wat bijzonder opmerkelijk is, is dat zelfs het grootste van deze modellen, met een bescheiden 14 miljard parameters, soepel kan draaien op high-performance laptops. Bovendien overtreft de 3.8 miljard parameter Phi-4-mini-reasoning het 8 miljard parameter DeepSeek-R1 gedistilleerde model in wiskundig redeneren, wat de kracht van kleinere modellen in inferentietaken benadrukt.
In plaats van te wachten op de release van de tweede generatie DeepSeek-R2 redeneermodel in april, onthulde Microsoft een nieuwe reeks Phi-4 redeneermodellen. Deze modellen vertonen uitzonderlijke prestaties in wiskundig redeneren en overtreffen het DeepSeek-R1 gedistilleerde model, ondanks dat Phi-4-Mini-Reasoning een kleinere parameterschaal heeft.
Ahmed Awadallah, Partner Research Manager bij Microsoft AI Frontiers laboratory, beschreef de Phi-4-reasoning en vatte de kenmerken van het nieuwe model samen.
- Het model is getraind met Supervised Fine-tuning (met behulp van een zorgvuldig geselecteerde redeneervoorbeeld dataset) en Reinforcement Learning.
- Het presteert goed in inferentie benchmarks en is vergelijkbaar met grotere topmodellen zoals DeepSeek R1.
- Het blijft sterk presteren op nieuwe tests (zoals AIME 2025, HMMT)
- Redeneervermogen heeft een sterke overdraagbaarheid/generalisatievermogen, zelfs na slechts supervised fine-tuning, kan het zich aanpassen aan nieuwe taken (zoals k-SAT, wiskundige vergelijkingen oplossen, planning, enz.)
- Behoudt en verbetert in grote mate algemene mogelijkheden (zoals instructiebegrip en uitvoering)
Hij verklaarde dat Phi-4 nog steeds verschillende aspecten heeft die verbetering behoeven, vooral in contextlengte, coderingsvermogen en toolintegratie.
Naast het model zelf deelde Microsoft ook een gedetailleerd technisch rapport dat een diepgaande analyse biedt van het trainings- en evaluatieproces van het model.
Op X introduceerde Dimitris Papailiopoulos, Principal Researcher bij Microsoft Research AI Frontiers laboratory en Associate Professor aan de University of Wisconsin, meer informatie over het Phi-4 redeneermodel.
Hij gelooft dat Phi-4-reasoning het graduate niveau volledig heeft bereikt en op een lokale pc kan worden uitgevoerd.
Dit overtrof zijn verwachtingen voor de ontwikkeling van AI.
Het nieuwe model heeft weinig parameters maar sterke prestaties.
Een Prestatie Krachtpatser
Ondanks zijn bescheiden omvang blinkt dit model uit in wiskundebenchmarks zoals AIME, HMMT en OmniMath. Het presteert op hetzelfde niveau als of overtreft grotere open-weight modellen zoals QwQ-32B, R1-70B en R1, en gesloten modellen zoals o1-mini en sonnet 3.7.
Dit model is klein van formaat en geschikt om soepel te draaien op high-performance laptops.
Tegelijkertijd is het in staat om veel puzzels op te lossen die zelfs grotere niet-redenerende modellen en sommige redenerende modellen niet kunnen oplossen.
Het heeft ook de DimitrisEval test doorstaan!
Verrassend genoeg lijkt redeneren een echt overdraagbare ‘meta-vaardigheid’ te zijn die zelfs via supervised fine-tuning SFT kan worden geleerd!
Bewijs 1: Zelfs zonder gespecialiseerde training op niet-redeneertaken observeerden onderzoekers nog steeds significante prestatieverbeteringen op IFEval, FlenQA en interne PhiBench (een toename van meer dan 10 punten!).
Daarnaast is er heel weinig data gerelateerd aan codering tijdens de SFT-fase (en helemaal geen tijdens de RL-fase), maar het model presteert nog steeds goed in dit opzicht.
Bovendien onthulde Dimitris Papailiopoulos dat programmeren een belangrijke focus is voor volgende versies.
Bewijs 2: In het geval van sommige specifieke problemen waarop niet expliciet is getraind (hetzij SFT- of RL-fase), zoals het handelsreizigersprobleem, het oplossen van doolhoven, k-SAT, constrained planning, enz., presteert het model zeer goed in deze taken!
En Phi-4 (en zelfs GPT-4) kan dit niet.
Dit illustreert volledig dat redeneervermogen inderdaad kan worden overgedragen als een vaardigheid!
Na een zeer korte ronde van reinforcement learning (met slechts 6.000 samples, vergeleken met 1,4 miljoen voorbeelden voor SFT), lijkt het redeneermechanisme van het model ‘vergrendeld’ te zijn.
Dit maakte Dimitris Papailiopoulos bijzonder geschokt.
Hij voelt dat het is alsof reinforcement learning het model heeft geleerd om te redeneren in ‘zijn eigen taal’, waardoor de nauwkeurigheid met ongeveer 10% toeneemt op AIME en HMMT, en de gemiddelde antwoordlengte met 50% toeneemt in moeilijke problemen.
Reinforcement learning is echt effectief!!
Het fenomeen van het redeneermechanisme dat ‘vergrendeld’ wordt, maakt de outputdistributie van het model meestal meer geconcentreerd en de nauwkeurigheid is ook hoger.
Het feit dat reinforcement learning de mogelijkheden van het model aanzienlijk kan verbeteren, is ook weerspiegeld in eerder onderzoek van Microsoft.
In de reinforcement learning fase werd het nieuwe model niet eens speciaal geoptimaliseerd voor data: 6.000 vragen werden gewoon willekeurig geselecteerd uit een grotere selectie van datasets.
Dus waarom heeft Microsoft niet meer reinforcement learning training uitgevoerd?
Omdat het model antwoorden genereerde op vragen die de 32k contextlengte overschreden (de lengte waarop het model niet was getraind), konden ze het alleen afkappen.
Bovendien heeft het nieuwe redeneermodel, met behulp van parallelle redeneerberekeningen (zoals Maj@N), bijna de prestatielimiet bereikt op AIME 2025, en zelfs de pass@1 prestaties van zijn leermodel (o3-mini) overtroffen.
En voltooide alle dataverzameling vóór februari 2025, en dus is HMMT.
In andere taken hebben onderzoekers ook het fenomeen ‘het overtreffen van de leraar’ waargenomen, zoals OmniMath en Calendar Planning taken.
Het promptontwerp in de SFT-fase, in combinatie met het daaropvolgende reinforcement learning proces, lijkt het model het vermogen te hebben gegeven om zichzelf te ‘verbeteren’, waardoor de reikwijdte van kennis die door het leermodel wordt verstrekt, wordt overschreden.
In de onderstaande figuur vertegenwoordigt magenta o3-mini en groen Phi.
Een interessant fenomeen is dat: lange teksten met responslengtes in de top 25% vaak sterk gecorreleerd zijn met foute antwoorden!
Echter, aan de andere kant, in de meeste evaluaties is de totale gemiddelde antwoordlengte langer en de nauwkeurigheid hoger.
Met andere woorden, het verhogen van computerbronnen tijdens het testen helpt wel, maar het model is ook vatbaar voor ‘dwalen’ als het ‘vastzit’.
Met betrekking tot de beperkingen van het model zijn er ook enkele dingen om op te letten:
- Het vermogen om contextlengtes van meer dan 32k te verwerken, is niet volledig uitgebreid of getest.
- Het model is vatbaar voor ‘overdenken’ bij het omgaan met eenvoudige problemen en kan te uitgebreid lijken in zelfbeoordeling.
- Het vermogen van multi-turn dialogen is niet uitgebreid getest.
Natuurlijk zijn er meer ‘blinde vlekken’ te ontdekken, maar over het algemeen heeft het onderzoeksteam het gevoel dat ze op de goede weg zijn!
Training Verrassingen
Suriya Gunasekar, Principal Research Manager bij Microsoft Research en behorend tot het ‘AGI Physics’ team dat verantwoordelijk is voor het ontwikkelen van de Phi-serie modellen, concentreerde zich op het introduceren van de kernprincipes van het werk.
Deze keer richtte het Microsoft Phi-team zich op de post-trainingsfase en lanceerde Phi-4-reasoning (met alleen SFT) en Phi-4-reasoning-plus (SFT + een kleine hoeveelheid RL).
Beide zijn 14B modellen die sterke mogelijkheden hebben aangetoond in redeneren en algemene taakbenchmarks.
De kern van dit werk ligt in promptselectie en experimentele verkenning van overdraagbare, zelfverbeterende redeneervaardigheden.
Er waren twee verrassende ontdekkingen tijdens het trainingsproces:
Ten eerste, zolang er een paar domein-getrainde lange-keten redenerings (CoT) trajecten worden gebruikt, kan Phi-4 significante prestatieverbeteringen bereiken in meerdere taken, zoals planning, het oplossen van doolhoven (zonder visuele input), IFEva, FlenQA, KITAB (lookup-gebaseerde vraag beantwoording) en interne PhiBench;
Ten tweede, zelfs als slechts 6.000 wiskundige voorbeelden worden gebruikt voor minimale RL-training, worden de prestaties van het model aanzienlijk verbeterd in sommige benchmarks, met de hoogste verbetering die 10% bereikt (maar het tokengebruik steeg met ongeveer 1,5 keer), en er werd ook cross-domein overdracht van vaardigheden waargenomen tijdens de RL-fase.
Met andere woorden, in vergelijking met grote concurrenten zoals OpenAI en Google, demonstreert de Microsoft Phi-4 redeneerserie nieuwe mogelijkheden: kleine modellen kunnen overeenkomen met of zelfs grotere modellen overtreffen in specifieke taken door gebruik te maken van hoogwaardige data en verfijnde trainingsstrategieën.
Kernmethoden
Redeneermodel Phi-4-reasoning heeft 14 miljard parameters en presteert sterk in complexe redeneertaken.
Het model is gebaseerd op Phi-4 voor supervised fine-tuning training, met behulp van een zorgvuldig geselecteerde set van ‘leerbare’ prompts die zowel een passende complexiteit als diversiteit hebben; de redeneervoorbeelden die door o3-mini worden gegenereerd, worden gebruikt als referenties tijdens het trainingsproces.
Phi-4-reasoning kan gedetailleerde redeneerketens genereren en computing resources optimaal benutten tijdens het redeneerproces.
Op basis hiervan heeft Microsoft verder Phi-4-reasoning-plus ontwikkeld.
Het is verbeterd op basis van het originele model door een kleine fase van outcome-based reinforcement learning en genereert langere en krachtigere redeneerketens.
Onderzoek toont aan dat een goed ontworpen SFT-dataset het effect van redeneertaalmodellen aanzienlijk kan verbeteren, en reinforcement learning (RL) kan deze verbetering verder versterken op deze basis.
Zelfs in deze relatief eenvoudige generatie-omgeving zijn zorgvuldige selectie en strenge filtering van seed-problemen cruciaal voor het succes van het model in SFT-experimenten.
Ze hebben de volledige set trainingsdata onderworpen aan een strenge de-verontreinigingsproces om ervoor te zorgen dat deze geen data bevat die sterk overlapt met veelgebruikte redenerings- of algemene benchmarkvragen, waaronder enkele benchmarks die niet in dit rapport worden genoemd.
De volledige lijst van benchmarktests die zijn gedecontamineerd, is als volgt:
- Wiskunde en redeneren: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- Programmeren: LiveCodeBench, Codeforces, HumanEval, MBPP
- Vraag beantwoording en algemene kennis: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- Andere evaluatietaken: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
Door Supervised Finetuning (SFT) van het Phi-4 model met 14 miljard parameters verkregen onderzoekers Phi-4-reasoning, zonder enige reinforcement learning daarvoor.
Het SFT-doel is om het gestructureerde redeneervermogen in het basismodel te verfijnen.
De architectuur van Phi-4-reasoning is hetzelfde als die van het Phi-4-model, maar met twee belangrijke wijzigingen:
- Redeneer tokens: De twee placeholder tokens in het basismodel worden hergebruikt als en tokens, die worden gebruikt om het begin en einde van een redenerings- (‘denk’) proces te markeren.
- Verhoogde Token Lengte: De maximale tokenlengte die aanvankelijk door het basismodel (Phi-4) werd ondersteund, was 16K. Om extra redeneertokens te kunnen verwerken, werd de basisfrequentie van RoPE verdubbeld en werd het model getraind op een maximale tokenlengte van 32K.
Ze gebruikten een synthetische methode om een groot aantal chain-of-thought redeneervoorbeelden te genereren.
De gebruikte SFT-dataset bevat meer dan 1,4 miljoen prompt-response paren, in totaal 8,3 miljard unieke tokens, die redeneergebieden zoals wiskunde en programmeren omvatten, evenals alignmentdata voor veilige en verantwoorde AI.
Figuur 4a toont de veranderingen in belangrijke indicatoren gedurende het SFT-iteratieproces.
Vroeg in de training begon het model expliciete ‘denk’-tokens te gebruiken, wat aangeeft dat het model deze ondiepe gestructureerde indeling snel leerde.
Zoals weergegeven in figuur 4a, verbeteren de effectiviteit van de chain-of-thought module en het redeneervermogen van het model echter gedurende het trainingsproces, wat aangeeft dat het model niet alleen de indeling kopieert, maar daadwerkelijk redeneervaardigheden leert.
Interessant is dat onderzoekers, in tegenstelling tot reinforcement learning, geen toename van de responslengte zagen tijdens het SFT-proces.
Zoals weergegeven in figuur 4b, is de gemiddelde responslengte zelfs enigszins afgenomen.
Dit laat zien dat het model, naarmate de training vordert, leert om zijn tokenbudget effectiever te gebruiken.
Om verschillende trainingsstrategieën systematisch te evalueren, gebruikten ze een vaste benchmark - AIME 2024 en GPQA diamond - als een indicator van vooruitgang.
Over het algemeen kan de experimentele methode worden onderverdeeld in twee fasen: verkenning en schaling.
In de verkenningsfase gebruikten onderzoekers kortere trainingscycli en beperkte databronnen en -velden om snel te itereren en robuuste trainingsmethoden te extraheren.
In de daaropvolgende uitbreidingsfase hebben onderzoekers de resultaten van vroege risicoverminderings-experimenten samengevat en de SFT-instellingen voltooid.
Figuur 5 vat deze voortgang samen en benadrukt ablatie-experimenten voor verschillende belangrijke ontwerpkeuzes.
Figuur 5 toont een algemeen overzicht van de Phi-4-reasoning supervised fine-tuning (SFT) experimentele cyclus, inclusief verkenning- en uitbreidingsfasen, met behulp van enkele voorbeeldexperimenten om te vertegenwoordigen. Elke puntcluster vertegenwoordigt de experimentele resultaten van een specifieke trainingsontwerpkeuze.
Figuur 7 toont de belangrijkste bevindingen van het Phi-4-reasoning-plus model tijdens het GRPO-trainingsproces.
Beginnend met het supervised fine-tuning (SFT) basismodel Phi-4-reasoning, verhoogde slechts 90 stappen van GRPO-training de AIME-prestaties met meer dan 10% (figuur 7a).
Het verder verhogen van het aantal trainingsstappen bracht geen extra voordelen, wat aangeeft dat het potentieel van een sterk SFT-model dicht bij het prestatieplafond ligt. Er moet worden opgemerkt dat de output in GRPO-training beperkt is tot binnen 31k tokens, wat objectief de optimalisatieruimte van GRPO beperkt.
Zoals weergegeven in figuur 7c, is de responslengte sterk gecorreleerd met de AIME-prestaties, terwijl de correlatie tussen de beloningsscore en de AIME-score zwak is. Dit responslengte-groeieffect is het verwachte effect van GRPO-training - het model verbetert zijn redeneervermogen door de ‘denktijd’ te verlengen.
Figuur 7d onthult verder dat de generatielengte van foute antwoorden aanzienlijk sneller groeit dan correcte antwoorden als gevolg van het ontwerp van het beloningsmodel (wanneer het huidige antwoord van het model fout is, zal het systeem het aanmoedigen om langer na te denken).
In feite kan het uitvoeren van rejection sampling uitsluitend op basis van responslengte (vooral lange responses die de mediaan aanzienlijk overschrijden) de GRPO-prestaties verder verbeteren.
Zoals weergegeven in figuur 7d, is de groeitrend van kortere responses (lengte gelegen in de onderste 25% kwantiel) tijdens het trainingsproces vergelijkbaar met de gemiddelde lengte van correcte antwoorden, terwijl de lengte van foute antwoorden dichter bij de 75% kwantiel van de algehele responslengte ligt.
Dit differentiatiefenomeen geeft aan dat lengte-gebaseerde rejection sampling de modelefficiëntie kan verbeteren door overdreven lange onjuiste outputs te onderdrukken.