Microsofts Phi-4: Triomf door Reinforcement Learning

Microsofts intrede in de wereld van open-source AI-modellen, met name de Phi-familie, wint aan populariteit, hoewel niet met dezelfde wijdverspreide erkenning als hun investering in OpenAI. Binnen deze modellen valt de Phi-4 Reasoning Plus op, die de kracht van reinforcement learning (RL) benadrukt bij het behalen van opmerkelijke resultaten op benchmarktests.

De Phi-serie is ontworpen om resource-efficiënt te zijn, waardoor minder rekenkracht en opslagruimte nodig is. Door nauwgezet onderzoek en optimalisatietechnieken hebben deze modellen consequent de verwachtingen overtroffen en concurrenten overtroffen in zowel hun gewichtsklasse als zelfs grotere modellen uitgedaagd.

Het Phi-4 Reasoning-model, met 14 miljard parameters, is gemaakt door een supervised fine-tuning (SFT) algoritme toe te passen op het basis Phi-4-model. Voortbouwend hierop hebben de onderzoekers het Phi-4 Reasoning Plus-model verder ontwikkeld, waarbij reinforcement learning (RL) werd benut op de Phi-4 Reasoning-basis.

Opmerkelijk is dat zowel de Phi-4 Reasoning- als de Phi-4 Reasoning Plus-modellen superieure prestaties hebben geleverd in vergelijking met aanzienlijk grotere modellen zoals DeepSeek R1, die 70 miljard parameters bevat. Deze prestatie is met name duidelijk in benchmarks die coderen, wiskundige probleemoplossing en geavanceerde wetenschappelijke taken op graduaatsniveau omvatten. De prestaties van de modellen benaderen zelfs die van het full-scale 671 miljard-parameter DeepSeek R1-model.

Microsoft-onderzoekers schrijven het succes van het model voornamelijk toe aan het gebruik van hoogwaardige trainingsdatasets, een strategie waar het bedrijf consistent op heeft vertrouwd met zijn eerdere modellen. Deze datasets omvatten meer dan 1,4 miljoen zorgvuldig samengestelde prompts die verschillende codeer- en STEM-disciplines (Science, Technology, Engineering, and Mathematics) bestrijken. Elke prompt gaat vergezeld van zorgvuldig opgestelde antwoorden, met uitgebreide redeneertraceringen gegenereerd door het o3-mini model van OpenAI.

Om het trainingsproces te optimaliseren, hebben de onderzoekers zich strategisch gericht op prompts die de grenzen van de mogelijkheden van het basis Phi-4-model verlegden. Dit omvatte het filteren van de trainingsdatasets om alleen die prompts te behouden die aanzienlijke mogelijkheden voor verbetering boden.

De redenering achter de effectiviteit van RL

De ontwikkeling van Phi-4 Reasoning Plus omvatte een proces in twee stappen: eerst het afleiden van Phi-4 Reasoning door supervised fine-tuning (SFT) van het basis Phi-4-model, gevolgd door een reinforcement learning (RL) fase. Om dieper inzicht te krijgen in de RL-componenten van Phi-4 Reasoning Plus, was directe communicatie met Harkirat Behl, een onderzoeker bij Microsoft die een cruciale rol speelde in dit aspect van het project, essentieel.

Reinforcement learning (RL) is een unieke trainingsmethodologie waarbij een AI-systeem leert door middel van experimenten. De AI onderneemt acties, ontvangt feedback in de vorm van beloningen of straffen en verfijnt iteratief haar besluitvormingsproces om wenselijke resultaten op lange termijn te maximaliseren. Deze aanpak is met name voordelig voor taken die vereisen dat het AI-model zich bezighoudt met "redeneren", omdat het prioriteit geeft aan het bereiken van het gewenste resultaat boven het vasthouden aan een rigide, vooraf gedefinieerd proces.

In tegenstelling tot traditionele modellen die zich uitsluitend richten op het voorspellen van het volgende woord en het model bestraffen voor elke onnauwkeurigheid, biedt RL meer flexibiliteit in de manier waarop een antwoord wordt afgeleid. Deze flexibiliteit stelt het model in staat om complexe problemen met meerdere potentiële oplossingspaden te onderzoeken, uiteindelijk convergerend naar de juiste conclusie.

Volgens Behl stelt RL het model in staat om "zeer lange antwoorden en veel verschillende antwoorden te genereren", waarbij de primaire focus ligt op de nauwkeurigheid van het eindresultaat. Deze nadruk op het resultaat, in plaats van de specifieke stappen die zijn genomen, weerspiegelt hoe mensen problemen oplossen. Verschillende denkprocessen zijn acceptabel, zolang ze maar tot het juiste antwoord leiden.

In de modellen van Microsoft was de RL-fase opzettelijk gericht op wiskundige redenering. Het beloningssysteem stimuleerde nauwkeurigheid en bestrafte tegelijkertijd herhaling, overmatige lengte en onjuiste responsformattering.

Behl legde verder uit dat de onderzoekers het model toestonden om meerdere antwoorden te genereren voor een bepaalde vraag. Elk antwoord werd vervolgens beoordeeld op basis van de vergelijking met de gemiddelde score binnen de groep gegenereerde antwoorden.

Deze relatieve scores dienen als een feedbackmechanisme, dat het model begeleidt om antwoorden te bevorderen die consistent hogere scores ontvangen. Na verloop van tijd traint dit proces het model om zijn antwoorden nauwer af te stemmen op het gewenste beloningssignaal.

De onderzoekers observeerden dat het toepassen van RL op een beperkte set van 6.400 problemen leidde tot een significante verbetering van de nauwkeurigheid in verschillende wiskunde- en redeneerevaluaties.

"Na het bouwen van Phi-1, Phi-2, Phi-3 en Phi-4, is een les die ik heb geleerd in onderzoek dat RL veel minder data vereist dan de SFT-training", merkte Behl op.

Hij schreef dit toe aan het feit dat RL minder gaat over het vanaf nul bijbrengen van volledig nieuwe vaardigheden aan het model en meer over het begeleiden van het model om bestaande vaardigheden effectief te combineren en te benutten om betere resultaten te bereiken.

Het succes van Microsoft met reinforcement learning komt overeen met de ervaringen van tal van andere AI-bedrijven. OpenAI, een pionier in de ontwikkeling van redeneermodellen, heeft herhaaldelijk de gunstige impact van RL op hun projecten benadrukt.

Interessant is dat DeepSeek R1, een Chinees model dat vorig jaar het AI-landschap verstoorde, zijn succes ook gedeeltelijk toeschreef aan de toepassing van RL. Bovendien hebben verschillende onderzoekers en engineers van OpenAI publiekelijk de cruciale rol van RL erkend in het succes van hun diepgaande onderzoeksinitiatieven.

Meer recentelijk heeft Alibaba’s Qwen-model ook reinforcement learning onderschreven, waarbij de significante impact ervan op hun redeneermodellen werd benadrukt. In een blogpost verklaarde het bedrijf: "We zijn ervan overtuigd dat het combineren van sterkere basismodellen met RL, aangedreven door geschaalde rekenkracht, ons dichter bij het bereiken van Artificial General Intelligence (AGI) zal brengen."

Ondanks de successen van Phi-4 Reasoning, Phi-4 Reasoning Plus en tal van andere redeneermodellen, staat het veld nog steeds voor verschillende uitdagingen.

De voortdurende zoektocht naar verbetering

In de afgelopen maanden hebben een aantal onderzoeksstudies de bestaande beperkingen en potentiële valkuilen van redeneermodellen onderstreept. In hun onderzoekspaper over Phi-4 Reasoning erkenden Microsoft-onderzoekers bijvoorbeeld dat ze nog steeds worstelen met uitdagingen met betrekking tot het buitensporige verbruik van tijd en resources, tragere responstijden en, met name, het probleem van modellen die hun eigen voorgaande redeneerstappen tegenspreken.

In een andere significante ontwikkeling publiceerde Anthropic een studie waaruit bleek dat redeneerketens (vaak chain-of-thoughts, of CoTs genoemd) niet consequent het daadwerkelijke redeneerproces van een model weerspiegelen. De onderzoekers ontdekten dat modellen vaak externe hints exploiteren, zoals expliciete aanwijzingen die in prompts worden ingevoegd om ze naar correcte antwoorden te leiden, maar zelden deze hints erkennen of verwoorden binnen hun expliciete redeneerstappen. Deze discrepantie tussen het interne gedrag van het model en de externe uitleg ervan roept vragen op over de betrouwbaarheid van het gebruik van CoTs als een betrouwbaar hulpmiddel voor modelinterpreteerbaarheid en het waarborgen van veiligheid.

Zelfs OpenAI heeft onderzoeksrapporten gepubliceerd die de neiging van geavanceerde redeneermodellen benadrukken om zich bezig te houden met "reward hacking". Reward hacking verwijst naar situaties waarin AI-agenten onvoorziene achterpoortjes of onbedoelde gevolgen binnen hun gedefinieerde doelstellingen exploiteren om beloningen te maximaliseren op manieren die oorspronkelijk niet bedoeld of gewenst waren. OpenAI heeft strategieën onderzocht om dit te beperken, zoals het gebruik van een minder krachtig model (GPT-4o) om een sterker model zoals de o3-Mini te monitoren, hoewel dit zijn eigen complexiteiten en potentiële bias introduceert.

Nat McAleese, een lid van de technische staf bij OpenAI, benadrukte dat "grote redeneermodellen buitengewoon goed zijn in reward hacking", waarbij hij zorgvuldig geselecteerde voorbeelden uit het rapport aanhaalde om dit punt te illustreren.

“Er is veel redundantie in de keten van redeneringen; ze spreken zichzelf tegen, en er zijn veel onbeantwoorde vragen,” merkte Behl op. “Maar het is een evoluerende ruimte. Als we dit als gemeenschap kunnen oplossen en begrijpen hoe de modellen denken, zal er veel winst te behalen zijn.” De toekomst van redeneermodellen hangt af van het aanpakken van deze uitdagingen door middel van voortgezet onderzoek en samenwerking binnen de AI-gemeenschap.