Microsoft Research heeft Phi-4 gelanceerd, een klein taalmodel met 14 miljard parameters, dat is ontworpen om de lat voor wiskundig redeneren hoger te leggen. Dit model, oorspronkelijk beschikbaar op Azure AI Foundry, is nu open source beschikbaar gesteld op Hugging Face onder een MIT-licentie.
Innovaties van Phi-4
Volgens Microsoft presteert Phi-4 beter dan vergelijkbare en grotere modellen op het gebied van wiskundig redeneren. Dit is te danken aan verschillende innovatieve technieken die tijdens de training zijn gebruikt, waaronder:
- Synthetische data pre-training en mid-training: Het gebruik van synthetische data voor pre-training en mid-training biedt het model een meer gestructureerd leertraject.
- Organisch databeheer: Zorgvuldig samengestelde en gefilterde organische data garanderen de kwaliteit van de trainingsdata.
- Nieuwe post-trainingsschema’s: Het toepassen van nieuwe post-trainingsmethoden verbetert de prestaties van het model verder.
Deze innovaties zorgen ervoor dat Phi-4 zijn leermodel GPT-4o overtreft op het gebied van STEM-georiënteerde vraag- en antwoordmogelijkheden. Dit bewijst dat de datageneratie en post-trainingstechnieken van Microsoft meer zijn dan alleen kennisdestillatie.
De unieke voordelen van synthetische data
Het gebruik van synthetische data is niet nieuw bij het trainen van grote taalmodellen (LLM’s), en de Phi-modellen hebben deze methode ook eerder gebruikt. Microsoft wijst erop dat synthetische data geen goedkoop alternatief is, maar dat het beter is dan organische data in de volgende opzichten:
- Meer geleidelijk leertraject: Synthetische data kan LLM’s stap voor stap laten leren, van de initiële probleemstelling tot de uiteindelijke oplossing. Hierdoor wordt het redeneerproces gemakkelijker te begrijpen.
- Betere afstemming op de redeneeromgeving: In tegenstelling tot organische data, die een probleemstelling en een uiteindelijke oplossing bevatten, kan synthetische data een gedetailleerder stapsgewijs redeneerproces bieden, dat beter aansluit bij de daadwerkelijke redeneerscenario’s.
Zorgvuldig samengestelde organische data
Naast synthetische data heeft Microsoft ook gebruikgemaakt van zorgvuldig samengestelde organische data, waaronder tientallen miljoenen hoogwaardige wiskundige problemen en oplossingen die zijn verzameld van openbare websites en externe datasets. Voor gevallen waarin geen nauwkeurige oplossingen werden geboden, gebruikten ze een meerderheidsstemmethode om oplossingen te synthetiseren, waardoor de nauwkeurigheid werd verbeterd. Daarnaast verzamelden ze ook wetenschappelijke artikelen, educatieve forums en programmeertutorials.
Microsoft benadrukt de cruciale rol van hoogwaardige natuurlijke data bij het genereren van synthetische data. Ze wijzen erop dat zelfs kleine fouten de kwaliteit van afgeleide synthetische documenten ernstig kunnen aantasten. Daarom hebben ze veel moeite gedaan om het beheer van webdata te perfectioneren.
De post-trainingsfase van Phi-4
De post-trainingsfase van Phi-4 is ontworpen om het model om te vormen tot een betrouwbare AI-assistent. Deze fase omvat de volgende stappen:
- Fijnafstemming: Het model wordt fijn afgestemd met behulp van hoogwaardige data die is gegenereerd uit verschillende domeinen, zoals wiskunde, coderen, redeneren, dialoog, modelidentiteit en veiligheid.
- Directe Voorkeursoptimalisatie (DPO): Er worden twee DPO-stappen uitgevoerd om het model beter af te stemmen op menselijke voorkeuren en om ongewenst gedrag te elimineren.
- Pivotal Token Search: In de eerste stap gebruikt Microsoft een nieuwe techniek genaamd Pivotal Token Search om gewenste/ongewenste resultatenparen te genereren.
- GPT-4o als beoordelaar: In de tweede stap gebruiken ze GPT-4o als beoordelaar om elk resultatenpaar te labelen met een positief of negatief label.
Evaluatie van Phi-4
Phi-4 is geëvalueerd met behulp van het SIMPLE-EVALS-framework van OpenAI en presteert beter dan Llama-3.1-405B in verschillende benchmarks. Bovendien overtreft het ook zijn leermodel GPT-4o in de benchmarks GPQA (STEM-vraag- en antwoord op graduate niveau) en MATH (wiskundewedstrijd).
Gedetailleerde informatie over de trainingsdata van Phi-4
Microsoft heeft een zorgvuldig ontworpen datastrategie gebruikt bij de training van het Phi-4-model. Deze strategie draait voornamelijk om synthetische data en geselecteerde echte data. Deze combinatie is bedoeld om het leerproces van het model te optimaliseren en het uit te blinken in wiskundig redeneren.
Synthetische datageneratie
Synthetische data speelt een cruciale rol bij de training van Phi-4. Het Microsoft-team beschouwde synthetische data niet als een eenvoudige vervanging van echte data, maar als een hulpmiddel om het model stapsgewijs te laten leren. Het proces van het genereren van synthetische data volgt meestal de volgende stappen:
- Probleemcreatie: Eerst worden verschillende wiskundige problemen gegenereerd op basis van vooraf gedefinieerde regels en sjablonen. Deze problemen bestrijken verschillende wiskundige gebieden en moeilijkheidsgraden om een uitgebreid leerproces van het model te garanderen.
- Stapsgewijze oplossingen: Voor elk gegenereerd probleem wordt een stapsgewijze oplossing gecreëerd die het redeneerproces van de probleemstelling naar het uiteindelijke antwoord in detail uitlegt. Deze stapsgewijze oplossing omvat niet alleen het uiteindelijke antwoord, maar ook de tussenstappen en redeneerlogica. Dit helpt het model om het proces van het oplossen van problemen te begrijpen.
- Data-augmentatie: Om de diversiteit van de data te vergroten, wordt de synthetische data ook geaugmenteerd. Dit gebeurt bijvoorbeeld door de formulering van de problemen te veranderen, de cijfers aan te passen of verschillende oplossingsmethoden te gebruiken.
Geselecteerde echte data
Naast synthetische data gebruikte de training van Phi-4 ook een grote hoeveelheid geselecteerde echte data. Deze data is afkomstig van verschillende openbare websites, wetenschappelijke artikelen, educatieve forums en programmeertutorials. De data omvat onder andere de volgende typen:
- Wiskundige problemen en oplossingen: Er zijn miljoenen hoogwaardige wiskundige problemen en oplossingen verzameld van openbare websites en externe datasets. Deze problemen bestrijken verschillende wiskundige gebieden en moeilijkheidsgraden.
- Wetenschappelijke artikelen: Om het begripsvermogen en de redeneervaardigheden van het model te verbeteren, is ook een grote hoeveelheid wetenschappelijke artikelen verzameld. Deze artikelen bieden diepgaande wiskundige concepten en theorieën.
- Educatieve forums: Er zijn vragen van studenten en antwoorden van experts verzameld van educatieve forums. Hierdoor kan het model wiskundige problemen vanuit verschillende invalshoeken begrijpen.
- Programmeertutorials: Om de programmeervaardigheden van het model te verbeteren, is ook een grote hoeveelheid programmeertutorials verzameld. Deze tutorials omvatten verschillende programmeertalen en algoritmen.
Kwaliteitscontrole van data
Microsoft heeft veel moeite gedaan om de kwaliteit van de data te controleren en de nauwkeurigheid en consistentie van de trainingsdata te garanderen. Ze hebben de volgende maatregelen genomen:
- Handmatige controle: Voor sommige cruciale datasets wordt een handmatige controle uitgevoerd om de nauwkeurigheid en kwaliteit van de data te garanderen.
- Meerderheidsstemming: Voor problemen waarvoor geen nauwkeurige oplossingen werden gegeven, wordt een meerderheidsstemming gebruikt om oplossingen te genereren. Dit verhoogt de nauwkeurigheid.
- Data opschonen: Alle data wordt opgeschoond om dubbele data, foutieve data en irrelevante data te verwijderen.
Gedetailleerde analyse van de post-trainingsstrategie
De post-trainingsfase van Phi-4 is ontworpen om het model om te vormen tot een betrouwbare AI-assistent. Deze fase bestaat voornamelijk uit fijnafstemming en directe voorkeursoptimalisatie (DPO).
Fijnafstemmingsfase
Het doel van de fijnafstemmingsfase is om het model aan te passen aan verschillende taken en domeinen. In deze fase gebruikte Microsoft hoogwaardige data die was gegenereerd uit de volgende domeinen:
- Wiskunde: Inclusief verschillende wiskundige problemen en oplossingen, ontworpen om de wiskundige redeneervaardigheden van het model te verbeteren.
- Coderen: Inclusief verschillende programmeerproblemen en oplossingen, ontworpen om de code-generatie- en begripsvaardigheden van het model te verbeteren.
- Redeneren: Inclusief verschillende logische redeneerproblemen, ontworpen om het logisch denkvermogen van het model te verbeteren.
- Dialoog: Inclusief verschillende dialoogdata, ontworpen om het begrip en de generatie van natuurlijke taal van het model te verbeteren.
- Modelidentiteit: Inclusief verschillende modelidentiteitsbeschrijvingen, ontworpen om het begrip van het model van zijn eigen mogelijkheden te verbeteren.
- Veiligheid: Inclusief verschillende veiligheidsproblemen en oplossingen, ontworpen om de veiligheid van het model te verbeteren.
Directe Voorkeursoptimalisatie (DPO) fase
Het doel van de directe voorkeursoptimalisatie (DPO)-fase is om het gedrag van het model beter af te stemmen op menselijke voorkeuren en ongewenst gedrag te elimineren. Deze fase bestaat uit twee stappen:
- Pivotal Token Search: In de eerste stap gebruikt Microsoft een nieuwe techniek genaamd Pivotal Token Search om gewenste/ongewenste resultatenparen te genereren. Deze techniek doorzoekt de outputruimte van het model om de belangrijkste tokens te vinden die onderscheid kunnen maken tussen gewenst en ongewenst gedrag.
- GPT-4o als beoordelaar: In de tweede stap gebruiken ze GPT-4o als beoordelaar om elk resultatenpaar te labelen met een positief of negatief label. GPT-4o kan de modeloutputs evalueren op basis van menselijke voorkeuren, waardoor het model menselijke voorkeuren beter kan leren.
Evaluatie van de prestaties van Phi-4
Om de prestaties van Phi-4 te evalueren, gebruikte Microsoft het SIMPLE-EVALS-framework van OpenAI. Dit framework bevat verschillende benchmarks die de prestaties van het model op verschillende taken kunnen evalueren.
Benchmarks
Phi-4 presteerde uitstekend in de volgende benchmarks:
- GPQA (STEM-vraag- en antwoord op graduate niveau): In deze benchmark overtrof Phi-4 zijn leermodel GPT-4o, wat bewijst dat zijn vraag- en antwoordmogelijkheden op het gebied van STEM zeer sterk zijn.
- MATH (wiskundewedstrijd): In deze benchmark overtrof Phi-4 ook zijn leermodel GPT-4o, wat bewijst dat zijn vermogen om complexe wiskundige problemen op te lossen uitstekend is.
- Vergelijking met andere modellen: In verschillende benchmarks presteerde Phi-4 beter dan Llama-3.1-405B, wat bewijst dat zijn algehele prestaties zeer sterk zijn.
Prestatieanalyse
Op basis van de prestatie-evaluatie van Phi-4 kunnen de volgende conclusies worden getrokken:
- Sterke wiskundige redeneervaardigheden: Phi-4 presteert uitstekend op het gebied van wiskundig redeneren. Dit is te danken aan de innovatieve methoden die tijdens de training werden gebruikt, waaronder synthetische data, geselecteerde echte data en post-trainingsstrategieën.
- Overtreft het leermodel: In verschillende benchmarks overtrof Phi-4 zijn leermodel GPT-4o. Dit bewijst dat zijn prestaties niet alleen het resultaat zijn van kennisdestillatie.
- Vergelijking met andere modellen: Phi-4 presteerde in verschillende benchmarks beter dan Llama-3.1-405B. Dit bewijst dat zijn algehele prestaties zeer sterk zijn.
Toepassingsmogelijkheden van Phi-4
Phi-4, als een klein taalmodel dat speciaal is ontworpen voor complexe wiskundige redeneringen, heeft een breed scala aan toepassingsmogelijkheden. Het kan worden toegepast in de volgende gebieden:
- Onderwijs: Het kan dienen als hulpmiddel voor wiskundebijles, studenten helpen wiskundige problemen op te lossen en een gepersonaliseerde leerervaring bieden.
- Wetenschappelijk onderzoek: Het kan dienen als hulpmiddel voor wetenschappelijk onderzoek, onderzoekers helpen met wiskundige modellering en data-analyse.
- Engineering: Het kan dienen als hulpmiddel voor engineering, ingenieurs helpen met ontwerp en analyse.
- Financiën: Het kan dienen als hulpmiddel voor de financiële sector, financiële analisten helpen met risicobeoordeling en investeringsbeslissingen.
- Andere gebieden: Het kan ook worden toegepast in andere gebieden die complexe wiskundige redeneringen vereisen, zoals de gezondheidszorg, logistiek en de maakindustrie.
Conclusie
De komst van Microsoft Phi-4 markeert een belangrijke vooruitgang op het gebied van kleine taalmodellen voor wiskundig redeneren. De unieke datatrainingsstrategie en post-trainingsmethoden zorgen ervoor dat het model beter presteert dan vergelijkbare en grotere modellen. Dit biedt nieuwe ideeën voor de toekomstige ontwikkeling van AI. Nu Phi-4 open source is op Hugging Face, zal het naar verwachting meer onderzoekers en ontwikkelaars ten goede komen en de toepassing van AI-technologie in verschillende gebieden stimuleren.