Phi-4: Krachtpatser voor AI

De Phi-familie breidt uit: Introductie van multimodale mogelijkheden

Microsoft’s bijdrage aan dit ontluikende veld van SLM’s is de Phi-familie, een reeks compacte modellen. De vierde generatie van Phi werd aanvankelijk geïntroduceerd in december, en nu breidt Microsoft de line-up uit met twee belangrijke toevoegingen: Phi-4-multimodal en Phi-4-mini. In lijn met hun broers en zussen, zullen deze nieuwe modellen gemakkelijk toegankelijk zijn via de Azure AI Foundry, Hugging Face en de Nvidia API Catalog, allemaal onder de permissieve MIT-licentie.

Phi-4-multimodal, in het bijzonder, valt op. Het is een 5,6 miljard parameter model dat gebruik maakt van een geavanceerde techniek genaamd “mixture-of-LoRAs” (Low-Rank Adaptations). Deze aanpak stelt het model in staat om spraak, visuele input en tekstuele data gelijktijdig te verwerken. LoRA’s vertegenwoordigen een nieuwe methode om de prestaties van een groot taalmodel in specifieke taken te verbeteren, waarbij de noodzaak voor uitgebreide fine-tuning over al zijn parameters wordt omzeild. In plaats daarvan voegen ontwikkelaars die LoRA gebruiken strategisch een kleiner aantal nieuwe gewichten in het model in. Alleen deze nieuw geïntroduceerde gewichten ondergaan training, wat resulteert in een aanzienlijk sneller en geheugenefficiënter proces. Het resultaat is een verzameling van lichtere modellen die veel gemakkelijker op te slaan, te delen en te implementeren zijn.

De implicaties van deze efficiëntie zijn substantieel. Phi-4-multimodal bereikt inferentie met lage latentie – wat betekent dat het informatie kan verwerken en zeer snel reacties kan geven – terwijl het geoptimaliseerd is voor uitvoering op het apparaat. Dit vertaalt zich in een dramatische vermindering van de computationele overhead, waardoor het haalbaar wordt om geavanceerde AI-toepassingen uit te voeren op apparaten die voorheen niet de benodigde verwerkingskracht hadden.

Potentiële gebruiksscenario’s: Van smartphones tot financiële dienstverlening

De potentiële toepassingen van Phi-4-multimodal zijn divers en verreikend. Stel je voor dat het model naadloos werkt op smartphones, geavanceerde functies in voertuigen aandrijft, of lichtgewicht bedrijfstoepassingen aanstuurt. Een overtuigend voorbeeld is een meertalige applicatie voor financiële dienstverlening, die in staat is om vragen van gebruikers in verschillende talen te begrijpen en te beantwoorden, visuele gegevens zoals documenten te verwerken, en dat alles terwijl het efficiënt werkt op het apparaat van een gebruiker.

Industrieanalisten erkennen het transformatieve potentieel van Phi-4-multimodal. Het wordt gezien als een belangrijke stap voorwaarts voor ontwikkelaars, met name degenen die zich richten op het creëren van AI-gestuurde applicaties voor mobiele apparaten of omgevingen waar computationele resources beperkt zijn.

Charlie Dai, Vice President en Principal Analyst bij Forrester, benadrukt het vermogen van het model om tekst-, beeld- en audioverwerking te integreren met robuuste redeneercapaciteiten. Hij benadrukt dat deze combinatie AI-toepassingen verbetert en ontwikkelaars en ondernemingen voorziet van “veelzijdige, efficiënte en schaalbare oplossingen.”

Yugal Joshi, een partner bij Everest Group, erkent de geschiktheid van het model voor implementatie in omgevingen met beperkte rekenkracht. Hoewel hij opmerkt dat mobiele apparaten misschien niet het ideale platform zijn voor alle generatieve AI-gebruiksscenario’s, ziet hij de nieuwe SLM’s als een weerspiegeling van Microsoft die inspiratie haalt uit DeepSeek, een ander initiatief dat gericht is op het minimaliseren van de afhankelijkheid van grootschalige computerinfrastructuur.

Benchmarking Prestaties: Sterke punten en gebieden voor groei

Als het gaat om benchmarkprestaties, vertoont Phi-4-multimodal een prestatiekloof in vergelijking met modellen zoals Gemini-2.0-Flash en GPT-4o-realtime-preview, met name in taken voor het beantwoorden van spraakvragen (QA). Microsoft erkent dat de kleinere omvang van de Phi-4-modellen inherent hun capaciteit beperkt om feitelijke kennis te behouden voor het beantwoorden van vragen. Het bedrijf benadrukt echter de voortdurende inspanningen om dit vermogen in toekomstige iteraties van het model te verbeteren.

Desondanks toont Phi-4-multimodal indrukwekkende sterke punten op andere gebieden. Met name presteert het beter dan verschillende populaire LLM’s, waaronder Gemini-2.0-Flash Lite en Claude-3.5-Sonnet, in taken met betrekking tot wiskundig en wetenschappelijk redeneren, optische tekenherkenning (OCR) en visueel wetenschappelijk redeneren. Dit zijn cruciale mogelijkheden voor een breed scala aan toepassingen, van educatieve software tot wetenschappelijke onderzoekstools.

Phi-4-mini: Compact formaat, indrukwekkende prestaties

Naast Phi-4-multimodal introduceerde Microsoft ook Phi-4-mini. Dit model is nog compacter, met 3,8 miljard parameters. Het is gebaseerd op een dichte decoder-only transformatorarchitectuur en ondersteunt sequenties van maximaal een indrukwekkende 128.000 tokens.

Weizhu Chen, VP of Generative AI bij Microsoft, benadrukt de opmerkelijke prestaties van Phi-4-mini ondanks zijn kleine formaat. In een blogpost waarin de nieuwe modellen worden beschreven, merkt hij op dat Phi-4-mini “grotere modellen blijft overtreffen in op tekst gebaseerde taken, waaronder redeneren, wiskunde, codering, het volgen van instructies en het aanroepen van functies.” Dit onderstreept het potentieel van nog kleinere modellen om aanzienlijke waarde te leveren in specifieke toepassingsdomeinen.

IBM’s Granite Updates: Verbetering van redeneercapaciteiten

De vooruitgang in SLM’s is niet beperkt tot Microsoft. IBM heeft ook een update uitgebracht voor zijn Granite-familie van fundamentele modellen, met de introductie van Granite 3.2 2B en 8B modellen. Deze nieuwe modellen hebben verbeterde “chain of thought”-mogelijkheden, een cruciaal aspect van het verbeteren van redeneervermogen. Deze verbetering stelt de modellen in staat om superieure prestaties te behalen in vergelijking met hun voorgangers.

Bovendien heeft IBM een nieuw vision language model (VLM) onthuld dat specifiek is ontworpen voor taken voor documentbegrip. Dit VLM demonstreert prestaties die overeenkomen met of beter zijn dan die van aanzienlijk grotere modellen, zoals Llama 3.2 11B en Pixtral 12B, op benchmarks zoals DocVQA, ChartQA, AI2D en OCRBench1. Dit benadrukt de groeiende trend van kleinere, gespecialiseerde modellen die concurrerende prestaties leveren in specifieke domeinen.

De toekomst van On-Device AI: Een paradigmaverschuiving

De introductie van Phi-4-multimodal en Phi-4-mini, samen met IBM’s Granite-updates, vertegenwoordigt een belangrijke stap in de richting van een toekomst waarin krachtige AI-mogelijkheden direct beschikbaar zijn op een breed scala aan apparaten. Deze verschuiving heeft ingrijpende gevolgen voor verschillende industrieën en toepassingen:

  • Democratisering van AI: Kleinere, efficiëntere modellen maken AI toegankelijk voor een breder scala aan ontwikkelaars en gebruikers, niet alleen voor degenen met toegang tot enorme computerbronnen.
  • Verbeterde privacy en beveiliging: On-device verwerking vermindert de noodzaak om gevoelige gegevens naar de cloud te verzenden, waardoor de privacy en beveiliging worden verbeterd.
  • Verbeterde responsiviteit en latentie: Lokale verwerking elimineert de vertragingen die gepaard gaan met cloud-gebaseerde AI, wat leidt tot snellere responstijden en een naadlozere gebruikerservaring.
  • Offline functionaliteit: On-device AI kan zelfs zonder internetverbinding werken, waardoor nieuwe mogelijkheden ontstaan voor toepassingen in afgelegen omgevingen of omgevingen met een lage connectiviteit.
  • Verminderd energieverbruik: Kleinere modellen vereisen minder energie om te werken, wat bijdraagt aan een langere batterijduur voor mobiele apparaten en een verminderde impact op het milieu.
  • Edge Computing Toepassingen: Dit omvat sectoren als autonoom rijden, slimme productie en gezondheidszorg op afstand.

De vooruitgang in SLM’s stuwt een paradigmaverschuiving in het AI-landschap. Terwijl grote taalmodellen een cruciale rol blijven spelen, effent de opkomst van compacte, efficiënte modellen zoals die in de Phi-familie de weg voor een toekomst waarin AI alomtegenwoordiger, toegankelijker en geïntegreerd is in ons dagelijks leven. De focus verschuift van pure grootte naar efficiëntie, specialisatie en het vermogen om krachtige AI-mogelijkheden rechtstreeks te leveren op de apparaten die we elke dag gebruiken. Deze trend zal waarschijnlijk versnellen, wat leidt tot nog meer innovatieve toepassingen en een bredere acceptatie van AI in verschillende sectoren. Het vermogen om complexe taken uit te voeren, zoals het begrijpen van multimodale inputs, op apparaten met beperkte middelen opent een nieuw hoofdstuk in de evolutie van kunstmatige intelligentie.
De race is begonnen om steeds intelligentere en capabelere SLM’s te creëren, en het nieuwe aanbod van Microsoft is een grote stap voorwaarts.