Arm en Alibaba: Multimodale AI

Arm Kleidi: AI-inferentie optimaliseren op Arm CPU’s

De snelle evolutie van AI luidt een nieuw tijdperk in van multimodale modellen. Deze geavanceerde systemen hebben de mogelijkheid om informatie uit verschillende bronnen te verwerken en te interpreteren, waaronder tekst, afbeeldingen, audio, video en zelfs sensorgegevens. De implementatie van deze krachtige modellen op edge-apparaten brengt echter aanzienlijke hindernissen met zich mee. De inherente beperkingen in vermogen en geheugencapaciteit van edge-hardware, gecombineerd met de complexe taak van het gelijktijdig verwerken van diverse gegevenstypen, creëren een complexe uitdaging.

Arm Kleidi is specifiek ontworpen om deze uitdaging aan te gaan en biedt naadloze prestatie-optimalisatie voor alle AI-inferentieworkloads die op Arm CPU’s draaien. De kern van Kleidi is KleidiAI, een gestroomlijnde suite van zeer efficiënte, open-source Arm-routines die zijn gebouwd om AI te versnellen.

KleidiAI is al geïntegreerd in de nieuwste versies van veelgebruikte AI-frameworks voor edge-apparaten. Deze omvatten ExecuTorch, Llama.cpp, LiteRT via XNNPACK en MediaPipe. Deze wijdverbreide integratie biedt een aanzienlijk voordeel voor miljoenen ontwikkelaars, die nu automatisch kunnen profiteren van AI-prestatie-optimalisaties zonder extra inspanning.

Partnerschap met Alibaba: Qwen2-VL-2B-Instruct Model

Een nieuwe mijlpaal in de vooruitgang van multimodale AI op edge-apparaten is bereikt door een nauwe samenwerking met MNN. MNN is een lichtgewicht, open-source deep learning framework ontwikkeld en onderhouden door Alibaba. Deze samenwerking heeft geresulteerd in de succesvolle integratie van KleidiAI, waardoor multimodale AI-workloads efficiënt kunnen worden uitgevoerd op mobiele apparaten met Arm CPU’s. De sleutel tot dit succes is Alibaba’s instructie-afgestemde 2B parameter Qwen2-VL-2B-Instruct model. Dit model is specifiek ontworpen voor beeldverwerking, tekst-naar-beeld redenering en multimodale generatie in meerdere talen, allemaal afgestemd op de beperkingen van edge-apparaten.

Meetbare prestatiewinsten

De integratie van KleidiAI met MNN heeft aanzienlijke, meetbare prestatieverbeteringen opgeleverd voor het Qwen2-VL-2B-Instruct model. Snellere responstijden zijn waargenomen bij cruciale AI multimodale use cases aan de edge. Deze verbeteringen ontsluiten verbeterde gebruikerservaringen in een verscheidenheid aan klantgerichte Alibaba-applicaties. Voorbeelden hiervan zijn:

  • Chatbots voor klantenservice: Het bieden van snellere en efficiëntere antwoorden op vragen van klanten.
  • E-shopping applicaties: Het mogelijk maken van zoeken van foto naar goederen, waardoor klanten snel de items kunnen vinden die ze zoeken door simpelweg een afbeelding te uploaden.

De verbeterde snelheid in deze applicaties is een direct gevolg van aanzienlijke prestatiewinsten:

  • Pre-fill verbetering: Een opmerkelijke prestatieverbetering van 57 procent is bereikt in pre-fill. Dit verwijst naar de cruciale fase waarin AI-modellen multi-source prompt inputs verwerken voordat ze een reactie genereren.
  • Decode verbetering: Een aanzienlijke prestatieverbetering van 28 procent is waargenomen in decode. Dit is het proces waarbij het AI-model tekst genereert na het verwerken van een prompt.

Naast snelheid draagt de KleidiAI-integratie ook bij aan een efficiëntere verwerking van AI-workloads aan de edge. Dit wordt bereikt door de totale computationele kosten te verlagen die gepaard gaan met multimodale workloads. Deze prestatie- en efficiëntiewinsten zijn direct toegankelijk voor miljoenen ontwikkelaars. Elke ontwikkelaar die applicaties en workloads uitvoert op het MNN-framework, evenals andere populaire AI-frameworks voor edge-apparaten waar KleidiAI is geïntegreerd, kan onmiddellijk profiteren.

Real-World Demonstratie: MWC Showcase

De praktische mogelijkheden van het Qwen2-VL-2B-Instruct model, aangedreven door de nieuwe KleidiAI-integratie met MNN, werden gedemonstreerd op het Mobile World Congress (MWC). Een demonstratie op de Arm-stand benadrukte het vermogen van het model om diverse combinaties van visuele en tekstuele inputs te begrijpen. Het model reageerde vervolgens met een beknopte samenvatting van de afbeeldingsinhoud. Dit hele proces werd uitgevoerd op de Arm CPU van smartphones, wat de kracht en efficiëntie van de oplossing aantoont. Deze smartphones waren gebouwd op MediaTek’s Arm-aangedreven Dimensity 9400 mobiele system-on-chip (SoC), inclusief de vivo X200-serie.

Een belangrijke stap voorwaarts in gebruikerservaring

De integratie van Arm’s KleidiAI met het MNN-framework voor Alibaba’s Qwen2-VL-2B-Instruct model vertegenwoordigt een aanzienlijke sprong voorwaarts in de gebruikerservaring voor multimodale AI-workloads. Deze vooruitgang levert deze verbeterde ervaringen direct aan de edge, allemaal aangedreven door de Arm CPU. Deze mogelijkheden zijn direct beschikbaar op mobiele apparaten, waarbij toonaangevende klantgerichte applicaties al profiteren van de voordelen van KleidiAI.

De toekomst van multimodale AI op Edge-apparaten

Vooruitkijkend zullen KleidiAI’s naadloze optimalisaties voor AI-workloads miljoenen ontwikkelaars blijven empoweren. Ze zullen in staat zijn om steeds geavanceerdere multimodale ervaringen te creëren op edge-apparaten. Deze voortdurende innovatie zal de weg effenen voor de volgende golf van intelligent computing, wat een belangrijke stap voorwaarts markeert in de voortdurende evolutie van AI.

Citaten van Alibaba Leiderschap

‘We zijn verheugd om de samenwerking te zien tussen Alibaba Cloud’s large language model Qwen, Arm KleidiAI en MNN. De integratie van MNN’s on-device inference framework met Arm KleidiAI heeft de latency en energie-efficiëntie van Qwen aanzienlijk verbeterd. Dit partnerschap valideert het potentieel van LLM’s op mobiele apparaten en verbetert de AI-gebruikerservaring. We kijken uit naar voortdurende inspanningen om on-device AI computing te bevorderen.’ - Dong Xu, GM of Tongyi Large Model Business, Alibaba Cloud.

‘De technische integratie tussen het MNN inference framework en Arm KleidiAI markeert een grote doorbraak in on-device acceleratie. Met gezamenlijke optimalisatie van de architectuur hebben we de on-device inference efficiëntie van de Tongyi LLM sterk verbeterd, waardoor de kloof tussen beperkte mobiele rekenkracht en geavanceerde AI-mogelijkheden wordt overbrugd. Deze prestatie benadrukt onze technische expertise en cross-industry samenwerking. We kijken ernaar uit om dit partnerschap voort te zetten om het on-device computing ecosysteem te verbeteren en soepelere en efficiëntere AI-ervaringen op mobiel te leveren.’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.

Dieper ingaan op de technische aspecten

Om de betekenis van deze samenwerking volledig te waarderen, is het nuttig om enkele van de onderliggende technische details te onderzoeken.

De rol van MNN

De ontwerpfilosofie van MNN is gericht op efficiëntie en draagbaarheid. Het bereikt dit door middel van verschillende belangrijke kenmerken:

  • Lichtgewicht architectuur: MNN is ontworpen om een kleine footprint te hebben, waardoor de opslag- en geheugenvereisten op edge-apparaten worden geminimaliseerd.
  • Geoptimaliseerde bewerkingen: Het framework bevat sterk geoptimaliseerde wiskundige bewerkingen die specifiek zijn afgestemd op Arm CPU’s, waardoor de prestaties worden gemaximaliseerd.
  • Cross-platform compatibiliteit: MNN ondersteunt een breed scala aan besturingssystemen en hardwareplatforms, waardoor het een veelzijdige keuze is voor ontwikkelaars.

De bijdrage van KleidiAI

KleidiAI vult de sterke punten van MNN aan door een set gespecialiseerde routines te bieden die AI-inferentie verder versnellen. Deze routines maken gebruik van Arm’s uitgebreide ervaring in CPU-architectuur om prestatiewinsten te ontsluiten die anders moeilijk te bereiken zouden zijn. Belangrijke aspecten van de bijdrage van KleidiAI zijn:

  • Sterk geoptimaliseerde kernels: KleidiAI biedt sterk geoptimaliseerde kernels voor veelvoorkomende AI-bewerkingen, zoals matrixvermenigvuldiging en convolutie. Deze kernels zijn zorgvuldig afgestemd om te profiteren van de specifieke kenmerken van Arm CPU’s.
  • Automatische integratie: De naadloze integratie van KleidiAI in populaire AI-frameworks betekent dat ontwikkelaars deze optimalisaties niet handmatig hoeven te integreren. De prestatievoordelen worden automatisch toegepast, waardoor het ontwikkelingsproces wordt vereenvoudigd.
  • Continue verbetering: Arm is toegewijd aan het continu updaten en verbeteren van KleidiAI, om ervoor te zorgen dat het voorop blijft lopen in AI-versnellingstechnologie.

Qwen2-VL-2B-Instruct: Een krachtig multimodaal model

Het Qwen2-VL-2B-Instruct model is een bewijs van Alibaba’s expertise in large language models en multimodale AI. De belangrijkste kenmerken zijn:

  • Instructie-afstemming: Het model is specifiek afgestemd om instructies te volgen, waardoor het zeer aanpasbaar is aan een breed scala aan taken.
  • Multimodale mogelijkheden: Het blinkt uit in het begrijpen en verwerken van zowel visuele als tekstuele informatie, waardoor toepassingen zoals image captioning en visual question answering mogelijk worden.
  • Meertalige ondersteuning: Het model is ontworpen om met meerdere talen te werken, waardoor de toepasbaarheid ervan in verschillende regio’s en gebruikersgroepen wordt vergroot.
  • Geoptimaliseerd voor edge-apparaten: Ondanks zijn krachtige mogelijkheden is het model zorgvuldig ontworpen om te werken binnen de resourcebeperkingen van edge-apparaten.

Het toepassingsgebied van multimodale AI uitbreiden

De hier besproken ontwikkelingen zijn niet beperkt tot smartphones. Dezelfde principes en technologieën kunnen worden toegepast op een breed scala aan edge-apparaten, waaronder:

  • Smart Home-apparaten: Het mogelijk maken van spraakassistenten, beeldherkenning voor beveiligingscamera’s en andere intelligente functies.
  • Draagbare apparaten: Het aansturen van gezondheidsmonitoring, fitnesstracking en augmented reality-toepassingen.
  • Industriële IoT: Het faciliteren van voorspellend onderhoud, kwaliteitscontrole en automatisering in productieomgevingen.
  • Automotive: Het verbeteren van rijhulpsystemen, entertainment in de cabine en autonome rijcapaciteiten.

De potentiële toepassingen van multimodale AI aan de edge zijn enorm en blijven zich uitbreiden. Naarmate modellen geavanceerder worden en hardware krachtiger wordt, kunnen we verwachten dat er nog meer innovatieve en impactvolle use cases zullen ontstaan. Deze samenwerking tussen Arm en Alibaba is een belangrijke stap in die richting, die de kracht van multimodale AI naar een breder publiek brengt en een nieuwe generatie intelligente apparaten mogelijk maakt. De focus op efficiëntie, prestaties en toegankelijkheid voor ontwikkelaars zorgt ervoor dat deze ontwikkelingen een brede en blijvende impact zullen hebben op de toekomst van technologie.