IA Multimodale Edge: Arm e Alibaba

Arm Kleidi: Ottimizzazione dell’Inferenza AI su CPU Arm

La rapida evoluzione dell’Intelligenza Artificiale (IA) sta inaugurando una nuova era di modelli multimodali. Questi sistemi sofisticati possiedono la capacità di elaborare e interpretare informazioni provenienti da una varietà di fonti, inclusi testo, immagini, audio, video e persino dati provenienti da sensori. Tuttavia, l’implementazione di questi potenti modelli su dispositivi edge presenta ostacoli significativi. Le limitazioni intrinseche in termini di potenza e capacità di memoria dell’hardware edge, combinate con il compito intricato di elaborare simultaneamente diversi tipi di dati, creano una sfida complessa.

Arm Kleidi è specificamente progettato per affrontare questa sfida, fornendo un’ottimizzazione delle prestazioni senza soluzione di continuità per tutti i carichi di lavoro di inferenza AI che vengono eseguiti su CPU Arm. Il cuore di Kleidi è KleidiAI, una suite semplificata di routine Arm open-source altamente efficienti, create per accelerare l’IA.

KleidiAI è già integrato nelle ultime versioni dei framework AI ampiamente utilizzati per i dispositivi edge. Questi includono ExecuTorch, Llama.cpp, LiteRT tramite XNNPACK e MediaPipe. Questa ampia integrazione offre un vantaggio significativo a milioni di sviluppatori, che ora possono beneficiare automaticamente delle ottimizzazioni delle prestazioni AI senza alcuno sforzo aggiuntivo.

Partnership con Alibaba: Modello Qwen2-VL-2B-Instruct

Un nuovo traguardo nell’avanzamento dell’IA multimodale sui dispositivi edge è stato raggiunto attraverso una stretta collaborazione con MNN. MNN è un framework di deep learning leggero e open-source sviluppato e mantenuto da Alibaba. Questa partnership ha portato all’integrazione di successo di KleidiAI, consentendo ai carichi di lavoro AI multimodali di funzionare in modo efficiente sui dispositivi mobili utilizzando CPU Arm. La chiave di questo risultato è il modello Qwen2-VL-2B-Instruct di Alibaba, con 2 miliardi di parametri e ottimizzato per le istruzioni. Questo modello è specificamente progettato per la comprensione delle immagini, il ragionamento testo-immagine e la generazione multimodale in più lingue, il tutto adattato ai vincoli dei dispositivi edge.

Guadagni di Prestazioni Misurabili

L’integrazione di KleidiAI con MNN ha prodotto miglioramenti significativi e misurabili delle prestazioni per il modello Qwen2-VL-2B-Instruct. Sono stati osservati tempi di risposta più rapidi in casi d’uso multimodali AI cruciali all’edge. Questi miglioramenti sbloccano esperienze utente migliorate in una varietà di applicazioni Alibaba incentrate sul cliente. Gli esempi includono:

  • Chatbot per il servizio clienti: Fornire risposte più rapide ed efficienti alle richieste dei clienti.
  • Applicazioni di e-shopping: Abilitare la ricerca da foto a prodotti, consentendo ai clienti di trovare rapidamente gli articoli che stanno cercando semplicemente caricando un’immagine.

La maggiore velocità in queste applicazioni è il risultato diretto di sostanziali guadagni di prestazioni:

  • Miglioramento del Pre-fill: È stato ottenuto un notevole miglioramento delle prestazioni del 57% nel pre-fill. Questo si riferisce alla fase cruciale in cui i modelli AI gestiscono gli input di prompt multi-sorgente prima di generare una risposta.
  • Miglioramento della Decodifica: È stato osservato un significativo miglioramento delle prestazioni del 28% nella decodifica. Questo è il processo in cui il modello AI genera testo dopo aver elaborato un prompt.

Oltre alla velocità, l’integrazione di KleidiAI contribuisce anche a un’elaborazione più efficiente dei carichi di lavoro AI all’edge. Ciò si ottiene riducendo il costo computazionale complessivo associato ai carichi di lavoro multimodali. Questi guadagni in termini di prestazioni ed efficienza sono immediatamente accessibili a milioni di sviluppatori. Qualsiasi sviluppatore che esegue applicazioni e carichi di lavoro sul framework MNN, così come altri framework AI popolari per dispositivi edge in cui KleidiAI è integrato, può trarne immediatamente vantaggio.

Dimostrazione nel Mondo Reale: Presentazione al MWC

Le capacità pratiche del modello Qwen2-VL-2B-Instruct, potenziato dalla nuova integrazione di KleidiAI con MNN, sono state presentate al Mobile World Congress (MWC). Una dimostrazione presso lo stand Arm ha evidenziato la capacità del modello di comprendere diverse combinazioni di input visivi e testuali. Il modello ha quindi risposto con un riepilogo conciso del contenuto dell’immagine. L’intero processo è stato eseguito sulla CPU Arm degli smartphone, dimostrando la potenza e l’efficienza della soluzione. Questi smartphone erano basati sul system-on-chip (SoC) mobile Dimensity 9400 di MediaTek, basato su Arm, inclusa la serie vivo X200.

Un Passo Avanti Significativo nell’Esperienza Utente

L’integrazione di KleidiAI di Arm con il framework MNN per il modello Qwen2-VL-2B-Instruct di Alibaba rappresenta un notevole passo avanti nell’esperienza utente per i carichi di lavoro AI multimodali. Questo progresso offre queste esperienze migliorate direttamente all’edge, il tutto alimentato dalla CPU Arm. Queste funzionalità sono immediatamente disponibili sui dispositivi mobili, con le principali applicazioni rivolte ai clienti che già sfruttano i vantaggi di KleidiAI.

Il Futuro dell’IA Multimodale sui Dispositivi Edge

Guardando al futuro, le ottimizzazioni senza soluzione di continuità di KleidiAI per i carichi di lavoro AI continueranno a consentire a milioni di sviluppatori di creare esperienze multimodali sempre più sofisticate sui dispositivi edge. Questa continua innovazione aprirà la strada alla prossima ondata di calcolo intelligente, segnando un passo avanti significativo nell’evoluzione continua dell’IA.

Citazioni dalla Leadership di Alibaba

‘Siamo lieti di vedere la collaborazione tra il modello linguistico di grandi dimensioni Qwen di Alibaba Cloud, Arm KleidiAI e MNN. L’integrazione del framework di inferenza on-device di MNN con Arm KleidiAI ha migliorato significativamente la latenza e l’efficienza energetica di Qwen. Questa partnership convalida il potenziale dei LLM sui dispositivi mobili e migliora l’esperienza utente AI. Non vediamo l’ora di continuare gli sforzi per far progredire il calcolo AI on-device.’ - Dong Xu, GM di Tongyi Large Model Business, Alibaba Cloud.

‘L’integrazione tecnica tra il framework di inferenza MNN e Arm KleidiAI segna un importante passo avanti nell’accelerazione on-device. Con l’ottimizzazione congiunta dell’architettura, abbiamo notevolmente migliorato l’efficienza dell’inferenza on-device del LLM Tongyi, colmando il divario tra la potenza di calcolo mobile limitata e le capacità AI avanzate. Questo risultato evidenzia la nostra competenza tecnica e la collaborazione intersettoriale. Non vediamo l’ora di continuare questa partnership per migliorare l’ecosistema di calcolo on-device, offrendo esperienze AI più fluide ed efficienti sui dispositivi mobili.’ - Xiaotang Jiang, Responsabile di MNN, Taobao and Tmall Group, Alibaba.

Approfondimento degli Aspetti Tecnici

Per apprezzare appieno il significato di questa collaborazione, è utile esaminare alcuni dei dettagli tecnici sottostanti.

Il Ruolo di MNN

La filosofia di progettazione di MNN è incentrata sull’efficienza e sulla portabilità. Raggiunge questo obiettivo attraverso diverse caratteristiche chiave:

  • Architettura Leggera: MNN è progettato per avere un ingombro ridotto, riducendo al minimo i requisiti di archiviazione e memoria sui dispositivi edge.
  • Operazioni Ottimizzate: Il framework incorpora operazioni matematiche altamente ottimizzate specificamente adattate per le CPU Arm, massimizzando le prestazioni.
  • Compatibilità Multipiattaforma: MNN supporta un’ampia gamma di sistemi operativi e piattaforme hardware, rendendolo una scelta versatile per gli sviluppatori.

Il Contributo di KleidiAI

KleidiAI integra i punti di forza di MNN fornendo un set di routine specializzate che accelerano ulteriormente l’inferenza AI. Queste routine sfruttano la vasta esperienza di Arm nell’architettura della CPU per sbloccare guadagni di prestazioni che sarebbero difficili da ottenere altrimenti. Gli aspetti chiave del contributo di KleidiAI includono:

  • Kernel Altamente Ottimizzati: KleidiAI fornisce kernel altamente ottimizzati per operazioni AI comuni, come la moltiplicazione di matrici e la convoluzione. Questi kernel sono meticolosamente ottimizzati per sfruttare le caratteristiche specifiche delle CPU Arm.
  • Integrazione Automatica: L’integrazione senza soluzione di continuità di KleidiAI nei framework AI popolari significa che gli sviluppatori non hanno bisogno di incorporare manualmente queste ottimizzazioni. I vantaggi in termini di prestazioni vengono applicati automaticamente, semplificando il processo di sviluppo.
  • Miglioramento Continuo: Arm si impegna a aggiornare e migliorare continuamente KleidiAI, assicurando che rimanga all’avanguardia nella tecnologia di accelerazione AI.

Qwen2-VL-2B-Instruct: Un Potente Modello Multimodale

Il modello Qwen2-VL-2B-Instruct è una testimonianza dell’esperienza di Alibaba nei modelli linguistici di grandi dimensioni e nell’IA multimodale. Le sue caratteristiche principali includono:

  • Ottimizzazione delle Istruzioni: Il modello è specificamente ottimizzato per seguire le istruzioni, rendendolo altamente adattabile a un’ampia gamma di attività.
  • Capacità Multimodali: Eccelle nella comprensione e nell’elaborazione di informazioni sia visive che testuali, consentendo applicazioni come la didascalia delle immagini e la risposta a domande visive.
  • Supporto Multilingue: Il modello è progettato per funzionare con più lingue, ampliando la sua applicabilità in diverse regioni e basi di utenti.
  • Ottimizzato per Dispositivi Edge: Nonostante le sue potenti capacità, il modello è attentamente progettato per operare entro i limiti di risorse dei dispositivi edge.

Espansione dell’Ambito dell’IA Multimodale

I progressi qui discussi non sono limitati agli smartphone. Gli stessi principi e tecnologie possono essere applicati a un’ampia gamma di dispositivi edge, tra cui:

  • Dispositivi Smart Home: Abilitazione di assistenti vocali, riconoscimento delle immagini per telecamere di sicurezza e altre funzionalità intelligenti.
  • Dispositivi Indossabili: Alimentazione del monitoraggio della salute, del fitness tracking e delle applicazioni di realtà aumentata.
  • IoT Industriale: Facilitazione della manutenzione predittiva, del controllo qualità e dell’automazione in ambienti di produzione.
  • Settore Automobilistico: Miglioramento dei sistemi di assistenza alla guida, dell’intrattenimento in cabina e delle capacità di guida autonoma.

Le potenziali applicazioni dell’IA multimodale all’edge sono vaste e continuano ad espandersi. Man mano che i modelli diventano più sofisticati e l’hardware diventa più potente, possiamo aspettarci di vedere emergere casi d’uso ancora più innovativi e di grande impatto. Questa collaborazione tra Arm e Alibaba è un passo significativo in questa direzione, portando la potenza dell’IA multimodale a un pubblico più ampio e abilitando una nuova generazione di dispositivi intelligenti. L’attenzione all’efficienza, alle prestazioni e all’accessibilità per gli sviluppatori garantisce che questi progressi avranno un impatto ampio e duraturo sul futuro della tecnologia.