IA Multimodale Avancée sur Arm

Arm Kleidi : Optimisation de l’Inférence IA sur les CPU Arm

L’évolution rapide de l’IA inaugure une nouvelle ère de modèles multimodaux. Ces systèmes sophistiqués possèdent la capacité de traiter et d’interpréter des informations provenant de diverses sources, notamment du texte, des images, de l’audio, de la vidéo et même des données de capteurs. Cependant, le déploiement de ces modèles puissants sur des appareils en périphérie (edge devices) présente des obstacles importants. Les limitations inhérentes en matière de puissance et de capacité de mémoire du matériel périphérique, combinées à la tâche complexe de traiter simultanément divers types de données, créent un défi complexe.

Arm Kleidi est spécifiquement conçu pour relever ce défi, en offrant une optimisation transparente des performances pour toutes les charges de travail d’inférence IA qui s’exécutent sur les CPU Arm. Au cœur de Kleidi se trouve KleidiAI, une suite rationalisée de routines Arm open source hautement efficaces, conçues pour accélérer l’IA.

KleidiAI est déjà intégré dans les dernières versions des frameworks d’IA largement utilisés pour les appareils périphériques. Il s’agit notamment d’ExecuTorch, Llama.cpp, LiteRT via XNNPACK et MediaPipe. Cette intégration généralisée offre un avantage significatif à des millions de développeurs, qui peuvent désormais bénéficier automatiquement des optimisations des performances de l’IA sans aucun effort supplémentaire.

Partenariat avec Alibaba : Modèle Qwen2-VL-2B-Instruct

Une nouvelle étape dans l’avancement de l’IA multimodale sur les appareils périphériques a été franchie grâce à une étroite collaboration avec MNN. MNN est un framework d’apprentissage profond léger et open source développé et maintenu par Alibaba. Ce partenariat a abouti à l’intégration réussie de KleidiAI, permettant aux charges de travail d’IA multimodale de s’exécuter efficacement sur les appareils mobiles utilisant des CPU Arm. La clé de cette réalisation est le modèle Qwen2-VL-2B-Instruct d’Alibaba, optimisé par instructions et doté de 2 milliards de paramètres. Ce modèle est spécifiquement conçu pour la compréhension d’images, le raisonnement texte-image et la génération multimodale dans plusieurs langues, le tout adapté aux contraintes des appareils périphériques.

Gains de Performance Mesurables

L’intégration de KleidiAI avec MNN a permis d’obtenir des améliorations de performances significatives et mesurables pour le modèle Qwen2-VL-2B-Instruct. Des temps de réponse plus rapides ont été observés dans les cas d’utilisation multimodaux cruciaux de l’IA en périphérie. Ces améliorations permettent d’améliorer l’expérience utilisateur dans diverses applications Alibaba axées sur le client. Les exemples incluent :

  • Chatbots pour le service client : Fournir des réponses plus rapides et plus efficaces aux demandes des clients.
  • Applications d’e-shopping : Permettre la recherche de produits à partir de photos, permettant aux clients de trouver rapidement les articles qu’ils recherchent en téléchargeant simplement une image.

L’amélioration de la vitesse dans ces applications est le résultat direct de gains de performance substantiels :

  • Amélioration du pré-remplissage (Pre-fill) : Une amélioration remarquable des performances de 57 % a été obtenue en pré-remplissage. Il s’agit de l’étape cruciale où les modèles d’IA traitent les entrées d’invites multi-sources avant de générer une réponse.
  • Amélioration du décodage (Decode) : Une amélioration significative des performances de 28 % a été observée en décodage. Il s’agit du processus par lequel le modèle d’IA génère du texte après avoir traité une invite.

Au-delà de la vitesse, l’intégration de KleidiAI contribue également à un traitement plus efficace des charges de travail d’IA en périphérie. Ceci est réalisé en réduisant le coût de calcul global associé aux charges de travail multimodales. Ces gains de performance et d’efficacité sont facilement accessibles à des millions de développeurs. Tout développeur exécutant des applications et des charges de travail sur le framework MNN, ainsi que sur d’autres frameworks d’IA populaires pour les appareils périphériques où KleidiAI est intégré, peut en bénéficier immédiatement.

Démonstration en Situation Réelle : Présentation au MWC

Les capacités pratiques du modèle Qwen2-VL-2B-Instruct, optimisé par la nouvelle intégration de KleidiAI avec MNN, ont été présentées au Mobile World Congress (MWC). Une démonstration sur le stand d’Arm a mis en évidence la capacité du modèle à comprendre diverses combinaisons d’entrées visuelles et textuelles. Le modèle a ensuite répondu par un résumé concis du contenu de l’image. L’ensemble de ce processus a été exécuté sur le CPU Arm de smartphones, démontrant la puissance et l’efficacité de la solution. Ces smartphones étaient basés sur le système sur puce (SoC) mobile Dimensity 9400 d’MediaTek, alimenté par Arm, y compris la série vivo X200.

Un Pas en Avant Significatif dans l’Expérience Utilisateur

L’intégration de KleidiAI d’Arm avec le framework MNN pour le modèle Qwen2-VL-2B-Instruct d’Alibaba représente un bond en avant substantiel dans l’expérience utilisateur pour les charges de travail d’IA multimodale. Cette avancée offre ces expériences améliorées directement en périphérie, le tout alimenté par le CPU Arm. Ces capacités sont facilement disponibles sur les appareils mobiles, avec des applications de premier plan axées sur le client tirant déjà parti des avantages de KleidiAI.

L’Avenir de l’IA Multimodale sur les Appareils Périphériques

À l’avenir, les optimisations transparentes de KleidiAI pour les charges de travail d’IA continueront de permettre à des millions de développeurs de créer des expériences multimodales de plus en plus sophistiquées sur les appareils périphériques. Cette innovation continue ouvrira la voie à la prochaine vague d’informatique intelligente, marquant une étape importante dans l’évolution continue de l’IA.

Citations des Dirigeants d’Alibaba

‘Nous sommes heureux de voir la collaboration entre le grand modèle de langage Qwen d’Alibaba Cloud, Arm KleidiAI et MNN. L’intégration du framework d’inférence sur appareil de MNN avec Arm KleidiAI a considérablement amélioré la latence et l’efficacité énergétique de Qwen. Ce partenariat valide le potentiel des LLM sur les appareils mobiles et améliore l’expérience utilisateur de l’IA. Nous attendons avec impatience de poursuivre nos efforts pour faire progresser l’informatique IA sur appareil.’ - Dong Xu, Directeur Général de Tongyi Large Model Business, Alibaba Cloud.

‘L’intégration technique entre le framework d’inférence MNN et Arm KleidiAI marque une avancée majeure dans l’accélération sur appareil. Grâce à l’optimisation conjointe de l’architecture, nous avons considérablement amélioré l’efficacité de l’inférence sur appareil du LLM Tongyi, comblant le fossé entre la puissance de calcul mobile limitée et les capacités d’IA avancées. Cette réalisation met en évidence notre expertise technique et notre collaboration intersectorielle. Nous sommes impatients de poursuivre ce partenariat pour améliorer l’écosystème informatique sur appareil, offrant des expériences d’IA plus fluides et plus efficaces sur mobile.’ - Xiaotang Jiang, Responsable de MNN, Taobao and Tmall Group, Alibaba.

Approfondissement des Aspects Techniques

Pour apprécier pleinement l’importance de cette collaboration, il est utile d’examiner certains des détails techniques sous-jacents.

Le Rôle de MNN

La philosophie de conception de MNN est centrée sur l’efficacité et la portabilité. Il y parvient grâce à plusieurs caractéristiques clés :

  • Architecture Légère : MNN est conçu pour avoir une faible empreinte, minimisant les besoins en stockage et en mémoire sur les appareils périphériques.
  • Opérations Optimisées : Le framework intègre des opérations mathématiques hautement optimisées spécifiquement adaptées aux CPU Arm, maximisant les performances.
  • Compatibilité Multiplateforme : MNN prend en charge une large gamme de systèmes d’exploitation et de plateformes matérielles, ce qui en fait un choix polyvalent pour les développeurs.

La Contribution de KleidiAI

KleidiAI complète les forces de MNN en fournissant un ensemble de routines spécialisées qui accélèrent davantage l’inférence IA. Ces routines tirent parti de la vaste expérience d’Arm en matière d’architecture CPU pour débloquer des gains de performance qui seraient difficiles à obtenir autrement. Les aspects clés de la contribution de KleidiAI incluent :

  • Noyaux Hautement Optimisés : KleidiAI fournit des noyaux hautement optimisés pour les opérations d’IA courantes, telles que la multiplication matricielle et la convolution. Ces noyaux sont méticuleusement réglés pour tirer parti des caractéristiques spécifiques des CPU Arm.
  • Intégration Automatique : L’intégration transparente de KleidiAI dans les frameworks d’IA populaires signifie que les développeurs n’ont pas besoin d’incorporer manuellement ces optimisations. Les avantages en termes de performances sont automatiquement appliqués, simplifiant le processus de développement.
  • Amélioration Continue : Arm s’engage à mettre à jour et à améliorer continuellement KleidiAI, garantissant qu’il reste à la pointe de la technologie d’accélération de l’IA.

Qwen2-VL-2B-Instruct : Un Modèle Multimodal Puissant

Le modèle Qwen2-VL-2B-Instruct témoigne de l’expertise d’Alibaba en matière de grands modèles de langage et d’IA multimodale. Ses principales caractéristiques incluent :

  • Réglage des Instructions : Le modèle est spécifiquement réglé pour suivre les instructions, ce qui le rend très adaptable à un large éventail de tâches.
  • Capacités Multimodales : Il excelle dans la compréhension et le traitement des informations visuelles et textuelles, permettant des applications telles que le légendage d’images et la réponse aux questions visuelles.
  • Prise en Charge Multilingue : Le modèle est conçu pour fonctionner avec plusieurs langues, élargissant son applicabilité à différentes régions et bases d’utilisateurs.
  • Optimisé pour les Appareils Périphériques : Malgré ses puissantes capacités, le modèle est soigneusement conçu pour fonctionner dans les limites des ressources des appareils périphériques.

Élargir la Portée de l’IA Multimodale

Les avancées discutées ici ne se limitent pas aux smartphones. Les mêmes principes et technologies peuvent être appliqués à une large gamme d’appareils périphériques, notamment :

  • Appareils Domestiques Intelligents : Activation des assistants vocaux, reconnaissance d’images pour les caméras de sécurité et autres fonctionnalités intelligentes.
  • Appareils Portables : Alimentation de la surveillance de la santé, du suivi de la condition physique et des applications de réalité augmentée.
  • IoT Industriel : Facilitation de la maintenance prédictive, du contrôle qualité et de l’automatisation dans les environnements de fabrication.
  • Automobile : Amélioration des systèmes d’aide à la conduite, du divertissement en cabine et des capacités de conduite autonome.

Les applications potentielles de l’IA multimodale en périphérie sont vastes et continuent de s’étendre. À mesure que les modèles deviennent plus sophistiqués et que le matériel devient plus puissant, nous pouvons nous attendre à voir émerger des cas d’utilisation encore plus innovants et percutants. Cette collaboration entre Arm et Alibaba est une étape importante dans cette direction, apportant la puissance de l’IA multimodale à un public plus large et permettant une nouvelle génération d’appareils intelligents. L’accent mis sur l’efficacité, les performances et l’accessibilité pour les développeurs garantit que ces avancées auront un impact large et durable sur l’avenir de la technologie.