Arm Kleidi: Optimierung der KI-Inferenz auf Arm-CPUs
Die rasante Entwicklung der KI läutet eine neue Ära multimodaler Modelle ein. Diese hochentwickelten Systeme besitzen die Fähigkeit, Informationen aus einer Vielzahl von Quellen zu verarbeiten und zu interpretieren, darunter Text, Bilder, Audio, Video und sogar Sensordaten. Die Bereitstellung dieser leistungsstarken Modelle auf Edge-Geräten stellt jedoch erhebliche Hürden dar. Die inhärenten Einschränkungen in Bezug auf Leistung und Speicherkapazität von Edge-Hardware, kombiniert mit der komplexen Aufgabe, verschiedene Datentypen gleichzeitig zu verarbeiten, stellen eine komplexe Herausforderung dar.
Arm Kleidi wurde speziell entwickelt, um diese Herausforderung zu bewältigen, und bietet eine nahtlose Leistungsoptimierung für alle KI-Inferenz-Workloads, die auf Arm-CPUs ausgeführt werden. Das Herzstück von Kleidi ist KleidiAI, eine optimierte Suite hocheffizienter, quelloffener Arm-Routinen, die zur Beschleunigung von KI entwickelt wurden.
KleidiAI ist bereits in die neuesten Versionen weit verbreiteter KI-Frameworks für Edge-Geräte integriert. Dazu gehören ExecuTorch, Llama.cpp, LiteRT über XNNPACK und MediaPipe. Diese breite Integration bietet Millionen von Entwicklern einen erheblichen Vorteil, die nun automatisch und ohne zusätzlichen Aufwand von KI-Leistungsoptimierungen profitieren können.
Partnerschaft mit Alibaba: Qwen2-VL-2B-Instruct Modell
Ein neuer Meilenstein in der Weiterentwicklung der multimodalen KI auf Edge-Geräten wurde durch eine enge Zusammenarbeit mit MNN erreicht. MNN ist ein leichtgewichtiges, quelloffenes Deep-Learning-Framework, das von Alibaba entwickelt und gepflegt wird. Diese Partnerschaft hat zur erfolgreichen Integration von KleidiAI geführt, wodurch multimodale KI-Workloads effizient auf mobilen Geräten mit Arm-CPUs ausgeführt werden können. Der Schlüssel zu diesem Erfolg ist Alibabas befehlsoptimiertes 2B-Parameter-Modell Qwen2-VL-2B-Instruct. Dieses Modell wurde speziell für das Bildverständnis, die Text-zu-Bild-Argumentation und die multimodale Generierung in mehreren Sprachen entwickelt und ist auf die Einschränkungen von Edge-Geräten zugeschnitten.
Messbare Leistungssteigerungen
Die Integration von KleidiAI mit MNN hat zu signifikanten, messbaren Leistungsverbesserungen für das Qwen2-VL-2B-Instruct-Modell geführt. Schnellere Reaktionszeiten wurden bei wichtigen multimodalen KI-Anwendungsfällen am Edge beobachtet. Diese Verbesserungen ermöglichen verbesserte Benutzererlebnisse in einer Vielzahl von kundenorientierten Alibaba-Anwendungen. Beispiele hierfür sind:
- Chatbots für den Kundenservice: Bereitstellung schnellerer und effizienterer Antworten auf Kundenanfragen.
- E-Shopping-Anwendungen: Ermöglicht die Suche von Fotos nach Waren, sodass Kunden die gesuchten Artikel schnell finden können, indem sie einfach ein Bild hochladen.
Die verbesserte Geschwindigkeit in diesen Anwendungen ist ein direktes Ergebnis erheblicher Leistungssteigerungen:
- Pre-fill Verbesserung: Eine bemerkenswerte Leistungsverbesserung von 57 Prozent wurde beim Pre-fill erreicht. Dies bezieht sich auf die entscheidende Phase, in der KI-Modelle Eingabeaufforderungen aus mehreren Quellen verarbeiten, bevor sie eine Antwort generieren.
- Decode-Verbesserung: Eine signifikante Leistungsverbesserung von 28 Prozent wurde beim Decode beobachtet. Dies ist der Prozess, bei dem das KI-Modell nach der Verarbeitung einer Eingabeaufforderung Text generiert.
Neben der Geschwindigkeit trägt die KleidiAI-Integration auch zu einer effizienteren Verarbeitung von KI-Workloads am Edge bei. Dies wird erreicht, indem die Gesamtberechnungskosten, die mit multimodalen Workloads verbunden sind, gesenkt werden. Diese Leistungs- und Effizienzsteigerungen sind für Millionen von Entwicklern leicht zugänglich. Jeder Entwickler, der Anwendungen und Workloads auf dem MNN-Framework sowie anderen beliebten KI-Frameworks für Edge-Geräte ausführt, in die KleidiAI integriert ist, kann sofort davon profitieren.
Demonstration in der Praxis: MWC Showcase
Die praktischen Fähigkeiten des Qwen2-VL-2B-Instruct-Modells, das durch die neue KleidiAI-Integration mit MNN unterstützt wird, wurden auf dem Mobile World Congress (MWC) vorgestellt. Eine Demonstration am Arm-Stand zeigte die Fähigkeit des Modells, verschiedene Kombinationen von visuellen und Texteingaben zu verstehen. Das Modell antwortete dann mit einer kurzen Zusammenfassung des Bildinhalts. Dieser gesamte Prozess wurde auf der Arm-CPU von Smartphones ausgeführt, was die Leistungsfähigkeit und Effizienz der Lösung demonstriert. Diese Smartphones basierten auf MediaTeks Arm-basiertem Dimensity 9400 Mobile System-on-Chip (SoC), einschließlich der vivo X200-Serie.
Ein bedeutender Schritt nach vorn im Benutzererlebnis
Die Integration von Arms KleidiAI mit dem MNN-Framework für Alibabas Qwen2-VL-2B-Instruct-Modell stellt einen bedeutenden Fortschritt im Benutzererlebnis für multimodale KI-Workloads dar. Dieser Fortschritt liefert diese verbesserten Erlebnisse direkt am Edge, alles unterstützt von der Arm-CPU. Diese Funktionen sind auf mobilen Geräten leicht verfügbar, wobei führende kundenorientierte Anwendungen bereits die Vorteile von KleidiAI nutzen.
Die Zukunft der multimodalen KI auf Edge-Geräten
Mit Blick auf die Zukunft werden die nahtlosen Optimierungen von KleidiAI für KI-Workloads weiterhin Millionen von Entwicklern in die Lage versetzen, immer ausgefeiltere multimodale Erlebnisse auf Edge-Geräten zu schaffen. Diese kontinuierliche Innovation wird den Weg für die nächste Welle des intelligenten Computing ebnen und einen bedeutenden Schritt nach vorn in der fortlaufenden Entwicklung der KI markieren.
Zitate von Alibaba-Führungskräften
‘Wir freuen uns über die Zusammenarbeit zwischen Alibaba Clouds großem Sprachmodell Qwen, Arm KleidiAI und MNN. Die Integration des geräteinternen Inferenz-Frameworks von MNN mit Arm KleidiAI hat die Latenz und Energieeffizienz von Qwen erheblich verbessert. Diese Partnerschaft bestätigt das Potenzial von LLMs auf mobilen Geräten und verbessert das KI-Benutzererlebnis. Wir freuen uns auf weitere Anstrengungen zur Förderung des geräteinternen KI-Computing.’ - Dong Xu, GM von Tongyi Large Model Business, Alibaba Cloud.
‘Die technische Integration zwischen dem MNN-Inferenz-Framework und Arm KleidiAI stellt einen großen Durchbruch in der geräteinternen Beschleunigung dar. Durch die gemeinsame Optimierung der Architektur haben wir die geräteinterne Inferenz-Effizienz des Tongyi LLM erheblich verbessert und die Lücke zwischen begrenzter mobiler Rechenleistung und fortschrittlichen KI-Fähigkeiten geschlossen. Diese Leistung unterstreicht unser technisches Know-how und unsere branchenübergreifende Zusammenarbeit. Wir freuen uns darauf, diese Partnerschaft fortzusetzen, um das geräteinterne Computing-Ökosystem zu verbessern und reibungslosere und effizientere KI-Erlebnisse auf Mobilgeräten zu ermöglichen.’ - Xiaotang Jiang, Leiter von MNN, Taobao und Tmall Group, Alibaba.
Ein tieferer Einblick in die technischen Aspekte
Um die Bedeutung dieser Zusammenarbeit voll und ganz zu würdigen, ist es hilfreich, einige der zugrunde liegenden technischen Details zu untersuchen.
Die Rolle von MNN
Die Designphilosophie von MNN konzentriert sich auf Effizienz und Portabilität. Dies wird durch mehrere Schlüsselfunktionen erreicht:
- Leichtgewichtige Architektur: MNN ist so konzipiert, dass es einen geringen Platzbedarf hat, wodurch der Speicher- und Speicherbedarf auf Edge-Geräten minimiert wird.
- Optimierte Operationen: Das Framework enthält hochoptimierte mathematische Operationen, die speziell auf Arm-CPUs zugeschnitten sind und die Leistung maximieren.
- Plattformübergreifende Kompatibilität: MNN unterstützt eine breite Palette von Betriebssystemen und Hardwareplattformen, was es zu einer vielseitigen Wahl für Entwickler macht.
Der Beitrag von KleidiAI
KleidiAI ergänzt die Stärken von MNN durch die Bereitstellung einer Reihe spezialisierter Routinen, die die KI-Inferenz weiter beschleunigen. Diese Routinen nutzen Arms umfangreiche Erfahrung in der CPU-Architektur, um Leistungssteigerungen zu erzielen, die sonst nur schwer zu erreichen wären. Zu den wichtigsten Aspekten des Beitrags von KleidiAI gehören:
- Hochoptimierte Kernel: KleidiAI bietet hochoptimierte Kernel für gängige KI-Operationen wie Matrixmultiplikation und Faltung. Diese Kernel sind sorgfältig abgestimmt, um die spezifischen Funktionen von Arm-CPUs zu nutzen.
- Automatische Integration: Die nahtlose Integration von KleidiAI in beliebte KI-Frameworks bedeutet, dass Entwickler diese Optimierungen nicht manuell einbinden müssen. Die Leistungsvorteile werden automatisch angewendet, was den Entwicklungsprozess vereinfacht.
- Kontinuierliche Verbesserung: Arm ist bestrebt, KleidiAI kontinuierlich zu aktualisieren und zu verbessern, um sicherzustellen, dass es an der Spitze der KI-Beschleunigungstechnologie bleibt.
Qwen2-VL-2B-Instruct: Ein leistungsstarkes multimodales Modell
Das Qwen2-VL-2B-Instruct-Modell ist ein Beweis für Alibabas Expertise in großen Sprachmodellen und multimodaler KI. Zu seinen wichtigsten Merkmalen gehören:
- Befehlsoptimierung: Das Modell ist speziell darauf abgestimmt, Befehle zu befolgen, wodurch es sehr anpassungsfähig an eine Vielzahl von Aufgaben ist.
- Multimodale Fähigkeiten: Es zeichnet sich durch das Verstehen und Verarbeiten von visuellen und textuellen Informationen aus und ermöglicht Anwendungen wie Bildunterschriften und visuelle Fragenbeantwortung.
- Mehrsprachige Unterstützung: Das Modell ist so konzipiert, dass es mit mehreren Sprachen funktioniert, wodurch seine Anwendbarkeit in verschiedenen Regionen und Benutzergruppen erweitert wird.
- Optimiert für Edge-Geräte: Trotz seiner leistungsstarken Fähigkeiten ist das Modell sorgfältig darauf ausgelegt, innerhalb der Ressourcenbeschränkungen von Edge-Geräten zu arbeiten.
Erweiterung des Anwendungsbereichs der multimodalen KI
Die hier diskutierten Fortschritte sind nicht auf Smartphones beschränkt. Die gleichen Prinzipien und Technologien können auf eine breite Palette von Edge-Geräten angewendet werden, darunter:
- Smart-Home-Geräte: Ermöglicht Sprachassistenten, Bilderkennung für Überwachungskameras und andere intelligente Funktionen.
- Tragbare Geräte: Unterstützung von Gesundheitsüberwachung, Fitnesstracking und Augmented-Reality-Anwendungen.
- Industrielles IoT: Erleichterung der vorausschauenden Wartung, Qualitätskontrolle und Automatisierung in Fertigungsumgebungen.
- Automobil: Verbesserung von Fahrerassistenzsystemen, Unterhaltung im Fahrzeug und autonomen Fahrfunktionen.
Die potenziellen Anwendungen der multimodalen KI am Edge sind vielfältig und nehmen weiter zu. Da Modelle immer ausgefeilter und Hardware immer leistungsfähiger werden, können wir davon ausgehen, dass noch innovativere und wirkungsvollere Anwendungsfälle entstehen werden. Diese Zusammenarbeit zwischen Arm und Alibaba ist ein bedeutender Schritt in diese Richtung, der die Leistungsfähigkeit der multimodalen KI einem breiteren Publikum zugänglich macht und eine neue Generation intelligenter Geräte ermöglicht. Der Fokus auf Effizienz, Leistung und Zugänglichkeit für Entwickler stellt sicher, dass diese Fortschritte einen breiten und nachhaltigen Einfluss auf die Zukunft der Technologie haben werden.