Arm Kleidi: Optymalizacja wnioskowania AI na procesorach Arm
Szybka ewolucja AI zapoczątkowuje nową erę modeli multimodalnych. Te zaawansowane systemy mają zdolność przetwarzania i interpretowania informacji z różnych źródeł, w tym tekstu, obrazów, dźwięku, wideo, a nawet danych z czujników. Jednak wdrażanie tych potężnych modeli na urządzeniach brzegowych wiąże się ze znacznymi przeszkodami. Wrodzone ograniczenia mocy i pojemności pamięci sprzętu brzegowego, w połączeniu ze skomplikowanym zadaniem jednoczesnego przetwarzania różnych typów danych, stanowią złożone wyzwanie.
Arm Kleidi został specjalnie zaprojektowany, aby sprostać temu wyzwaniu, zapewniając bezproblemową optymalizację wydajności dla wszystkich obciążeń wnioskowania AI, które działają na procesorach Arm. Sercem Kleidi jest KleidiAI, usprawniony zestaw wysoce wydajnych, open-source’owych procedur Arm, stworzonych w celu przyspieszenia AI.
KleidiAI jest już zintegrowany z najnowszymi wersjami szeroko stosowanych frameworków AI dla urządzeń brzegowych. Należą do nich ExecuTorch, Llama.cpp, LiteRT via XNNPACK i MediaPipe. Ta szeroka integracja oferuje znaczącą korzyść milionom programistów, którzy mogą teraz automatycznie korzystać z optymalizacji wydajności AI bez żadnego dodatkowego wysiłku.
Partnerstwo z Alibaba: Model Qwen2-VL-2B-Instruct
Nowy kamień milowy w rozwoju multimodalnego AI na urządzeniach brzegowych został osiągnięty dzięki ścisłej współpracy z MNN. MNN to lekki, open-source’owy framework głębokiego uczenia opracowany i utrzymywany przez Alibaba. To partnerstwo zaowocowało pomyślną integracją KleidiAI, umożliwiając wydajne uruchamianie multimodalnych obciążeń AI na urządzeniach mobilnych przy użyciu procesorów Arm. Kluczem do tego osiągnięcia jest dostrojony instrukcjami 2B-parametrowy model Qwen2-VL-2B-Instruct firmy Alibaba. Model ten został specjalnie zaprojektowany do rozumienia obrazów, wnioskowania tekst-do-obrazu i multimodalnej generacji w wielu językach, a wszystko to dostosowane do ograniczeń urządzeń brzegowych.
Mierzalne wzrosty wydajności
Integracja KleidiAI z MNN przyniosła znaczące, mierzalne wzrosty wydajności dla modelu Qwen2-VL-2B-Instruct. Zaobserwowano szybsze czasy reakcji w kluczowych przypadkach użycia multimodalnego AI na brzegu sieci. Te ulepszenia odblokowują ulepszone doświadczenia użytkowników w różnych aplikacjach Alibaba zorientowanych na klienta. Przykłady obejmują:
- Chatboty do obsługi klienta: Zapewnianie szybszych i bardziej efektywnych odpowiedzi na zapytania klientów.
- Aplikacje e-zakupowe: Umożliwienie wyszukiwania produktów na podstawie zdjęć, pozwalając klientom szybko znaleźć przedmioty, których szukają, po prostu przesyłając obraz.
Zwiększona szybkość w tych aplikacjach jest bezpośrednim wynikiem znacznych wzrostów wydajności:
- Poprawa pre-fill: Osiągnięto niezwykłą 57-procentową poprawę wydajności w pre-fill. Odnosi się to do kluczowego etapu, w którym modele AI obsługują wieloźródłowe dane wejściowe przed wygenerowaniem odpowiedzi.
- Ulepszenie dekodowania: Zaobserwowano znaczną 28-procentową poprawę wydajności w dekodowaniu. Jest to proces, w którym model AI generuje tekst po przetworzeniu monitu.
Poza szybkością, integracja KleidiAI przyczynia się również do bardziej wydajnego przetwarzania obciążeń AI na brzegu sieci. Osiąga się to poprzez obniżenie ogólnego kosztu obliczeniowego związanego z obciążeniami multimodalnymi. Te wzrosty wydajności i efektywności są łatwo dostępne dla milionów programistów. Każdy programista uruchamiający aplikacje i obciążenia na frameworku MNN, a także innych popularnych frameworkach AI dla urządzeń brzegowych, w których zintegrowano KleidiAI, może natychmiast skorzystać.
Demonstracja w świecie rzeczywistym: Prezentacja na MWC
Praktyczne możliwości modelu Qwen2-VL-2B-Instruct, wspieranego przez nową integrację KleidiAI z MNN, zostały zaprezentowane na Mobile World Congress (MWC). Demonstracja na stoisku Arm podkreśliła zdolność modelu do rozumienia różnorodnych kombinacji danych wejściowych wizualnych i tekstowych. Następnie model odpowiedział zwięzłym podsumowaniem zawartości obrazu. Cały ten proces został wykonany na procesorze Arm smartfonów, pokazując moc i wydajność rozwiązania. Smartfony te zostały zbudowane na opartym na Arm mobilnym systemie-on-chip (SoC) Dimensity 9400 firmy MediaTek, w tym na serii vivo X200.
Znaczący krok naprzód w doświadczeniu użytkownika
Integracja KleidiAI firmy Arm z frameworkiem MNN dla modelu Qwen2-VL-2B-Instruct firmy Alibaba stanowi znaczący krok naprzód w doświadczeniu użytkownika dla multimodalnych obciążeń AI. Ten postęp zapewnia te ulepszone doświadczenia bezpośrednio na brzegu sieci, a wszystko to jest zasilane przez procesor Arm. Te możliwości są łatwo dostępne na urządzeniach mobilnych, a wiodące aplikacje zorientowane na klienta już wykorzystują zalety KleidiAI.
Przyszłość multimodalnego AI na urządzeniach brzegowych
Patrząc w przyszłość, bezproblemowe optymalizacje KleidiAI dla obciążeń AI będą nadal wzmacniać miliony programistów. Będą oni mogli tworzyć coraz bardziej wyrafinowane multimodalne doświadczenia na urządzeniach brzegowych. Ta ciągła innowacja utoruje drogę dla następnej fali inteligentnego przetwarzania, stanowiąc znaczący krok naprzód w trwającej ewolucji AI.
Cytaty z kierownictwa Alibaba
‘Cieszymy się z współpracy między dużym modelem językowym Qwen firmy Alibaba Cloud, Arm KleidiAI i MNN. Integracja frameworka wnioskowania na urządzeniu MNN z Arm KleidiAI znacznie poprawiła opóźnienie i efektywność energetyczną Qwen. To partnerstwo potwierdza potencjał LLM na urządzeniach mobilnych i poprawia doświadczenie użytkownika AI. Z niecierpliwością czekamy na dalsze wysiłki w rozwoju obliczeń AI na urządzeniach.’ - Dong Xu, GM of Tongyi Large Model Business, Alibaba Cloud.
‘Integracja techniczna między frameworkiem wnioskowania MNN a Arm KleidiAI stanowi duży przełom w akceleracji na urządzeniu. Dzięki wspólnej optymalizacji architektury znacznie poprawiliśmy wydajność wnioskowania Tongyi LLM na urządzeniu, wypełniając lukę między ograniczoną mocą obliczeniową urządzeń mobilnych a zaawansowanymi możliwościami AI. To osiągnięcie podkreśla naszą wiedzę techniczną i współpracę międzybranżową. Z niecierpliwością czekamy na kontynuację tego partnerstwa w celu ulepszenia ekosystemu obliczeń na urządzeniu, zapewniając płynniejsze i bardziej wydajne doświadczenia AI na urządzeniach mobilnych.’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.
Zagłębianie się w aspekty techniczne
Aby w pełni docenić znaczenie tej współpracy, warto przyjrzeć się niektórym podstawowym szczegółom technicznym.
Rola MNN
Filozofia projektowania MNN koncentruje się na wydajności i przenośności. Osiąga to dzięki kilku kluczowym cechom:
- Lekka architektura: MNN został zaprojektowany tak, aby zajmował mało miejsca, minimalizując wymagania dotyczące pamięci masowej i pamięci RAM na urządzeniach brzegowych.
- Zoptymalizowane operacje: Framework zawiera wysoce zoptymalizowane operacje matematyczne specjalnie dostosowane do procesorów Arm, maksymalizując wydajność.
- Kompatybilność międzyplatformowa: MNN obsługuje szeroką gamę systemów operacyjnych i platform sprzętowych, co czyni go wszechstronnym wyborem dla programistów.
Wkład KleidiAI
KleidiAI uzupełnia mocne strony MNN, zapewniając zestaw wyspecjalizowanych procedur, które dodatkowo przyspieszają wnioskowanie AI. Procedury te wykorzystują bogate doświadczenie firmy Arm w architekturze procesorów, aby odblokować wzrosty wydajności, które byłyby trudne do osiągnięcia w inny sposób. Kluczowe aspekty wkładu KleidiAI obejmują:
- Wysoce zoptymalizowane jądra: KleidiAI zapewnia wysoce zoptymalizowane jądra dla typowych operacji AI, takich jak mnożenie macierzy i splot. Jądra te są starannie dostrojone, aby wykorzystać specyficzne cechy procesorów Arm.
- Automatyczna integracja: Bezproblemowa integracja KleidiAI z popularnymi frameworkami AI oznacza, że programiści nie muszą ręcznie włączać tych optymalizacji. Korzyści z wydajności są automatycznie stosowane, upraszczając proces programowania.
- Ciągłe doskonalenie: Arm jest zaangażowany w ciągłe aktualizowanie i ulepszanie KleidiAI, zapewniając, że pozostaje on w czołówce technologii akceleracji AI.
Qwen2-VL-2B-Instruct: Potężny model multimodalny
Model Qwen2-VL-2B-Instruct jest świadectwem wiedzy firmy Alibaba w zakresie dużych modeli językowych i multimodalnego AI. Jego kluczowe cechy obejmują:
- Dostrajanie instrukcji: Model jest specjalnie dostrojony do wykonywania instrukcji, co czyni go wysoce elastycznym w szerokim zakresie zadań.
- Możliwości multimodalne: Doskonale radzi sobie z rozumieniem i przetwarzaniem zarówno informacji wizualnych, jak i tekstowych, umożliwiając aplikacje takie jak opisywanie obrazów i odpowiadanie na pytania wizualne.
- Obsługa wielu języków: Model jest zaprojektowany do pracy z wieloma językami, poszerzając jego zastosowanie w różnych regionach i bazach użytkowników.
- Zoptymalizowany dla urządzeń brzegowych: Pomimo swoich potężnych możliwości, model jest starannie zaprojektowany, aby działać w ramach ograniczeń zasobów urządzeń brzegowych.
Rozszerzanie zakresu multimodalnego AI
Omówione tutaj postępy nie ograniczają się do smartfonów. Te same zasady i technologie można zastosować do szerokiej gamy urządzeń brzegowych, w tym:
- Urządzenia inteligentnego domu: Umożliwienie asystentów głosowych, rozpoznawania obrazów dla kamer bezpieczeństwa i innych inteligentnych funkcji.
- Urządzenia do noszenia: Zasilanie monitorowania zdrowia, śledzenia kondycji i aplikacji rozszerzonej rzeczywistości.
- Przemysłowy IoT: Ułatwianie konserwacji predykcyjnej, kontroli jakości i automatyzacji w środowiskach produkcyjnych.
- Motoryzacja: Ulepszanie systemów wspomagania kierowcy, rozrywki w kabinie i możliwości autonomicznej jazdy.
Potencjalne zastosowania multimodalnego AI na brzegu sieci są ogromne i stale się rozszerzają. W miarę jak modele stają się coraz bardziej wyrafinowane, a sprzęt staje się coraz potężniejszy, możemy spodziewać się pojawienia się jeszcze bardziej innowacyjnych i wpływowych przypadków użycia. Ta współpraca między Arm i Alibaba jest znaczącym krokiem w tym kierunku, przenosząc moc multimodalnego AI do szerszego grona odbiorców i umożliwiając nową generację inteligentnych urządzeń. Koncentracja na wydajności, osiągach i dostępności dla programistów zapewnia, że te postępy będą miały szeroki i trwały wpływ na przyszłość technologii.