Arm Kleidi: Оптимизиране на AI изводите на Arm CPU
Бързата еволюция на AI въвежда нова ера на мултимодални модели. Тези сложни системи притежават способността да обработват и интерпретират информация от различни източници, включително текст, изображения, аудио, видео и дори данни от сензори. Въпреки това, внедряването на тези мощни модели на периферни устройства (edge devices) представлява значителни препятствия. Присъщите ограничения в мощността и капацитета на паметта на периферния хардуер, съчетани със сложната задача за едновременна обработка на различни типове данни, създават комплексно предизвикателство.
Arm Kleidi е специално проектиран да се справи с това предизвикателство, осигурявайки безпроблемна оптимизация на производителността за всички AI изводи, които се изпълняват на Arm CPU. В основата на Kleidi е KleidiAI, опростен пакет от високоефективни, open-source Arm рутини, създадени да ускорят AI.
KleidiAI вече е интегриран в най-новите версии на широко използвани AI рамки за периферни устройства. Те включват ExecuTorch, Llama.cpp, LiteRT чрез XNNPACK и MediaPipe. Тази широко разпространена интеграция предлага значително предимство на милиони разработчици, които вече могат автоматично да се възползват от оптимизациите на производителността на AI без никакви допълнителни усилия.
Партньорство с Alibaba: Модел Qwen2-VL-2B-Instruct
Нов етап в развитието на мултимодалния AI на периферни устройства беше постигнат чрез тясно сътрудничество с MNN. MNN е лека, open-source рамка за дълбоко обучение, разработена и поддържана от Alibaba. Това партньорство доведе до успешната интеграция на KleidiAI, позволявайки на мултимодалните AI натоварвания да работят ефективно на мобилни устройства, използващи Arm CPU. Ключът към това постижение е инструктивно настроеният 2B параметър Qwen2-VL-2B-Instruct модел на Alibaba. Този модел е специално проектиран за разбиране на изображения, разсъждения от текст към изображение и мултимодално генериране на множество езици, всички пригодени за ограниченията на периферните устройства.
Измерими подобрения на производителността
Интеграцията на KleidiAI с MNN доведе до значителни, измерими подобрения на производителността за модела Qwen2-VL-2B-Instruct. Наблюдавани са по-бързи времена за реакция при ключови AI мултимодални случаи на употреба в периферията. Тези подобрения отключват подобрени потребителски изживявания в различни ориентирани към клиента приложения на Alibaba. Примерите включват:
- Чатботове за обслужване на клиенти: Осигуряване на по-бързи и по-ефективни отговори на запитвания на клиенти.
- Приложения за електронно пазаруване: Активиране на търсене от снимка към стоки, което позволява на клиентите бързо да намират артикулите, които търсят, като просто качат изображение.
Повишената скорост в тези приложения е пряк резултат от значителни подобрения на производителността:
- Подобрение на предварителното попълване (Pre-fill): Постигнато е забележително 57% подобрение на производителността при предварителното попълване. Това се отнася до решаващия етап, при който AI моделите обработват многоизточни входни данни (prompt inputs), преди да генерират отговор.
- Подобрение на декодирането (Decode): Наблюдавано е значително 28% подобрение на производителността при декодирането. Това е процесът, при който AI моделът генерира текст след обработка на подкана.
Освен скоростта, интеграцията на KleidiAI също допринася за по-ефективна обработка на AI натоварвания в периферията. Това се постига чрез намаляване на общите изчислителни разходи, свързани с мултимодалните натоварвания. Тези подобрения на производителността и ефективността са лесно достъпни за милиони разработчици. Всеки разработчик, който изпълнява приложения и натоварвания на рамката MNN, както и други популярни AI рамки за периферни устройства, където KleidiAI е интегриран, може незабавно да се възползва.
Демонстрация в реалния свят: MWC Showcase
Практическите възможности на модела Qwen2-VL-2B-Instruct, задвижван от новата интеграция на KleidiAI с MNN, бяха демонстрирани на Mobile World Congress (MWC). Демонстрация на щанда на Arm подчерта способността на модела да разбира различни комбинации от визуални и текстови входове. След това моделът отговори с кратко резюме на съдържанието на изображението. Целият този процес беше изпълнен на Arm CPU на смартфони, демонстрирайки мощността и ефективността на решението. Тези смартфони бяха изградени върху мобилната система-върху-чип (SoC) Dimensity 9400, задвижвана от Arm на MediaTek, включително серията vivo X200.
Значителна стъпка напред в потребителското изживяване
Интеграцията на KleidiAI на Arm с рамката MNN за модела Qwen2-VL-2B-Instruct на Alibaba представлява значителен скок напред в потребителското изживяване за мултимодални AI натоварвания. Този напредък предоставя тези подобрени изживявания директно в периферията, всички задвижвани от Arm CPU. Тези възможности са лесно достъпни на мобилни устройства, като водещи приложения, ориентирани към клиента, вече се възползват от предимствата на KleidiAI.
Бъдещето на мултимодалния AI на периферни устройства
Гледайки напред, безпроблемните оптимизации на KleidiAI за AI натоварвания ще продължат да дават възможност на милиони разработчици. Те ще могат да създават все по-сложни мултимодални изживявания на периферни устройства. Тази непрекъсната иновация ще проправи пътя за следващата вълна на интелигентни изчисления, отбелязвайки значителна стъпка напред в продължаващата еволюция на AI.
Цитати от ръководството на Alibaba
‘Радваме се да видим сътрудничеството между големия езиков модел Qwen на Alibaba Cloud, Arm KleidiAI и MNN. Интегрирането на рамката за изводи на MNN на устройството с Arm KleidiAI значително подобри латентността и енергийната ефективност на Qwen. Това партньорство потвърждава потенциала на LLM на мобилни устройства и подобрява AI потребителското изживяване. Очакваме с нетърпение да продължим усилията си за напредък в AI изчисленията на устройства.’ - Dong Xu, генерален мениджър на Tongyi Large Model Business, Alibaba Cloud.
‘Техническата интеграция между рамката за изводи MNN и Arm KleidiAI бележи голям пробив в ускорението на устройства. С съвместната оптимизация на архитектурата значително подобрихме ефективността на изводите на Tongyi LLM на устройството, преодолявайки пропастта между ограничената мобилна изчислителна мощност и усъвършенстваните AI възможности. Това постижение подчертава нашата техническа експертиза и сътрудничество между индустриите. Очакваме с нетърпение да продължим това партньорство, за да подобрим екосистемата за изчисления на устройства, предоставяйки по-плавни и по-ефективни AI изживявания на мобилни устройства.’ - Xiaotang Jiang, ръководител на MNN, Taobao and Tmall Group, Alibaba.
Задълбочаване в техническите аспекти
За да оценим напълно значението на това сътрудничество, е полезно да разгледаме някои от основните технически детайли.
Ролята на MNN
Философията на дизайна на MNN се съсредоточава върху ефективността и преносимостта. Той постига това чрез няколко ключови характеристики:
- Лека архитектура: MNN е проектиран да има малък отпечатък, минимизирайки изискванията за съхранение и памет на периферни устройства.
- Оптимизирани операции: Рамката включва високо оптимизирани математически операции, специално пригодени за Arm CPU, максимизирайки производителността.
- Съвместимост между платформи: MNN поддържа широк спектър от операционни системи и хардуерни платформи, което го прави универсален избор за разработчиците.
Приносът на KleidiAI
KleidiAI допълва силните страни на MNN, като предоставя набор от специализирани рутини, които допълнително ускоряват AI изводите. Тези рутини използват обширния опит на Arm в CPU архитектурата, за да отключат подобрения на производителността, които биха били трудни за постигане по друг начин. Ключовите аспекти на приноса на KleidiAI включват:
- Високо оптимизирани ядра (Kernels): KleidiAI предоставя високо оптимизирани ядра за общи AI операции, като умножение на матрици и конволюция. Тези ядра са щателно настроени, за да се възползват от специфичните характеристики на Arm CPU.
- Автоматична интеграция: Безпроблемната интеграция на KleidiAI в популярни AI рамки означава, че разработчиците не е необходимо ръчно да включват тези оптимизации. Ползите за производителността се прилагат автоматично, опростявайки процеса на разработка.
- Непрекъснато подобрение: Arm се ангажира непрекъснато да актуализира и подобрява KleidiAI, гарантирайки, че той остава в челните редици на технологията за ускоряване на AI.
Qwen2-VL-2B-Instruct: Мощен мултимодален модел
Моделът Qwen2-VL-2B-Instruct е доказателство за експертизата на Alibaba в големите езикови модели и мултимодалния AI. Основните му характеристики включват:
- Инструктивно настройване (Instruction Tuning): Моделът е специално настроен да следва инструкции, което го прави изключително адаптивен към широк спектър от задачи.
- Мултимодални възможности: Той се отличава с разбиране и обработка както на визуална, така и на текстова информация, позволявайки приложения като надписи на изображения и визуални въпроси и отговори.
- Многоезична поддръжка: Моделът е проектиран да работи с множество езици, разширявайки приложимостта му в различни региони и потребителски бази.
- Оптимизиран за периферни устройства: Въпреки мощните си възможности, моделът е внимателно проектиран да работи в рамките на ресурсните ограничения на периферните устройства.
Разширяване на обхвата на мултимодалния AI
Обсъдените тук постижения не се ограничават до смартфони. Същите принципи и технологии могат да бъдат приложени към широк спектър от периферни устройства, включително:
- Устройства за интелигентен дом: Активиране на гласови асистенти, разпознаване на изображения за охранителни камери и други интелигентни функции.
- Носими устройства (Wearable Devices): Захранване на здравен мониторинг, проследяване на фитнес и приложения за добавена реалност.
- Индустриален IoT: Улесняване на предсказуемата поддръжка, контрола на качеството и автоматизацията в производствени условия.
- Автомобилна индустрия: Подобряване на системите за подпомагане на водача, развлеченията в кабината и възможностите за автономно шофиране.
Потенциалните приложения на мултимодалния AI в периферията са огромни и продължават да се разширяват. Тъй като моделите стават по-сложни, а хардуерът става по-мощен, можем да очакваме да се появят още по-иновативни и въздействащи случаи на употреба. Това сътрудничество между Arm и Alibaba е значителна стъпка в тази посока, предоставяйки силата на мултимодалния AI на по-широка аудитория и позволявайки ново поколение интелигентни устройства. Фокусът върху ефективността, производителността и достъпността за разработчиците гарантира, че тези постижения ще имат широко и трайно въздействие върху бъдещето на технологиите.