Arm и Alibaba: мультимодальный ИИ

Arm Kleidi: оптимизация вывода ИИ на процессорах Arm

Быстрое развитие ИИ открывает новую эру мультимодальных моделей. Эти сложные системы обладают способностью обрабатывать и интерпретировать информацию из различных источников, включая текст, изображения, аудио, видео и даже данные с датчиков. Однако развертывание этих мощных моделей на периферийных устройствах сопряжено со значительными трудностями. Врожденные ограничения мощности и объема памяти периферийного оборудования в сочетании со сложной задачей одновременной обработки различных типов данных создают сложную проблему.

Arm Kleidi специально разработан для решения этой проблемы, обеспечивая бесшовную оптимизацию производительности для всех рабочих нагрузок вывода ИИ, которые выполняются на процессорах Arm. В основе Kleidi лежит KleidiAI, оптимизированный набор высокоэффективных процедур Arm с открытым исходным кодом, созданных для ускорения ИИ.

KleidiAI уже интегрирован в последние версии широко используемых платформ ИИ для периферийных устройств. К ним относятся ExecuTorch, Llama.cpp, LiteRT через XNNPACK и MediaPipe. Эта широкая интеграция дает значительное преимущество миллионам разработчиков, которые теперь могут автоматически пользоваться преимуществами оптимизации производительности ИИ без каких-либо дополнительных усилий.

Партнерство с Alibaba: модель Qwen2-VL-2B-Instruct

Новая веха в развитии мультимодального ИИ на периферийных устройствах была достигнута благодаря тесному сотрудничеству с MNN. MNN — это легкая платформа глубокого обучения с открытым исходным кодом, разработанная и поддерживаемая Alibaba. Это партнерство привело к успешной интеграции KleidiAI, что позволило эффективно выполнять мультимодальные рабочие нагрузки ИИ на мобильных устройствах с использованием процессоров Arm. Ключом к этому достижению является настроенная на инструкции модель Alibaba Qwen2-VL-2B-Instruct с 2B параметрами. Эта модель специально разработана для понимания изображений, рассуждений «текст-изображение» и мультимодальной генерации на нескольких языках, и все это с учетом ограничений периферийных устройств.

Измеримый прирост производительности

Интеграция KleidiAI с MNN привела к значительному и измеримому повышению производительности модели Qwen2-VL-2B-Instruct. Более быстрое время отклика наблюдалось в критически важных случаях использования мультимодального ИИ на периферии. Эти улучшения открывают расширенные возможности взаимодействия с пользователем в различных клиентских приложениях Alibaba. Примеры включают в себя:

  • Чат-боты для обслуживания клиентов: Обеспечение более быстрых и эффективных ответов на запросы клиентов.
  • Приложения для электронных покупок: Включение поиска товаров по фотографиям, что позволяет клиентам быстро находить нужные им товары, просто загрузив изображение.

Повышенная скорость в этих приложениях является прямым результатом существенного прироста производительности:

  • Улучшение предварительного заполнения: Достигнуто замечательное улучшение производительности предварительного заполнения на 57 процентов. Это относится к важнейшему этапу, когда модели ИИ обрабатывают входные данные из нескольких источников перед генерацией ответа.
  • Улучшение декодирования: Наблюдается значительное улучшение производительности декодирования на 28 процентов. Это процесс, когда модель ИИ генерирует текст после обработки подсказки.

Помимо скорости, интеграция KleidiAI также способствует более эффективной обработке рабочих нагрузок ИИ на периферии. Это достигается за счет снижения общих вычислительных затрат, связанных с мультимодальными рабочими нагрузками. Этот прирост производительности и эффективности легко доступен миллионам разработчиков. Любой разработчик, запускающий приложения и рабочие нагрузки на платформе MNN, а также на других популярных платформах ИИ для периферийных устройств, где интегрирован KleidiAI, может немедленно воспользоваться преимуществами.

Демонстрация в реальных условиях: демонстрация MWC

Практические возможности модели Qwen2-VL-2B-Instruct, основанные на новой интеграции KleidiAI с MNN, были продемонстрированы на Mobile World Congress (MWC). Демонстрация на стенде Arm показала способность модели понимать различные комбинации визуальных и текстовых входных данных. Затем модель ответила кратким изложением содержимого изображения. Весь этот процесс был выполнен на процессоре Arm смартфонов, демонстрируя мощность и эффективность решения. Эти смартфоны были построены на мобильной системе на кристалле (SoC) Dimensity 9400 на базе Arm от MediaTek, включая серию vivo X200.

Значительный шаг вперед в пользовательском опыте

Интеграция KleidiAI от Arm с платформой MNN для модели Qwen2-VL-2B-Instruct от Alibaba представляет собой существенный скачок вперед в пользовательском опыте для мультимодальных рабочих нагрузок ИИ. Это усовершенствование обеспечивает улучшенный опыт непосредственно на периферии, и все это работает на процессоре Arm. Эти возможности легко доступны на мобильных устройствах, а ведущие клиентские приложения уже используют преимущества KleidiAI.

Будущее мультимодального ИИ на периферийных устройствах

Заглядывая в будущее, можно сказать, что бесшовная оптимизация KleidiAI для рабочих нагрузок ИИ продолжит расширять возможности миллионов разработчиков. Они смогут создавать все более сложные мультимодальные интерфейсы на периферийных устройствах. Эти непрерывные инновации проложат путь к следующей волне интеллектуальных вычислений, знаменуя собой значительный шаг вперед в продолжающейся эволюции ИИ.

Цитаты руководства Alibaba

‘Мы рады видеть сотрудничество между большой языковой моделью Alibaba Cloud Qwen, Arm KleidiAI и MNN. Интеграция платформы вывода MNN на устройстве с Arm KleidiAI значительно улучшила задержку и энергоэффективность Qwen. Это партнерство подтверждает потенциал LLM на мобильных устройствах и улучшает взаимодействие с пользователем ИИ. Мы надеемся на продолжение усилий по развитию вычислений ИИ на устройствах.’ - Дун Сюй, генеральный директор Tongyi Large Model Business, Alibaba Cloud.

‘Техническая интеграция между платформой вывода MNN и Arm KleidiAI знаменует собой крупный прорыв в ускорении на устройстве. Благодаря совместной оптимизации архитектуры мы значительно повысили эффективность вывода Tongyi LLM на устройстве, преодолев разрывмежду ограниченной вычислительной мощностью мобильных устройств и передовыми возможностями ИИ. Это достижение подчеркивает наш технический опыт и межотраслевое сотрудничество. Мы надеемся на продолжение этого партнерства для улучшения экосистемы вычислений на устройствах, обеспечивая более плавный и эффективный опыт ИИ на мобильных устройствах.’ - Сяотан Цзян, руководитель MNN, Taobao and Tmall Group, Alibaba.

Углубляясь в технические аспекты

Чтобы в полной мере оценить значение этого сотрудничества, полезно изучить некоторые из основных технических деталей.

Роль MNN

Философия дизайна MNN сосредоточена на эффективности и портативности. Она достигает этого благодаря нескольким ключевым особенностям:

  • Легкая архитектура: MNN разработан, чтобы иметь небольшой размер, сводя к минимуму требования к хранению и памяти на периферийных устройствах.
  • Оптимизированные операции: Платформа включает в себя высокооптимизированные математические операции, специально предназначенные для процессоров Arm, что обеспечивает максимальную производительность.
  • Кроссплатформенная совместимость: MNN поддерживает широкий спектр операционных систем и аппаратных платформ, что делает его универсальным выбором для разработчиков.

Вклад KleidiAI

KleidiAI дополняет сильные стороны MNN, предоставляя набор специализированных процедур, которые еще больше ускоряют вывод ИИ. Эти процедуры используют обширный опыт Arm в архитектуре ЦП, чтобы добиться прироста производительности, которого было бы трудно достичь иным образом. Ключевые аспекты вклада KleidiAI включают в себя:

  • Высокооптимизированные ядра: KleidiAI предоставляет высокооптимизированные ядра для общих операций ИИ, таких как умножение матриц и свертка. Эти ядра тщательно настроены, чтобы использовать преимущества специфических особенностей процессоров Arm.
  • Автоматическая интеграция: Бесшовная интеграция KleidiAI в популярные платформы ИИ означает, что разработчикам не нужно вручную включать эти оптимизации. Преимущества производительности применяются автоматически, упрощая процесс разработки.
  • Постоянное совершенствование: Arm стремится постоянно обновлять и улучшать KleidiAI, гарантируя, что он останется на переднем крае технологии ускорения ИИ.

Qwen2-VL-2B-Instruct: мощная мультимодальная модель

Модель Qwen2-VL-2B-Instruct является свидетельством опыта Alibaba в области больших языковых моделей и мультимодального ИИ. Ее ключевые особенности включают в себя:

  • Настройка инструкций: Модель специально настроена на выполнение инструкций, что делает ее легко адаптируемой к широкому кругу задач.
  • Мультимодальные возможности: Она превосходно справляется с пониманием и обработкой как визуальной, так и текстовой информации, обеспечивая такие приложения, как подпись изображений и визуальные ответы на вопросы.
  • Многоязычная поддержка: Модель предназначена для работы с несколькими языками, расширяя ее применимость в разных регионах и базах пользователей.
  • Оптимизировано для периферийных устройств: Несмотря на свои мощные возможности, модель тщательно разработана для работы в условиях ограниченных ресурсов периферийных устройств.

Расширение сферы применения мультимодального ИИ

Обсуждаемые здесь достижения не ограничиваются смартфонами. Те же принципы и технологии могут быть применены к широкому спектру периферийных устройств, включая:

  • Устройства для умного дома: Включение голосовых помощников, распознавания изображений для камер безопасности и других интеллектуальных функций.
  • Носимые устройства: Обеспечение мониторинга здоровья, отслеживания физической активности и приложений дополненной реальности.
  • Промышленный IoT: Содействие профилактическому обслуживанию, контролю качества и автоматизации в производственных условиях.
  • Автомобилестроение: Улучшение систем помощи водителю, развлечений в салоне и возможностей автономного вождения.

Потенциальные применения мультимодального ИИ на периферии обширны и продолжают расширяться. По мере того, как модели становятся все более сложными, а аппаратное обеспечение становится все более мощным, мы можем ожидать появления еще более инновационных и эффективных вариантов использования. Это сотрудничество между Arm и Alibaba является значительным шагом в этом направлении, предоставляя возможности мультимодального ИИ более широкой аудитории и создавая новое поколение интеллектуальных устройств. Акцент на эффективности, производительности и доступности для разработчиков гарантирует, что эти достижения окажут широкое и долгосрочное влияние на будущее технологий.