Google DeepMind Gemma 3n: AI на устройствах

В неустанном стремлении к более быстрому, умному и конфиденциальному искусственному интеллекту на наших персональных устройствах происходит глубокая трансформация в том, как разрабатываются и развертываются модели ИИ. Мы вступаем в эпоху, когда ИИ – это не просто удаленный сервис; это локализованный интеллект, встроенный непосредственно в наши телефоны, планшеты и ноутбуки. Этот сдвиг обещает почти мгновенный отклик, значительно сниженные требования к памяти и новый акцент на конфиденциальности пользователей. По мере того, как мобильное оборудование продолжает быстро развиваться, основное внимание уделяется созданию компактных, молниеносных моделей, способных изменить наше повседневное цифровое взаимодействие.

Проблема многомодального AI на устройствах

Одним из наиболее существенных препятствий в этом начинании является предоставление высококачественного многомодального AI в средах мобильных устройств с ограниченными ресурсами. В отличие от облачных систем, которые выигрывают от огромной вычислительной мощности, модели на устройствах должны работать со строгими ограничениями по RAM и вычислительной мощности. Многомодальный AI, который включает в себя способность интерпретировать текст, изображения, аудио и видео, обычно требует больших моделей, которые могут перегружать большинство мобильных устройств. Более того, зависимость от облака вносит задержки и проблемы с конфиденциальностью, подчеркивая необходимость моделей, способных работать локально без ущерба для производительности.

Gemma 3n: Шаг вперед в мобильном AI

Чтобы решить эти задачи, Google и Google DeepMind представили Gemma 3n, новаторскую модель AI, разработанную специально для развертывания в первую очередь на мобильных устройствах. Gemma 3n оптимизирован для производительности на платформах Android и Chrome и служит основой для следующей итерации Gemini Nano. Эта инновация представляет собой существенный прогресс, предоставляя возможности многомодального AI на устройствах с гораздо меньшим объемом памяти, сохраняя при этом время отклика в реальном времени. Это также первая открытая модель, построенная на этой общей инфраструктуре, предоставляющая разработчикам немедленный доступ для экспериментов.

Per-Layer Embeddings (PLE): Ключевая инновация

В основе Gemma 3n лежит применение Per-Layer Embeddings (PLE), метода, который значительно снижает использование RAM. В то время как размеры необработанных моделей составляют 5 миллиардов и 8 миллиардов параметров соответственно, они функционируют с объемом памяти, эквивалентным моделям с 2 миллиардами и 4 миллиардами параметров. Динамическое потребление памяти составляет всего 2GB для модели 5B и 3GB для версии 8B. Это достигается за счет вложенной конфигурации модели, где модель с 4B активным объемом памяти включает в себя подмодель 2B, обученную с использованием метода под названием MatFormer. Это позволяет разработчикам динамически переключать режимы производительности без необходимости загружать отдельные модели. Дальнейшие усовершенствования, такие как совместное использование KVC и квантование активации, еще больше снижают задержку и ускоряют скорость отклика. Например, время отклика на мобильных устройствах улучшилось в 1.5 раза по сравнению с Gemma 3 4B, при этом сохраняется превосходное качество выходных данных.

Показатели производительности

Показатели производительности, достигнутые Gemma 3n, подчеркивают его пригодность для развертывания на мобильных устройствах. Он превосходно справляется с такими задачами, как автоматическое распознавание и перевод речи, обеспечивая плавное преобразование речи в переведенный текст. На многоязычных бенчмарках, таких как WMT24++ (ChrF), он достигает оценки 50.1%, демонстрируя свою силу в таких языках, как японский, немецкий, корейский, испанский и французский. Его возможность “mix’n’match” позволяет создавать подмодели, оптимизированные для различных комбинаций качества и задержки, предлагая разработчикам еще большую настройку.

Многомодальные возможности и приложения

Архитектура Gemma 3n поддерживает чередующиеся входные данные из разных модальностей, включая текст, аудио, изображения и видео, что позволяет осуществлять более естественное и контекстно-богатое взаимодействие. Он также может работать в автономном режиме, обеспечивая конфиденциальность и надежность даже без подключения к сети. Потенциальные варианты использования огромны, в том числе:

  • Живая визуальная и слуховая обратная связь: Предоставление ответов в режиме реального времени на пользовательский ввод по визуальным и слуховым каналам.
  • Контекстно-зависимая генерация контента: Создание контента, адаптированного к текущему контексту пользователя, определяемому различными входными данными с датчиков.
  • Продвинутые голосовые приложения: Обеспечение более сложного голосового взаимодействия и управления.

Ключевые особенности Gemma 3n

Gemma 3n включает в себя ряд функций, в том числе:

  • Дизайн, ориентированный на мобильные устройства: Разработан в сотрудничестве между Google, DeepMind, Qualcomm, MediaTek и Samsung System LSI для оптимальной производительности на мобильных устройствах.
  • Уменьшенный объем памяти: Обеспечивает оперативный объем 2GB и 3GB для моделей с 5B и 8B параметрами соответственно, используя Per-Layer Embeddings (PLE).
  • Улучшенное время отклика: Обеспечивает в 1.5 раза более быстрый отклик на мобильных устройствах по сравнению с Gemma 3 4B.
  • Многоязычная способность: Достигает многоязычной оценки 50.1% на WMT24++ (ChrF).
  • Многомодальный ввод: Принимает и понимает аудио, текст, изображения и видео, обеспечивая сложную многомодальную обработку и чередующиеся входные данные.
  • Динамические подмодели: Поддерживает динамические компромиссы, используя MatFormer training с вложенными подмоделями и возможностями mix’n’match.
  • Автономная работа: Работает без подключения к Интернету, обеспечивая конфиденциальность и надежность.
  • Легкий доступ: Доступно через Google AI Studio и Google AI Edge, с возможностью обработки текста и изображений.

Последствия и дальнейшие направления

Gemma 3n предлагает четкий путь для того, чтобы сделать высокопроизводительный AI портативным и конфиденциальным. Устраняя ограничения RAM с помощью инновационной архитектуры и расширяя многоязычные и многомодальные возможности, исследователи разработали жизнеспособное решение для доставки продвинутого AI непосредственно на повседневные устройства. Гибкое переключение подмоделей, готовность к автономной работе и быстрое время отклика представляют собой комплексный подход к AI, ориентированному на мобильные устройства. Будущие исследования, вероятно, будут сосредоточены на расширении возможностей модели, расширении ее совместимости с более широким спектром устройств и изучении новых приложений в таких областях, как дополненная реальность, робототехника и IoT.