Google DeepMind представи Gemma 3n: Революция в AI

Неуморният стремеж към по-бърз, по-интелигентен и по-защитен изкуствен интелект на личните ни устройства води до дълбока трансформация на начина, по който се проектират и внедряват AI моделите. Навлизаме в ера, в която AI не е просто отдалечена услуга; това е локализирана интелигентност, вградена директно в нашите телефони, таблети и лаптопи. Тази промяна обещава почти мигновена реакция, значително намалени изисквания за памет и подновен акцент върху поверителността на потребителите. Тъй като мобилният хардуер продължава бързото си развитие, фокусът е върху създаването на компактни, светкавично бързи модели, способни да предефинират ежедневните ни цифрови взаимодействия.

Предизвикателството на мултимодалния AI на устройства

Едно от най-значимите препятствия в това начинание е доставянето на висококачествен, мултимодален AI в рамките на ограничените ресурси на мобилните устройства. За разлика от облачните системи, които се възползват от огромна изчислителна мощност, моделите на устройства трябва да работят със строги ограничения върху RAM и възможностите за обработка. Мултимодалният AI, който обхваща способността за интерпретиране на текст, изображения, аудио и видео, обикновено изисква големи модели, които могат да претоварят повечето мобилни устройства. Освен това, разчитането на облака въвежда латентност и проблеми с поверителността, което подчертава нуждата от модели, способни да работят локално, без да се компрометира производителността.

Gemma 3n: Скок напред в мобилния AI

За да отговори на тези предизвикателства, Google и Google DeepMind представиха Gemma 3n, новаторски AI модел, проектиран специално за внедряване първо на мобилни устройства. Gemma 3n е оптимизиран за производителност в платформите Android и Chrome и служи като основа за следващата итерация на Gemini Nano. Тази иновация представлява значителен напредък, предоставяйки мултимодални AI възможности на устройства с много по-малки обеми памет, като същевременно поддържа реакция в реално време. Това е и първият отворен модел, изграден върху тази споделена инфраструктура, предоставяйки на разработчиците незабавен достъп за експерименти.

Внедряване на Per-Layer Embeddings (PLE): Ключова иновация

В основата на Gemma 3n е прилагането на Per-Layer Embeddings (PLE), техника, която драстично намалява използването на RAM. Докато размерите на суровите модели са съответно 5 милиарда и 8 милиарда параметри, те функционират с обеми памет, еквивалентни на модели с 2 милиарда и 4 милиарда параметри. Динамичната консумация на памет е само 2 GB за модела 5B и 3 GB за версията 8B. Това се постига чрез вложена конфигурация на модела, където модел с 4B активен обем памет включва 2B подмодел, обучен с помощта на метод, наречен MatFormer. Това позволява на разработчиците да превключват режимите на производителност динамично, без да е необходимо да зареждат отделни модели. Допълнителни подобрения, като споделяне на KVC и квантуване на активиране, допълнително намаляват латентността и ускоряват скоростта на реакция. Например, времето за реакция на мобилни устройства се е подобрило с 1,5 пъти в сравнение с Gemma 3 4B, като същевременно се поддържа превъзходно качество на изхода.

Основни показатели на производителността

Показателите за производителност , постигнати от Gemma 3n подчертават пригодността му за мобилно внедряване. Той се отличава в задачи като автоматично разпознаване на реч и превод, позволявайки безпроблемно преобразуване на реч в преведен текст. На многоезични репери като WMT24++ (ChrF), той постига резултат от 50,1%, демонстрирайки силата си в езици като японски, немски, корейски, испански и френски. Неговата “mix’n’match” способност позволява създаването на подмодели, оптимизирани за различни комбинации от качество и латентност, предлагайки на разработчиците още по-голяма персонализация.

Мултимодални възможности и приложения

Архитектурата на Gemma 3n поддържа преплетени входове от различни модалности, включително текст, аудио, изображения и видео, позволявайки по-естествени и богати на контекст взаимодействия. Той може също така да работи офлайн, осигурявайки поверителност и надеждност дори без мрежова връзка. Потенциалните случаи на употреба са огромни, включително:

  • Обратна връзка на живо визуална и слухова: Осигуряване на реакции в реално време на потребителския вход чрез визуални и слухови канали.
  • Създаване на съдържание, ориентирано към контекста: Създаване на персонализирано съдържание въз основа на текущия контекст на потребителя, определен от различни сензорни входове.
  • Разширени гласови приложения: Позволяване на по-сложни гласови взаимодействия и контрол.

Основни характеристики на Gemma 3n

Gemma 3n включва набор от функции, включително:

  • Мобилен дизайн: Разработен чрез сътрудничество между Google, DeepMind, Qualcomm, MediaTek и Samsung System LSI за оптимална мобилна производителност.
  • Намален обем памет: Постига оперативни обеми от 2 GB и 3 GB за моделите с 5B и 8B параметри, съответно, използвайки Per-Layer Embeddings (PLE).
  • Подобрено време за реакция: Доставя 1,5 пъти по-бърза реакция на мобилни устройства в сравнение с Gemma 3 4B.
  • Многоезично владеене: Постига многоезичен бенчмарк резултат от 50,1% на WMT24++ (ChrF).
  • Мултимодален вход: Приема и разбира аудио, текст, изображения и видео, позволявайки сложна мултимодална обработка и преплетени входове.
  • Динамични подмодели: Поддържа динамични компромиси, използвайки MatFormer обучение с вложени подмодели и mix’n’match възможности.
  • Офлайн работа: Работи без интернет връзка, осигурявайки поверителност и надеждност.
  • Лесен достъп Предлага се чрез Google AI Studio и Google AI Edge, с възможности за обработка на текст и изображения.

Последици и бъдещи насоки

Gemma 3n предлага ясен път за превръщане на високопроизводителния AI в преносим и личен. Като адресират ограниченията на RAM чрез иновативна архитектура и подобряват многоезичните и мултимодални възможности, изследователите са разработили жизнеспособно решение за внедряване на усъвършенстван AI директно в ежедневните устройства. Гъвкавото превключване на подмодели, готовността за офлайн работа и бързото време за реакция представляват цялостен подход към мобилния AI. Бъдещите изследвания вероятно ще се фокусират върху подобряване на възможностите на модела, разширяване на съвместимостта му с по-широк спектър от устройства и проучване на нови приложения в области като разширена реалност, роботика и IoT.