Phi-4: мультимодальный ИИ от Microsoft

Семейство Phi расширяется: представление мультимодальных возможностей

Вклад Microsoft в эту развивающуюся область SLM — семейство Phi, набор компактных моделей. Четвертое поколение Phi было первоначально представлено в декабре, и теперь Microsoft дополняет линейку двумя значительными дополнениями: Phi-4-multimodal и Phi-4-mini. Как и их собратья, эти новые модели будут легко доступны через Azure AI Foundry, Hugging Face и каталог API Nvidia, все под разрешительной лицензией MIT.

Phi-4-multimodal, в частности, выделяется. Это модель с 5,6 миллиардами параметров, которая использует сложную технику, называемую ‘mixture-of-LoRAs’ (Low-Rank Adaptations). Этот подход позволяет модели одновременно обрабатывать речь, визуальный ввод и текстовые данные. LoRA представляют собой новый метод повышения производительности большой языковой модели в конкретных задачах, обходя необходимость обширной тонкой настройки по всем ее параметрам. Вместо этого разработчики, использующие LoRA, стратегически вставляют меньшее количество новых весов в модель. Только эти вновь введенные веса проходят обучение, что приводит к значительно более быстрому и эффективному с точки зрения памяти процессу. Результатом является коллекция более легких моделей, которые гораздо проще хранить, совместно использовать и развертывать.

Последствия этой эффективности существенны. Phi-4-multimodal обеспечивает вывод с малой задержкой – это означает, что он может обрабатывать информацию и предоставлять ответы очень быстро – при этом он оптимизирован для выполнения на устройстве. Это приводит к резкому сокращению вычислительных затрат, что позволяет запускать сложные приложения ИИ на устройствах, которым ранее не хватало необходимой вычислительной мощности.

Потенциальные варианты использования: от смартфонов до финансовых услуг

Потенциальные применения Phi-4-multimodal разнообразны и далеко идущи. Представьте себе модель, бесперебойно работающую на смартфонах, обеспечивающую расширенные функции в транспортных средствах или управляющую легкими корпоративными приложениями. Убедительным примером является многоязычное приложение для финансовых услуг, способное понимать и отвечать на запросы пользователей на разных языках, обрабатывать визуальные данные, такие как документы, и все это при эффективной работе на устройстве пользователя.

Отраслевые аналитики признают преобразующий потенциал Phi-4-multimodal. Он рассматривается как значительный шаг вперед для разработчиков, особенно тех, кто сосредоточен на создании приложений на основе ИИ для мобильных устройств или сред, где вычислительные ресурсы ограничены.

Чарли Дай, вице-президент и главный аналитик Forrester, подчеркивает способность модели интегрировать обработку текста, изображений и аудио с надежными возможностями рассуждения. Он подчеркивает, что эта комбинация улучшает приложения ИИ, предоставляя разработчикам и предприятиям ‘универсальные, эффективные и масштабируемые решения’.

Югал Джоши, партнер Everest Group, признает пригодность модели для развертывания в средах с ограниченными вычислительными ресурсами. Хотя он отмечает, что мобильные устройства могут быть не идеальной платформой для всех вариантов использования генеративного ИИ, он рассматривает новые SLM как отражение того, что Microsoft черпает вдохновение из DeepSeek, еще одной инициативы, направленной на минимизацию зависимости от крупномасштабной вычислительной инфраструктуры.

Сравнительный анализ производительности: сильные стороны и области для роста

Когда дело доходит до сравнительного анализа производительности, Phi-4-multimodal демонстрирует разрыв в производительности по сравнению с такими моделями, как Gemini-2.0-Flash и GPT-4o-realtime-preview, особенно в задачах речевого вопросно-ответного анализа (QA). Microsoft признает, что меньший размер моделей Phi-4 по своей сути ограничивает их способность сохранять фактические знания для ответов на вопросы. Тем не менее, компания подчеркивает постоянные усилия по улучшению этой возможности в будущих итерациях модели.

Несмотря на это, Phi-4-multimodal демонстрирует впечатляющие сильные стороны в других областях. Примечательно, что он превосходит несколько популярных LLM, включая Gemini-2.0-Flash Lite и Claude-3.5-Sonnet, в задачах, связанных с математическими и научными рассуждениями, оптическим распознаванием символов (OCR) и визуальными научными рассуждениями. Это важнейшие возможности для широкого спектра приложений, от образовательного программного обеспечения до инструментов научных исследований.

Phi-4-mini: компактный размер, впечатляющая производительность

Наряду с Phi-4-multimodal, Microsoft также представила Phi-4-mini. Эта модель еще более компактна и имеет 3,8 миллиарда параметров. Она основана на плотной архитектуре трансформера только с декодером и поддерживает последовательности длиной до впечатляющих 128 000 токенов.

Вэйчжу Чен, вице-президент по генеративному ИИ в Microsoft, подчеркивает замечательную производительность Phi-4-mini, несмотря на его небольшой размер. В сообщении блога, подробно описывающем новые модели, он отмечает, что Phi-4-mini ‘продолжает превосходить более крупные модели в текстовых задачах, включая рассуждения, математику, кодирование, следование инструкциям и вызов функций’. Это подчеркивает потенциал еще меньших моделей для обеспечения значительной ценности в конкретных областях применения.

Обновления Granite от IBM: улучшение возможностей рассуждения

Достижения в области SLM не ограничиваются Microsoft. IBM также выпустила обновление своего семейства базовых моделей Granite, представив модели Granite 3.2 2B и 8B. Эти новые модели отличаются улучшенными возможностями ‘цепочки мыслей’, что является важнейшим аспектом улучшения способностей к рассуждению. Это улучшение позволяет моделям достигать превосходной производительности по сравнению с их предшественниками.

Кроме того, IBM представила новую модель визуального языка (VLM), специально разработанную для задач понимания документов. Эта VLM демонстрирует производительность, которая либо соответствует, либо превосходит производительность значительно более крупных моделей, таких как Llama 3.2 11B и Pixtral 12B, в таких тестах, как DocVQA, ChartQA, AI2D и OCRBench1. Это подчеркивает растущую тенденцию к тому, что меньшие, специализированные модели обеспечивают конкурентоспособную производительность в определенных областях.

Будущее ИИ на устройствах: смена парадигмы

Внедрение Phi-4-multimodal и Phi-4-mini, наряду с обновлениями Granite от IBM, представляет собой значительный шаг к будущему, в котором мощные возможности ИИ будут легко доступны на широком спектре устройств. Этот сдвиг имеет глубокие последствия для различных отраслей и приложений:

  • Демократизация ИИ: Меньшие, более эффективные модели делают ИИ доступным для более широкого круга разработчиков и пользователей, а не только для тех, у кого есть доступ к огромным вычислительным ресурсам.
  • Повышенная конфиденциальность и безопасность: Обработка на устройстве снижает необходимость передачи конфиденциальных данных в облако, повышая конфиденциальность и безопасность.
  • Улучшенная отзывчивость и задержка: Локальная обработка устраняет задержки, связанные с облачным ИИ, что приводит к более быстрому времени отклика и более плавному взаимодействию с пользователем.
  • Автономная функциональность: ИИ на устройстве может работать даже без подключения к Интернету, открывая новые возможности для приложений в удаленных средах или средах с низким уровнем подключения.
  • Снижение энергопотребления: Меньшие модели требуют меньше энергии для работы, что способствует увеличению срока службы батареи мобильных устройств и снижению воздействия на окружающую среду.
  • Приложения для периферийных вычислений: Сюда входят такие сектора, как автономное вождение, интеллектуальное производство и удаленное здравоохранение.

Достижения в области SLM приводят к смене парадигмы в ландшафте ИИ. В то время как большие языковые модели продолжают играть жизненно важную роль, рост компактных, эффективных моделей, подобных тем, что представлены в семействе Phi, прокладывает путь к будущему, в котором ИИ станет более распространенным, доступным и интегрированным в нашу повседневную жизнь. Акцент смещается с чистого размера на эффективность, специализацию и способность предоставлять мощные возможности ИИ непосредственно на устройствах, которые мы используем каждый день. Эта тенденция, вероятно, ускорится, что приведет к еще более инновационным приложениям и более широкому внедрению ИИ в различных секторах. Способность выполнять сложные задачи, такие как понимание мультимодальных входных данных, на устройствах с ограниченными ресурсами, открывает новую главу в эволюции искусственного интеллекта.
Гонка за создание все более интеллектуальных и способных SLM продолжается, и новое предложение Microsoft — большой шаг вперед.