Новое поколение семейства Phi

Phi-4-Multimodal: унифицированный подход к мультимодальному ИИ

Phi-4-multimodal представляет собой новаторский шаг Microsoft в области мультимодальных языковых моделей. Эта революционная модель с 5,6 миллиардами параметров органично объединяет обработку речи, зрения и текста в единой, целостной архитектуре. Этот инновационный подход напрямую основан на ценных отзывах клиентов, отражая стремление Microsoft к постоянному совершенствованию и реагированию на потребности пользователей.

Разработка Phi-4-multimodal использует передовые методы кросс-модального обучения. Это позволяет модели обеспечивать более естественное и контекстно-зависимое взаимодействие. Устройства, оснащенные Phi-4-multimodal, могут одновременно понимать и рассуждать о различных модальностях ввода. Она превосходно справляется с интерпретацией устной речи, анализом изображений и обработкой текстовой информации. Кроме того, она обеспечивает высокоэффективный вывод с малой задержкой, оптимизируя при этом выполнение на устройстве, тем самым сводя к минимуму вычислительные издержки.

Одной из определяющих особенностей Phi-4-multimodal является ее унифицированная архитектура. В отличие от традиционных подходов, которые полагаются на сложные конвейеры или отдельные модели для разных модальностей, Phi-4-multimodal работает как единое целое. Она умело обрабатывает текст, аудио и визуальные входные данные в одном и том же пространстве представления. Такая оптимизированная конструкция повышает эффективность и упрощает процесс разработки.

Архитектура Phi-4-multimodal включает в себя несколько улучшений, повышающих ее производительность и универсальность. К ним относятся:

  • Больший словарь: Способствует улучшению возможностей обработки.
  • Многоязычная поддержка: Расширяет применимость модели в различных лингвистических контекстах.
  • Интегрированное языковое рассуждение: Сочетает понимание языка с мультимодальными входными данными.

Эти достижения достигаются в рамках компактной и высокоэффективной модели, идеально подходящей для развертывания на устройствах и платформах периферийных вычислений. Расширенные возможности и адаптируемость Phi-4-multimodal открывают множество возможностей для разработчиков приложений, предприятий и отраслей, стремящихся использовать ИИ инновационными способами.

В области задач, связанных с речью, Phi-4-multimodal продемонстрировала исключительное мастерство, став лидером среди открытых моделей. Примечательно, что она превосходит специализированные модели, такие как WhisperV3 и SeamlessM4T-v2-Large, как в автоматическом распознавании речи (ASR), так и в переводе речи (ST). Она заняла первое место в таблице лидеров HuggingFace OpenASR, достигнув впечатляющего показателя частоты ошибок слов 6,14%, превзойдя предыдущий лучший результат 6,5% (по состоянию на февраль 2025 года). Более того, это одна из немногих открытых моделей, способных успешно реализовать речевое обобщение, достигая уровней производительности, сравнимых с моделью GPT-4o.

Хотя Phi-4-multimodal демонстрирует небольшой разрыв по сравнению с такими моделями, как Gemini-2.0-Flash и GPT-4o-realtime-preview, в задачах ответа на вопросы по речи (QA), в первую очередь из-за меньшего размера и, как следствие, ограничений в сохранении фактических знаний QA, текущие усилия сосредоточены на улучшении этой возможности в будущих итерациях.

Помимо речи, Phi-4-multimodal демонстрирует замечательные возможности зрения в различных тестах. Она достигает особенно высокой производительности в математических и научных рассуждениях. Несмотря на свой компактный размер, модель сохраняет конкурентоспособную производительность в общих мультимодальных задачах, включая:

  • Понимание документов и диаграмм
  • Оптическое распознавание символов (OCR)
  • Визуальные научные рассуждения

Она соответствует или превосходит производительность сопоставимых моделей, таких как Gemini-2-Flash-lite-preview и Claude-3.5-Sonnet.

Phi-4-Mini: компактный генератор для текстовых задач

Дополнением к Phi-4-multimodal является Phi-4-mini, модель с 3,8 миллиардами параметров, разработанная для скорости и эффективности в текстовых задачах. Этот плотный трансформер, предназначенный только для декодера, имеет:

  • Групповое внимание к запросам
  • Словарь из 200 000 слов
  • Общие входные и выходные вложения

Несмотря на свой компактный размер, Phi-4-mini неизменно превосходит более крупные модели в ряде текстовых задач, включая:

  • Рассуждение
  • Математика
  • Кодирование
  • Следование инструкциям
  • Вызов функций

Он поддерживает последовательности длиной до 128 000 токенов, обеспечивая исключительную точность и масштабируемость. Это делает его мощным решением для передовых приложений ИИ, требующих высокой производительности при обработке текста.

Вызов функций, следование инструкциям, обработка длинного контекста и рассуждения — все это мощные возможности, которые позволяют небольшим языковым моделям, таким как Phi-4-mini, получать доступ к внешним знаниям и функциям, эффективно преодолевая ограничения, налагаемые их компактным размером. Благодаря стандартизированному протоколу вызов функций позволяет модели беспрепятственно интегрироваться со структурированными программными интерфейсами.

При получении запроса пользователя Phi-4-mini может:

  1. Рассуждать о запросе.
  2. Идентифицировать и вызывать соответствующие функции с соответствующими параметрами.
  3. Получать выходные данные функции.
  4. Включать эти результаты в свои ответы.

Это создает расширяемую систему на основе агентов, в которой возможности модели могут быть расширены путем подключения ее к внешним инструментам, интерфейсам прикладных программ (API) и источникам данных через четко определенные интерфейсы функций. Наглядным примером является агент управления умным домом на базе Phi-4-mini, который беспрепятственно управляет различными устройствами и функциями.

Меньшие размеры Phi-4-mini и Phi-4-multimodal делают их исключительно подходящими для сред вывода с ограниченными вычислительными ресурсами. Эти модели особенно выгодны для развертывания на устройствах, особенно при дальнейшей оптимизации с помощью ONNX Runtime для кроссплатформенной доступности. Их сниженные вычислительные требования приводят к снижению затрат и значительному улучшению задержки. Расширенное контекстное окно позволяет моделям обрабатывать и рассуждать об обширном текстовом контенте, включая документы, веб-страницы, код и многое другое. И Phi-4-mini, и Phi-4-multimodal демонстрируют надежные возможности рассуждения и логики, позиционируя их как сильных претендентов на аналитические задачи. Их компактный размер также упрощает и снижает стоимость тонкой настройки или настройки.

Реальные приложения: трансформация отраслей

Конструкция этих моделей позволяет им эффективно справляться со сложными задачами, что делает их идеально подходящими для сценариев периферийных вычислений и сред с ограниченными вычислительными ресурсами. Расширенные возможности Phi-4-multimodal и Phi-4-mini расширяют горизонты применения Phi в различных отраслях. Эти модели интегрируются в экосистемы ИИ и используются для изучения широкого спектра вариантов использования.

Вот несколько убедительных примеров:

  • Интеграция в Windows: Языковые модели служат мощными механизмами рассуждения. Интеграция небольших языковых моделей, таких как Phi, в Windows позволяет поддерживать эффективные вычислительные возможности и открывает путь к будущему непрерывного интеллекта, органично интегрированного во все приложения и пользовательский опыт. Компьютеры Copilot+ будут использовать возможности Phi-4-multimodal, обеспечивая мощность передовых SLM Microsoft без чрезмерного потребления энергии. Эта интеграция повысит производительность, креативность и образовательный опыт, устанавливая новый стандарт для платформы разработчиков.

  • Умные устройства: Представьте себе производителей смартфонов, встраивающих Phi-4-multimodal непосредственно в свои устройства. Это позволит смартфонам обрабатывать и понимать голосовые команды, распознавать изображения и беспрепятственно интерпретировать текст. Пользователи могли бы воспользоваться расширенными функциями, такими как перевод языка в реальном времени, улучшенный анализ фото и видео, а также интеллектуальные персональные помощники, способные понимать сложные запросы и отвечать на них. Это значительно повысило бы удобство использования, предоставляя мощные возможности ИИ непосредственно на устройстве, обеспечивая низкую задержку и высокую эффективность.

  • Автомобильная промышленность: Рассмотрим автомобильную компанию, интегрирующую Phi-4-multimodal в свои системы помощи в автомобиле. Модель могла бы позволить транспортным средствам понимать голосовые команды и реагировать на них, распознавать жесты водителя и анализировать визуальные входные данные с камер. Например, она могла бы повысить безопасность водителя, обнаруживая сонливость с помощью распознавания лиц и предоставляя оповещения в реальном времени. Кроме того, она могла бы предложить бесшовную помощь в навигации, интерпретировать дорожные знаки и предоставлять контекстную информацию, создавая более интуитивно понятный и безопасный опыт вождения, как при подключении к облаку, так и в автономном режиме, когда подключение недоступно.

  • Многоязычные финансовые услуги: Представьте себе компанию, предоставляющую финансовые услуги, использующую Phi-4-mini для автоматизации сложных финансовых расчетов, создания подробных отчетов и перевода финансовых документов на несколько языков. Модель могла бы помочь аналитикам, выполняя сложные математические вычисления, имеющие решающее значение для оценки рисков, управления портфелем и финансового прогнозирования. Кроме того, она могла бы переводить финансовые отчеты, нормативные документы и сообщения клиентов на различные языки, тем самым улучшая отношения с клиентами по всему миру.

Обеспечение безопасности

Azure AI Foundry предоставляет пользователям надежный набор возможностей, помогающих организациям измерять, смягчать и управлять рисками ИИ на протяжении всего жизненного цикла разработки ИИ. Это относится как к традиционному машинному обучению, так и к приложениям генеративного ИИ. Оценки Azure AI в AI Foundry позволяют разработчикам итеративно оценивать качество и безопасность моделей и приложений, используя как встроенные, так и пользовательские метрики для информирования стратегий смягчения.

И Phi-4-multimodal, и Phi-4-mini прошли тщательное тестирование безопасности, проведенное внутренними и внешними экспертами по безопасности. Эти эксперты использовали стратегии, разработанные Microsoft AI Red Team (AIRT). Эти методологии, усовершенствованные по сравнению с предыдущими моделями Phi, включают в себя глобальные перспективы и носителей всех поддерживаемых языков. Они охватывают широкий спектр областей, включая:

  • Кибербезопасность
  • Национальная безопасность
  • Справедливость
  • Насилие

Эти оценки учитывают текущие тенденции посредством многоязычного зондирования. Используя Python Risk Identification Toolkit (PyRIT) с открытым исходным кодом AIRT и ручное зондирование, красные команды проводили как одноходовые, так и многоходовые атаки. Работая независимо от команд разработчиков, AIRT постоянно делилась информацией с командой разработчиков модели. Этот подход позволил тщательно оценить новый ландшафт безопасности ИИ, представленный последними моделями Phi, обеспечивая предоставление высококачественных и безопасных возможностей.

Подробные карточки моделей для Phi-4-multimodal и Phi-4-mini, а также сопроводительный технический документ содержат подробное описание рекомендуемых применений и ограничений этих моделей. Эта прозрачность подчеркивает приверженность Microsoft ответственному развитию и развертыванию ИИ. Эти модели призваны оказать значительное влияние на развитие ИИ.