После года с момента представления линейки малых языковых моделей (SLM) с выпуском Phi-3 на Azure AI Foundry, Microsoft представила модели следующего поколения: Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning. Эти инновации знаменуют собой поворотный момент для SLM, переопределяя то, что можно достичь с помощью компактного и эффективного искусственного интеллекта.
Заря моделей Phi-Reasoning
Новые модели Phi-reasoning разработаны для использования масштабирования во время вывода для сложных задач, требующих многошаговой декомпозиции и внутренней рефлексии. Эти модели демонстрируют исключительные возможности в математическом рассуждении, зарекомендовав себя в качестве основы для агентских приложений, которые обрабатывают сложные и многогранные задачи. Исторически такие возможности были исключительными для значительно больших моделей. Модели Phi-reasoning представляют новую категорию SLM, которые используют дистилляцию, обучение с подкреплением и высококачественные данные для достижения баланса между размером и производительностью. Их компактный размер делает их подходящими для сред с низкой задержкой, в то время как их надежные возможности рассуждения конкурируют с гораздо большими моделями. Это сочетание эффективности и возможностей позволяет даже устройствам с ограниченными ресурсами эффективно выполнять сложные задачи рассуждения.
Phi-4-Reasoning и Phi-4-Reasoning-Plus: Более глубокий взгляд
Phi-4-Reasoning: Модель рассуждения с открытым весом
Phi-4-reasoning выделяется как модель рассуждения с открытым весом с 14 миллиардами параметров. Она разработана для конкуренции со значительно большими моделями в сложных задачах рассуждения. Эта модель была обучена с помощью контролируемой тонкой настройки Phi-4 на тщательно отобранных примерах рассуждений, полученных из o3-mini OpenAI. Phi-4-reasoning генерирует подробные цепочки рассуждений, эффективно используя дополнительное время вычислений во время вывода. Это достижение подчеркивает, как точное курирование данных и высококачественные синтетические наборы данных позволяют меньшим моделям конкурировать со своими более крупными аналогами.
Phi-4-Reasoning-Plus: Улучшение рассуждений с помощью обучения с подкреплением
Основываясь на возможностях Phi-4-reasoning, Phi-4-reasoning-plus проходит дальнейшее обучение с помощью обучения с подкреплением, чтобы использовать дополнительное время вычислений во время вывода. Она обрабатывает в 1,5 раза больше токенов, чем Phi-4-reasoning, что приводит к повышению точности.
Эталонные показатели производительности
Несмотря на свой значительно меньший размер, Phi-4-reasoning и Phi-4-reasoning-plus превосходят o1-mini OpenAI и DeepSeek-R1-Distill-Llama-70B по различным эталонным показателям, включая математическое рассуждение и научные исследования уровня PhD. Впечатляюще, они даже превосходят полную модель DeepSeek-R1 (с 671 миллиардом параметров) на тесте AIME 2025, который служит квалификационным конкурсом для математической олимпиады США 2025 года. Обе модели легко доступны на Azure AI Foundry и Hugging Face.
Phi-4-Mini-Reasoning: Компактная электростанция для ограниченных сред
Phi-4-mini-reasoning специально разработан для удовлетворения спроса на компактную модель рассуждения. Эта языковая модель на основе трансформера оптимизирована для математического рассуждения и предлагает высококачественные, пошаговые возможности решения проблем в средах, где вычислительная мощность или задержка ограничены. Она была точно настроена с использованием синтетических данных, сгенерированных моделью Deepseek-R1, и эффективно сочетает эффективность с расширенными возможностями рассуждения. Это делает ее идеальной для образовательных приложений, встроенных систем репетиторства и облегченных развертываний на пограничных или мобильных системах. Модель обучена на более чем миллионе разнообразных математических задач, варьирующихся по сложности от средней школы до уровня PhD, что обеспечивает ее универсальность и эффективность в широком спектре образовательных контекстов.
Phi в действии: Расширение горизонтов
Эволюция Phi за последний год постоянно расширяла границы качества по отношению к размеру, и семейство расширилось, включив в себя новые функции, адаптированные к различным потребностям. Эти модели можно запускать локально как на процессорах, так и на графических процессорах на различных устройствах Windows 11, обеспечивая гибкость и доступность для пользователей с различными конфигурациями оборудования.
Интеграция с Copilot+ PC: Новая эра вычислений на основе искусственного интеллекта
Модели Phi являются неотъемлемой частью Copilot+ PC, используя оптимизированный для NPU вариант Phi Silica. Эта высокоэффективная версия Phi, управляемая операционной системой, предназначена для предварительной загрузки в память, обеспечивая быстрое время отклика и энергоэффективную пропускную способность токенов. Это позволяет вызывать ее одновременно с другими приложениями на ПК, расширяя возможности многозадачности и общую производительность системы.
Реальные приложения
Модели Phi уже используются в основных функциях, таких как Click to Do, которая предоставляет интеллектуальные текстовые инструменты для всего контента на экране. Они также доступны в качестве API для разработчиков для беспрепятственной интеграции в приложения. В настоящее время модели используются в различных приложениях для повышения производительности, таких как Outlook, где они предоставляют функции автономного суммирования Copilot. Модели Phi-4-reasoning и Phi-4-mini-reasoning используют низкобитовые оптимизации для Phi Silica и скоро будут доступны для запуска на Copilot+ PC NPU.
Приверженность Microsoft принципам ответственного искусственного интеллекта и безопасности
В Microsoft ответственный искусственный интеллект является основополагающим принципом, который направляет разработку и развертывание систем искусственного интеллекта, включая модели Phi. Модели Phi разработаны в соответствии с принципами Microsoft AI: подотчетность, прозрачность, справедливость, надежность и безопасность, конфиденциальность и безопасность и инклюзивность. Семейство моделей Phi использует надежный подход к безопасности после обучения, используя комбинацию методов контролируемой тонкой настройки (SFT), прямой оптимизации предпочтений (DPO) и обучения с подкреплением на основе обратной связи с человеком (RLHF) для обеспечения их ответственного и этичного использования.
Технические основы моделей Phi: Подробное рассмотрение
Модели Phi Microsoft представляют собой значительный шаг вперед в области малых языковых моделей, особенно в их способности выполнять сложные задачи рассуждения с относительно небольшим количеством параметров. В этом разделе рассматриваются технические детали, которые позволяют этим моделям достичь такой впечатляющей производительности.
Архитектурные инновации
Модели Phi основаны на архитектуре трансформера, модели глубокого обучения, которая произвела революцию в обработке естественного языка. Трансформеры отлично справляются с захватом долгосрочных зависимостей в тексте, позволяя моделям понимать контекст и нюансы языка.
Механизм внимания: Ядром архитектуры трансформера является механизм внимания, который позволяет модели сосредотачиваться на наиболее важных частях входных данных при создании выходных данных. Это особенно важно для задач рассуждения, где модели необходимо идентифицировать ключевую информацию и отношения, чтобы прийти к правильному выводу.
Масштабированное точечное произведение внимания: Модели Phi используют масштабированное точечное произведение внимания, усовершенствованную версию механизма внимания, которая включает в себя коэффициент масштабирования для предотвращения чрезмерного увеличения точечных произведений, что может привести к нестабильности во время обучения.
Многоголовочное внимание: Чтобы охватить различные аспекты входных данных, модели Phi используют многоголовочное внимание, где несколько механизмов внимания работают параллельно. Каждая голова фокусируется на определенном подмножестве входных данных, позволяя модели изучать более сложные представления.
Сети прямой связи: После слоев внимания архитектура трансформера включает сети прямой связи, которые дополнительно обрабатывают информацию. Эти сети состоят из нескольких слоев нейронов, которые учатся извлекать признаки из выходных данных внимания.
Методологии обучения: Многогранный подход
Обучение моделей Phi включает в себя комбинацию методов, включая контролируемую тонкую настройку, обучение с подкреплением и дистилляцию данных.
Контролируемая тонкая настройка (SFT): Контролируемая тонкая настройка включает в себя обучение модели на маркированном наборе данных, где входными данными является вопрос или проблема, а выходными - правильный ответ или решение. Это помогает модели научиться связывать определенные входные данные с соответствующими выходными.
Обучение с подкреплением (RL): Обучение с подкреплением - это метод, при котором модель учится принимать решения, взаимодействуя со средой и получая вознаграждения или штрафы за свои действия. В контексте языковых моделей средой может быть набор правил или ограничений, а вознаграждение может быть основано на точности ответов модели.
Дистилляция данных: Дистилляция данных - это метод, при котором меньшая модель обучается имитировать поведение большей, более сложной модели. Это позволяет меньшей модели достичь производительности, сопоставимой с большей моделью, при этом требуя меньше ресурсов.
Курирование данных: Краеугольный камень производительности
Производительность моделей Phi в значительной степени зависит от качества данных, используемых для обучения. Microsoft вложила значительные усилия в курирование высококачественных наборов данных, которые специально разработаны для задач рассуждения.
Генерация синтетических данных: Чтобы увеличить объем доступных данных, Microsoft разработала методы генерации синтетических данных, которые имитируют характеристики реальных данных. Это позволяет обучать модели на большем и более разнообразном наборе данных, что улучшает их способность к обобщению.
Фильтрация данных: Microsoft использует строгие методы фильтрации данных для удаления шумных или нерелевантных данных из набора данных обучения. Это гарантирует, что модели обучаются на чистых и точных данных, что приводит к повышению производительности.
Аугментация данных: Методы аугментации данных используются для увеличения разнообразия набора данных обучения путем применения преобразований к существующим данным. Это помогает моделям быть более устойчивыми к вариациям во входных данных.
Методы оптимизации: Баланс между эффективностью и точностью
Модели Phi оптимизированы как для эффективности, так и для точности, что позволяет им работать на устройствах с ограниченными ресурсами без ущерба для производительности.
Квантование: Квантование - это метод, при котором точность параметров модели снижается, что уменьшает объем памяти и вычислительные требования модели.
Прунинг: Прунинг - это метод, при котором удаляются менее важные соединения в модели, что уменьшает размер и сложность модели.
Дистилляция знаний: Дистилляция знаний включает в себя передачу знаний от большей, более сложной модели к меньшей модели. Это позволяет меньшей модели достичь производительности, сопоставимой с большей моделью, при этом требуя меньше ресурсов.
Phi Silica NPU: Синергический подход к аппаратному и программному обеспечению
Модели Phi Microsoft предназначены для тесной интеграции с Phi Silica NPU (Neural Processing Unit), специализированным аппаратным ускорителем, который оптимизирован для рабочих нагрузок глубокого обучения.
Низкобитовая оптимизация: Phi Silica NPU поддерживает низкобитовую оптимизацию, которая позволяет моделям работать с пониженной точностью, что еще больше снижает объем памяти и вычислительные требования.
Предварительная загрузка в память: Модели Phi предназначены для предварительной загрузки в память, что позволяет вызывать их быстро и эффективно.
Управление операционной системой: Phi Silica NPU управляется операционной системой, что позволяет беспрепятственно интегрировать ее в пользовательский интерфейс.
В заключение, модели Phi Microsoft представляют собой значительное достижение в области малых языковых моделей. Благодаря сочетанию инновационных архитектурных решений, строгих методологий обучения, тщательного курирования данных и совместного проектирования аппаратного и программного обеспечения Microsoft создала семейство моделей, которые являются одновременно мощными и эффективными, что позволяет использовать широкий спектр приложений на основе искусственного интеллекта.