Microsoft Phi-4 Reasoning представляет собой компактные, с открытым весом (лицензия MIT), быстрые и эффективные SLM, способные к расширенным рассуждениям.
Microsoft, являясь привилегированным партнером OpenAI и сотрудничая с большинством игроков для интеграции своих AI-моделей в Azure AI Foundry, не стесняется разрабатывать собственные технологические направления. Это включает в себя работу над инновациями в основе нейронных сетей, такими как интригующая модель BitNet b1.58 на основе Trit, собственные SLM с открытым исходным кодом и даже передовые модели, хранящиеся в секрете (Project MAI-1).
Через год после представления линейки небольших AI-моделей (SLM) Phi-3 и через два месяца после дебюта 4-го поколения с мультимодальной SLM (Phi-4-Multimodal) и крошечной моделью (Phi-4-mini) Microsoft анонсирует три новых варианта своего SLM последнего поколения: Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning.
Эти версии с «интегрированными рассуждениями», выпущенные 30 апреля 2025 года, расширяют предложение моделей с открытым весом для разработчиков, которым необходимо поддерживать низкую задержку, требуя при этом сложных рассуждений.
В основе подхода инженеров Microsoft к созданию своих SLM с «рассуждениями» лежит опора на детальный контроль (SFT) со стороны цепочек рассуждений OpenAI o3-mini и использование обучения с подкреплением (RL) для версии «plus». «Благодаря дистилляции, обучению с подкреплением и высококачественным данным эти модели согласовывают размер и производительность», — объясняет Microsoft.
Маленький, но талантливый
Результатов по различным ведущим бенчмаркам рынка достаточно, чтобы заставить конкурентов побледнеть: обычно имея всего 14 миллиардов параметров, Phi-4-reasoning превосходит DeepSeek-R1-Distill-Llama-70B (70 миллиардов параметров) в сериях AIME 2025, MMLU-Pro или HumanEval-Plus и приближается к полной модели DeepSeek-R1 (671 миллиард параметров)! Вариант Phi-4-reasoning-plus, согласованный на тех же 14 миллиардах параметров, но обученный с 1,5 раза большим количеством токенов, почти соответствует оценкам o3-mini от OpenAI в OmniMath! Для информации, Phi-4-reasoning использует классическое окно контекста в 128 000 токенов, которое было расширено до 256 000 токенов для версии Phi-4-reasoning-plus.
Разработанный для встроенных систем, Phi-4-mini-reasoning отображает 3,8 миллиарда параметров, синтетический набор из одного миллиона математических задач, сгенерированных DeepSeek-R1, и достигает производительности o1-mini на Math-500, превосходя при этом несколько моделей с 7–8 миллиардами параметров. Благодаря своему сверхмалому размеру эта модель идеально подходит для локального выполнения, в том числе на мобильных устройствах, и для удовлетворения потребности в почти мгновенных ответах. Он особенно подходит для образовательных целей и локальных чат-ботов.
Открытые модели для различных целей
Что касается развертывания, CISOs обнаружат, что эти модели уже оптимизированы для Copilot+ PCs: вариант NPU “Phi Silica” предварительно загружен в память и обеспечивает почти мгновенное время отклика, гарантируя энергоэффективное сосуществование с бизнес-приложениями. API Windows позволяют интегрировать автономную генерацию в Outlook или внутренние инструменты.
Что касается безопасности, Microsoft заявляет о конвейере, соответствующем своим принципам ответственности - подотчетности, справедливости, надежности, безопасности и инклюзивности. Модели проходят постобработку, сочетающую SFT, Direct Preference Optimization и RLHF из общедоступных и внутренних наборов, ориентированных на «полезность/безвредность». Microsoft также публикует «Карты» своих моделей, в которых подробно описываются остаточные ограничения и меры по их смягчению.
Три модели, доступные сейчас в Azure AI Foundry, Hugging Face и GitHub Models, публикуются под очень разрешительной лицензией MIT, открывая путь к локальному выводу, а также к гибридным облачным развертываниям. Для команд по безопасности и архитектуре это новое поколение SLM предлагает надежную альтернативу массивным LLM, со сниженной совокупной стоимостью владения, выполнением локально, а также на Edge и повышенным контролем над данными. Эти модели являются доказательством невероятного прогресса, достигнутого SLM за год, и их удивительного потенциала во вселенной в поисках менее дорогого и более энерго- и ресурсосберегающего AI.
Более глубокое погружение в возможности рассуждения Phi-4
Появление семейства моделей Phi-4 представляет собой значительный шаг вперед в разработке небольших языковых моделей (SLM). Что отличает эти модели, так это их расширенные возможности рассуждения, достигнутые благодаря инновационным методам обучения и сосредоточенности на высококачественных данных. Приверженность Microsoft принципам открытого исходного кода еще больше демократизирует доступ к этим мощным инструментам, позволяя разработчикам интегрировать передовые возможности AI в широкий спектр приложений.
Понимание архитектуры
Модели Phi-4 построены на основе трансформаторной архитектуры, проверенной структуры для обработки естественного языка. Однако Microsoft реализовала несколько ключевых инноваций для оптимизации моделей для задач рассуждения.
- Детальный контроль (SFT): Модели обучаются с использованием метода, называемого детальным контролем (SFT), который включает в себя обучение на основе подробных цепочек рассуждений, сгенерированных моделью OpenAI o3-mini. Это позволяет моделям Phi-4 изучать шаги, связанные со сложными процессами рассуждения.
- Обучение с подкреплением (RL): В варианте «плюс» модели Phi-4, Phi-4-reasoning-plus, используется обучение с подкреплением (RL) для дальнейшего улучшения ее способностей рассуждения. RL включает в себя обучение модели для максимизации сигнала вознаграждения, который в данном случае основан на точности и эффективности ее рассуждений.
- Дистилляция: Дистилляция используется для передачи знаний от более крупных, сложных моделей к меньшим моделям Phi-4. Это позволяет SLM достигать уровней производительности, сопоставимых с гораздо большими моделями, сохраняя при этом свой компактный размер и эффективность.
Оценка производительности
Модели Phi-4 продемонстрировали впечатляющую производительность на различных бенчмарках рассуждения, в некоторых случаях превосходя более крупные модели. Например, Phi-4-reasoning, имея всего 14 миллиардов параметров, превосходит DeepSeek-R1-Distill-Llama-70B (70 миллиардов параметров) на нескольких сложных наборах данных, включая AIME 2025, MMLU-Pro и HumanEval-Plus. Это подчеркивает эффективность и действенность архитектуры и методов обучения Phi-4.
Вариант Phi-4-reasoning-plus, обученный с 1,5 раза большим количеством токенов, достигает оценок, близких к o3-mini от OpenAI, на бенчмарке OmniMath, демонстрируя свою способность решать сложные задачи математического рассуждения.
Приложения и варианты использования
Модели Phi-4 хорошо подходят для различных приложений, требующих расширенных возможностей рассуждения.
- Образовательные инструменты: Модель Phi-4-mini-reasoning, благодаря своему небольшому размеру и высокой производительности, идеально подходит для образовательных приложений. Ее можно использовать для создания интерактивных учебных инструментов, которые предоставляют учащимся персонализированную обратную связь и поддержку.
- Локальные чат-боты: Модели Phi-4 можно использовать для создания локальных чат-ботов, которые предоставляют пользователям мгновенный доступ к информации и поддержке. Их небольшой размер позволяет развертывать их на мобильных устройствах и в других средах с ограниченными ресурсами.
- Copilot+ PCs: Модели Phi-4 оптимизированы для Copilot+ PCs, предоставляя пользователям удобный AI-опыт. Вариант «Phi Silica» предварительно загружен в память и обеспечивает почти мгновенное время отклика.
- Автономная генерация: API Windows позволяют интегрировать автономную генерацию в Outlook или внутренние инструменты, позволяя пользователям получать доступ к возможностям AI, даже если они не подключены к Интернету.
Безопасность и ответственность
Microsoft привержена разработке и развертыванию AI-моделей ответственным и этичным образом. Модели Phi-4 не являются исключением.
- Принципы ответственности: Конвейер разработки AI от Microsoft соответствует ее принципам ответственности, которые включают в себя подотчетность, справедливость, надежность, безопасность и инклюзивность.
- Постобработка: Модели Phi-4 проходят постобработку с использованием SFT, Direct Preference Optimization и RLHF из общедоступных и внутренних наборов данных, ориентированных на «полезность/безвредность». Это помогает обеспечить безопасность и надежность моделей.
- Карты моделей: Microsoft публикует «Карты» для своих моделей, в которых подробно описываются остаточные ограничения и меры по их смягчению. Это обеспечивает пользователям прозрачность и позволяет им принимать обоснованные решения о том, как использовать модели.
Будущее SLM
Модели Phi-4 представляют собой значительный шаг вперед в разработке небольших языковых моделей (SLM). Их расширенные возможности рассуждения в сочетании с их небольшим размером и эффективностью делают их убедительной альтернативой более крупным языковым моделям (LLM) во многих приложениях.
По мере того, как SLM продолжают совершенствоваться, они, вероятно, будут играть все более важную роль в ландшафте AI. Их способность работать на устройствах с ограниченными ресурсами и обеспечивать быструю и эффективную производительность делает их хорошо подходящими для широкого спектра приложений, от образовательных инструментов до локальных чат-ботов и периферийных вычислительных устройств.
Приверженность Microsoft принципам открытого исходного кода и ответственной разработке AI еще больше позиционирует модели Phi-4 как ценный ресурс для сообщества AI. Демократизируя доступ к этим мощным инструментам, Microsoft дает разработчикам возможность создавать инновационные и эффективные приложения, которые могут принести пользу обществу в целом.
Более внимательный взгляд на технические аспекты
Более глубокое изучение особенностей архитектуры и обучения Phi-4 раскрывает инновационные методы, которые позволяют этим SLM достигать таких впечатляющих возможностей рассуждения. Сочетание тщательно отобранных наборов данных, сложных алгоритмов обучения и сосредоточенности на эффективности привело к созданию семейства моделей, которые являются одновременно мощными и практичными.
Курация и подготовка данных
Успех любой модели машинного обучения зависит от качества и релевантности данных, на которых она обучена. Microsoft вложила значительные усилия в курацию и подготовку наборов данных, используемых для обучения моделей Phi-4.
- Цепочки рассуждений от o3-mini OpenAI: Модели используют цепочки рассуждений, сгенерированные моделью o3-mini OpenAI, чтобы изучить шаги, связанные со сложными процессами рассуждения. Эти цепочки обеспечивают подробную дорожную карту для SLM, позволяя им развитьболее глубокое понимание базовой логики.
- Синтетические математические задачи: Модель Phi-4-mini-reasoning обучена на синтетическом наборе данных из одного миллиона математических задач, сгенерированных DeepSeek-R1. Этот набор данных предоставляет разнообразный спектр математических задач, позволяя модели развить сильные навыки решения проблем.
- Наборы данных о полезности/безвредности: Модели проходят постобработку с использованием наборов данных, предназначенных для повышения полезности и безвредности. Это помогает обеспечить создание моделями безопасных и ответственных результатов.
Алгоритмы обучения
Модели Phi-4 обучаются с использованием комбинации контролируемого обучения, обучения с подкреплением и дистилляции. Эти методы работают вместе, чтобы оптимизировать модели для задач рассуждения и обеспечить их точность и эффективность.
- Контролируемая точная настройка (SFT): SFT используется для точной настройки моделей на цепочках рассуждений, сгенерированных моделью o3-mini OpenAI. Это позволяет моделям изучить конкретные закономерности и взаимосвязи, характерные для сложных процессов рассуждения.
- Обучение с подкреплением (RL): RL используется для обучения модели Phi-4-reasoning-plus максимизировать сигнал вознаграждения, основанный на точности и эффективности ее рассуждений. Это побуждает модель разрабатывать стратегии решения проблем, которые являются одновременно эффективными и вычислительно эффективными.
- Дистилляция: Дистилляция используется для передачи знаний от более крупных, сложных моделей к меньшим моделям Phi-4. Это позволяет SLM достигать уровней производительности, сопоставимых с гораздо большими моделями, сохраняя при этом свой компактный размер и эффективность.
Оптимизация для эффективности
Одной из ключевых целей при разработке моделей Phi-4 была их оптимизация для эффективности. Это отражено в нескольких аспектах их конструкции и обучения.
- Компактная архитектура: Модели Phi-4 разработаны с компактной архитектурой, которая сводит к минимуму количество требуемых параметров. Это снижает вычислительные затраты на запуск моделей и делает их хорошо подходящими для развертывания на устройствах с ограниченными ресурсами.
- Квантование: Квантование используется для уменьшения объема памяти моделей и повышения скорости их вывода. Это предполагает представление параметров модели с использованием меньшего количества битов, что может значительно снизить вычислительные затраты на запуск модели.
- Аппаратное ускорение: Модели Phi-4 оптимизированы для аппаратного ускорения на различных платформах, включая ЦП, ГП и NPU. Это позволяет им достигать максимальной производительности на широком спектре устройств.
Последствия для будущего AI
Модели Phi-4 представляют собой значительный шаг вперед в разработке AI с последствиями, которые выходят далеко за рамки конкретных приложений, для которых они предназначены. Их способность достигать высокой производительности с относительно небольшим размером и вычислительными ресурсами открывает новые возможности для развертывания AI в широком спектре настроек.
Демократизация AI
Модели Phi-4 являются свидетельством того факта, что мощные возможности AI могут быть достигнуты без необходимости в огромных вычислительных ресурсах или доступе к проприетарным наборам данных. Это демократизирует доступ к AI, позволяя разработчикам и исследователям создавать инновационные приложения даже при ограниченных ресурсах.
Периферийные вычисления
Небольшой размер и эффективность моделей Phi-4 делают их хорошо подходящими для периферийных вычислительных приложений. Это позволяет развертывать AI ближе к источнику данных, снижая задержку и повышая скорость реагирования. Периферийные вычисления могут революционизировать широкий спектр отраслей, от производства до здравоохранения и транспорта.
Персонализированный AI
Модели Phi-4 можно настраивать и адаптировать для удовлетворения конкретных потребностей отдельных пользователей или организаций. Это позволяет создавать персонализированные AI-опыты, адаптированные к уникальным требованиям каждого пользователя. Персонализированный AI может повысить производительность, улучшить обучение и улучшить общее благополучие.
Устойчивый AI
Модели Phi-4 являются более устойчивой альтернативой более крупным языковым моделям, требующим меньше энергии и вычислительных ресурсов. Это важно для снижения воздействия AI на окружающую среду и обеспечения его ответственного и устойчивого развертывания.
Модели Microsoft Phi-4-Reasoning - это не просто очередная итерация в постоянно развивающемся мире AI; они являются изменением парадигмы. Они демонстрируют, что интеллект - это не просто функция размера и вычислительной мощности, но его можно достичь благодаря продуманному проектированию, тщательному отбору данных и инновационным методам обучения. По мере того как эти модели продолжают развиваться, они готовы открыть новые возможности для AI и преобразовать то, как мы взаимодействуем с технологиями.