Малая модель Microsoft затмевает всех!

В то время как DeepSeek-R2 остается неуловимым, меньшие модели Microsoft производят фурор, демонстрируя впечатляющие возможности рассуждения, обученные на удивительно небольшом наборе данных.

Подъем моделей рассуждения Phi-4

Мир искусственного интеллекта в настоящее время очарован моделями рассуждений, и Microsoft недавно представила семейство моделей логического вывода Phi-4. Сюда входят Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning. Особенно примечательно то, что даже самая большая из этих моделей, насчитывающая всего 14 миллиардов параметров, может плавно работать на высокопроизводительных ноутбуках. Более того, Phi-4-mini-reasoning с 3,8 миллиардами параметров превосходит дистиллированную модель DeepSeek-R1 с 8 миллиардами параметров в математических рассуждениях, подчеркивая возможности небольших моделей в задачах логического вывода.

Вместо того чтобы дожидаться выпуска модели рассуждений DeepSeek-R2 второго поколения в апреле, Microsoft представила новую серию моделей рассуждений Phi-4. Эти модели демонстрируют исключительную производительность в математических рассуждениях, превосходя дистиллированную модель DeepSeek-R1, несмотря на то, что Phi-4-Mini-Reasoning имеет меньший масштаб параметров.

Ахмед Авадалла, менеджер по исследованиям в лаборатории Microsoft AI Frontiers, описал Phi-4-reasoning и обобщил особенности новой модели.

  • Модель обучена с помощью Supervised Fine-tuning (с использованием тщательно отобранного набора данных примеров рассуждений) и Reinforcement Learning.
  • Она хорошо работает в эталонных тестах логического вывода и может быть сопоставима с более крупными топовыми моделями, такими как DeepSeek R1.
  • Она продолжает демонстрировать высокие результаты в новых тестах (таких как AIME 2025, HMMT)
  • Способность к рассуждению обладает сильной переносимостью/обобщающей способностью, даже после тонкой настройки под наблюдением она может адаптироваться к новым задачам (таким как k-SAT, решение математических уравнений, планирование и т. д.)
  • Сохраняет и значительно улучшает общие возможности (такие как понимание инструкций и их выполнение)

Он заявил, что Phi-4 все еще имеет несколько аспектов, которые необходимо улучшить, особенно в отношении длины контекста, способности кодирования и интеграции инструментов.

В дополнение к самой модели, Microsoft также поделилась подробным техническим отчетом, в котором представлен углубленный анализ процесса обучения и оценки модели.

В X Димитрис Папаилиопулос, главный научный сотрудник Microsoft Research AI Frontiers laboratory и адъюнкт-профессор Университета Висконсина, представил дополнительную информацию о модели рассуждений Phi-4.

Он считает, что Phi-4-reasoning полностью достигла уровня выпускника и может работать на локальном ПК.

Это превзошло его ожидания в отношении развития ИИ.

Новая модель имеет мало параметров, но высокую производительность.

Мощный двигатель производительности

Несмотря на свой скромный размер, эта модель превосходит в математических эталонных тестах, таких как AIME, HMMT и OmniMath. Она работает наравне или превосходит более крупные модели с открытым весом, такие как QwQ-32B, R1-70B и R1, а также закрытые модели, такие как o1-mini и sonnet 3.7.

Эта модель имеет небольшой размер и подходит для бесперебойной работы на высокопроизводительных ноутбуках.

В то же время она способна решать многие головоломки, которые не могут решить даже более крупные модели без рассуждений и некоторые модели рассуждений.

Она также прошла тест DimitrisEval!

Удивительно, но рассуждение, по-видимому, является поистине переносимым ‘мета-навыком’, который можно усвоить даже посредством контролируемой тонкой настройки SFT!

Доказательство 1: Даже без специализированного обучения задачам, не связанным с рассуждениями, исследователи все еще наблюдали значительное повышение производительности в IFEval, FlenQA и внутреннем PhiBench (увеличение более чем на 10 баллов!).

Кроме того, во время этапа SFT очень мало данных, связанных с кодированием (и совсем нет во время этапа RL), но модель по-прежнему хорошо работает в этом отношении.

Кроме того, Димитрис Папаилиопулос сообщил, что программирование является ключевым направлением для последующих версий.

Доказательство 2: В случае некоторых конкретных задач, на которых модель явно не обучалась (либо на этапе SFT, либо на этапе RL), таких как задача коммивояжера, решение лабиринта, k-SAT, ограниченное планирование и т. д., модель очень хорошо справляется с этими задачами!

А Phi-4 (и даже GPT-4) не могут этого сделать.

Это полностью иллюстрирует, что способность к рассуждению действительно может быть перенесена как навык!

После очень короткого раунда обучения с подкреплением (с использованием всего 6000 примеров по сравнению с 1,4 миллионами примеров для SFT), механизм рассуждений модели, по-видимому, ‘заблокирован’.

Это особенно потрясло Димитриса Папаилиопулоса.

Он чувствует, что обучение с подкреплением научило модель рассуждать на ‘своем собственном языке’, повысив точность примерно на 10% в AIME и HMMT и увеличив среднюю длину ответа на 50% в сложных задачах.

Обучение с подкреплением действительно эффективно!!

Явление ‘блокировки’ механизма рассуждений обычно делает распределение вывода модели более концентрированным, а точность также выше.

Тот факт, что обучение с подкреплением может значительно улучшить возможности модели, также был отражен в предыдущих исследованиях Microsoft.

На этапе обучения с подкреплением новая модель даже не была специально оптимизирована для данных: 6000 вопросов были просто случайным образом выбраны из большего набора данных.

Так почему Microsoft не провела больше обучения с подкреплением?

Потому что модель генерировала ответы на вопросы, которые превышали длину контекста в 32k (длина, на которой модель не обучалась), и они могли только усечь его.

Кроме того, с помощью параллельных вычислений рассуждений (таких как Maj@N) новая модель рассуждений почти достигла предела производительности на AIME 2025 и даже превзошла производительность pass@1 своей обучающей модели (o3-mini).

И сбор всех данных был завершен до февраля 2025 года, как и HMMT.

В других задачах исследователи также наблюдали феномен ‘превосходства учителя’, например, в задачах OmniMath и Calendar Planning.

Дизайн подсказок на этапе SFT в сочетании с последующим процессом обучения с подкреплением, по-видимому, дал модели возможность ‘самосовершенствоваться’, выходя за рамки знаний, предоставленных обучающей моделью.

На рисунке ниже пурпурный цвет представляет o3-mini, а зеленый - Phi.

Интересный феномен заключается в том, что: длинные тексты с длиной ответа в верхних 25% часто сильно коррелируют с неправильными ответами!

Однако, с другой стороны, в большинстве оценок общая средняя длина ответа больше, а точность выше.

Другими словами, увеличение вычислительных ресурсов во время тестирования действительно помогает, но модель также склонна к ‘разглагольствованию’, когда она ‘застревает’.

Что касается ограничений модели, есть также некоторые вещи, на которые стоит обратить внимание:

  • Возможность обработки длин контекста, превышающих 32k, не была полностью расширена или протестирована.
  • Модель склонна к ‘переосмыслению’ при решении простых задач и может показаться слишком многословной при самооценке.
  • Возможность многоходовых диалогов не была широко протестирована.

Конечно, есть еще больше ‘слепых зон’, которые нужно обнаружить, но в целом исследовательская группа чувствует, что они на правильном пути!

Сюрпризы обучения

Сурия Гунасекар, менеджер по исследованиям в Microsoft Research и член команды ‘AGI Physics’, ответственной за разработку серии моделей Phi, сосредоточилась на представлении основных принципов работы.

На этот раз команда Microsoft Phi сосредоточилась на этапе постобработки и запустила Phi-4-reasoning (с использованием только SFT) и Phi-4-reasoning-plus (SFT+ небольшое количество RL).

Обе модели 14B продемонстрировали высокие возможности в эталонных тестах рассуждений и общих задач.

Суть этой работы заключается в выборе подсказок и экспериментальном исследовании переносимых, самосовершенствующихся навыков рассуждения.

В процессе обучения было сделано два неожиданных открытия:

Во-первых, если использовать несколько обученных предметной области траекторий рассуждений длинной цепочки (CoT), Phi-4 может достичь значительного повышения производительности в нескольких задачах, таких как планирование, решение лабиринта (без визуального ввода), IFEva, FlenQA, KITAB (ответы на вопросы на основе поиска) и внутренний PhiBench;

Во-вторых, даже если использовать всего 6000 математических примеров для минимального обучения RL, производительность модели значительно улучшается в некоторых эталонных тестах, при этом максимальное улучшение достигает 10% (но использование токенов увеличивается примерно в 1,5 раза), а также наблюдалась кросс-доменная передача навыков на этапе RL.

Другими словами, по сравнению с основными конкурентами, такими как OpenAI и Google, серия рассуждений Microsoft Phi-4 демонстрирует новые возможности: небольшие модели могут соответствовать или даже превосходить большие модели в конкретных задачах, используя высококачественные данные и усовершенствованные стратегии обучения.

Основные методы

Модель рассуждений Phi-4-reasoning имеет 14 миллиардов параметров и демонстрирует высокую производительность в сложных задачах рассуждений.

Модель основана на Phi-4 для обучения тонкой настройке под наблюдением с использованием тщательно отобранного набора ‘обучаемых’ подсказок, которые имеют как соответствующую сложность, так и разнообразие; примеры рассуждений, сгенерированные o3-mini, используются в качестве ссылок в процессе обучения.

Phi-4-reasoning может генерировать подробные цепочки рассуждений и в полной мере использовать вычислительные ресурсы в процессе рассуждений.

На этой основе Microsoft дополнительно разработала Phi-4-reasoning-plus.

Она улучшена на основе исходноймодели благодаря небольшому этапу обучения с подкреплением, основанному на результатах, и генерирует более длинные и мощные цепочки рассуждений.

Исследования показывают, что хорошо разработанный набор данных SFT может значительно улучшить эффект языковых моделей рассуждений, а обучение с подкреплением (RL) может дополнительно усилить это улучшение на этой основе.

В экспериментах SFT даже в этой относительно простой настройке генерации тщательный отбор и строгая фильтрация исходных задач по-прежнему являются ключом к успеху модели.

Они подвергли весь набор обучающих данных строгому процессу дезагрязнения, чтобы убедиться, что он не содержит данных, которые сильно перекрываются с широко используемыми вопросами рассуждений или общих эталонных тестов, включая некоторые эталонные тесты, не упомянутые в этом отчете.

Полный список эталонных тестов, которые были дезагрязнены, выглядит следующим образом:

  • Математика и рассуждения: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Программирование: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Ответы на вопросы и общие знания: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Другие задачи оценки: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Благодаря тонкой настройке под наблюдением (SFT) модели Phi-4 с 14 миллиардами параметров исследователи получили Phi-4-reasoning без какого-либо обучения с подкреплением до этого.

Цель SFT - усовершенствовать структурированную способность рассуждать, содержащуюся в базовой модели.

Архитектура Phi-4-reasoning такая же, как и у модели Phi-4, но с двумя ключевыми модификациями:

  • Токены рассуждений: Два заполнителя токенов в базовой модели повторно используются как и токены, которые используются для обозначения начала и конца процесса рассуждений (‘мышления’).
  • Увеличенная длина токена: Максимальная длина токена, первоначально поддерживаемая базовой моделью (Phi-4), составляла 16K. Чтобы вместить дополнительные токены рассуждений, базовая частота RoPE была удвоена, и модель была обучена при максимальной длине токена 32K.

Они использовали синтетический метод для создания большого количества примеров рассуждений по цепочке мыслей.

Используемый набор данных SFT содержит более 1,4 миллиона пар подсказка-ответ, всего 8,3 миллиарда уникальных токенов, охватывающих области рассуждений, такие как математика и программирование, а также данные выравнивания для безопасного и ответственного ИИ.

На рисунке 4a показаны изменения ключевых показателей на протяжении всего процесса итерации SFT.

На ранних этапах обучения модель начала использовать явные токены ‘мышления’, что указывает на то, что модель быстро усвоила этот поверхностный структурированный формат.

Однако, как показано на рисунке 4a, эффективность модуля цепочки мыслей и способность модели рассуждать улучшаются на протяжении всего процесса обучения, что указывает на то, что модель не просто копирует формат, а фактически усваивает навыки рассуждения.

Интересно, что, в отличие от обучения с подкреплением, исследователи не увидели увеличения длины ответа во время процесса SFT.

Фактически, как показано на рисунке 4b, средняя длина ответа немного уменьшилась.

Это показывает, что по мере продвижения обучения модель учится более эффективно использовать свой бюджет токенов.

Чтобы систематически оценить различные стратегии обучения, они использовали фиксированный эталон - AIME 2024 и GPQA diamond - в качестве индикатора прогресса.

В целом, экспериментальный метод можно разделить на два этапа: разведка и масштабирование.

На этапе разведки исследователи использовали более короткие циклы обучения и ограниченные источники данных и области для быстрой итерации и извлечения надежных методов обучения.

На последующем этапе расширения исследователи обобщили результаты ранних экспериментов по снижению риска и завершили настройки SFT.

На рисунке 5 обобщен этот прогресс, выделены эксперименты по абляции для нескольких ключевых вариантов дизайна.

На рисунке 5 представлен высокоуровневый обзор цикла экспериментов по тонкой настройке под наблюдением (SFT) Phi-4-reasoning, включая этапы разведки и расширения, с использованием нескольких примеров экспериментов для представления. Каждый кластер точек представляет результаты экспериментов для конкретного варианта дизайна обучения.

На рисунке 7 показаны ключевые выводы модели Phi-4-reasoning-plus во время процесса обучения GRPO.

Начиная с базовой модели тонкой настройки под наблюдением (SFT) Phi-4-reasoning, всего 90 шагов обучения GRPO увеличили производительность AIME более чем на 10% (рисунок 7a).

Продолжение увеличения количества шагов обучения не принесло дополнительных преимуществ, что указывает на то, что потенциал сильной модели SFT близок к потолку производительности. Следует отметить, что вывод в обучении GRPO ограничен 31k токенов, что объективно ограничивает пространство оптимизации GRPO.

Как показано на рисунке 7c, длина ответа сильно коррелирует с производительностью AIME, в то время как корреляция между оценкой вознаграждения и оценкой AIME слабая. Этот эффект роста длины ответа является ожидаемым эффектом обучения GRPO - модель улучшает свою способность рассуждать, увеличивая ‘время мышления’.

Рисунок 7d дополнительно показывает, что из-за конструкции модели вознаграждения длина генерации неправильных ответов растет значительно быстрее, чем правильных ответов (когда текущий ответ модели неверен, система будет поощрять ее к более длительному размышлению).

Фактически, выполнение отклоняющей выборки, основанной исключительно на длине ответа (особенно на длинных ответах, которые значительно превышают медиану), может еще больше улучшить производительность GRPO.

Как показано на рисунке 7d, тенденция роста более коротких ответов (длина которых находится в нижнем 25% квантиле) во время процесса обучения аналогична средней длине правильных ответов, в то время как длина неправильных ответов ближе к 75% квантилю общей длины ответа.

Это явление дифференциации указывает на то, что отклоняющая выборка на основе длины может повысить эффективность модели, подавляя чрезмерно длинные неправильные выводы.