Триумф RL: Phi-4 Reasoning Plus от Microsoft

Microsoft уверенно продвигается в области AI-моделей с открытым исходным кодом, в частности, с семейством Phi, и хотя это не вызывает такого же широкого резонанса, как их инвестиции в OpenAI, прогресс очевиден. Модель Phi-4 Reasoning Plus выделяется среди других, демонстрируя возможности обучения с подкреплением (RL) для достижения впечатляющих результатов в эталонных тестах.

Серия Phi разработана с акцентом на эффективность ресурсов, потребляя меньше вычислительной мощности и места для хранения. Благодаря скрупулезным исследованиям и методам оптимизации эти модели неизменно превосходят ожидания, опережая конкурентов как в своей весовой категории, так и даже бросая вызов более крупным моделям.

Модель Phi-4 Reasoning, насчитывающая 14 миллиардов параметров, была создана путем применения алгоритма контролируемой тонкой настройки (SFT) к базовой модели Phi-4. Развивая этот успех, исследователи разработали модель Phi-4 Reasoning Plus, используя обучение с подкреплением (RL) на основе Phi-4 Reasoning.

Примечательно, что обе модели, Phi-4 Reasoning и Phi-4 Reasoning Plus, продемонстрировали превосходную производительность по сравнению со значительно более крупными моделями, такими как DeepSeek R1, которая содержит 70 миллиардов параметров. Это достижение особенно заметно в эталонных тестах, охватывающих кодирование, решение математических задач и продвинутые научные задачи на уровне выпускников. Производительность моделей даже приближается к таковой у полномасштабной модели DeepSeek R1 с 671 миллиардом параметров.

Исследователи Microsoft объясняют успех модели, прежде всего, использованием высококачественных наборов обучающих данных, стратегией, на которую компания последовательно полагалась в своих предыдущих моделях. Эти наборы данных содержат более 1,4 миллиона тщательно отобранных подсказок, охватывающих различные дисциплины кодирования и STEM (наука, технология, инженерия и математика). Каждая подсказка сопровождается тщательно разработанными ответами, включающими в себя обширные логические выкладки, созданные моделью o3-mini от OpenAI.

Для оптимизации процесса обучения исследователи стратегически нацелились на подсказки, которые расширяли границы возможностей базовой модели Phi-4. Это включало в себя фильтрацию наборов обучающих данных, чтобы сохранить только те подсказки, которые предлагали значительные возможности для улучшения.

Обоснование Эффективности RL

Разработка Phi-4 Reasoning Plus включала двухэтапный процесс: сначала получение Phi-4 Reasoning путем контролируемой тонкой настройки (SFT) базовой модели Phi-4, а затем этап обучения с подкреплением (RL). Для более глубокого понимания компонентов RL в Phi-4 Reasoning Plus было необходимо прямое общение с Харкиратом Бехлом, исследователем Microsoft, который сыграл ключевую роль в этом аспекте проекта.

Обучение с подкреплением (RL) - это уникальная методология обучения, при которой AI-система учится посредством экспериментов. ИИ предпринимает действия, получает обратную связь в виде вознаграждений или штрафов и итеративно совершенствует процесс принятия решений, чтобы максимизировать долгосрочные желаемые результаты. Этот подход особенно выгоден для задач, которые требуют от AI-модели заниматься "рассуждениями", поскольку он отдает приоритет достижению желаемого результата, а не соблюдению жесткого, предопределенного процесса.

В отличие от традиционных моделей, которые сосредотачиваются исключительно на прогнозировании следующего слова и наказывают модель за каждую неточность, RL предлагает большую гибкость в том, как получается ответ. Эта гибкость позволяет модели исследовать сложные проблемы с множеством потенциальных путей решения, в конечном итоге сходясь к правильному выводу.

По словам Бехла, RL позволяет модели "генерировать очень длинные ответы и множество различных ответов", при этом основное внимание уделяется точности конечного результата. Этот акцент на результат, а не на конкретные предпринятые шаги, отражает то, как люди подходят к решению проблем. Разные мыслительные процессы приемлемы, если они приводят к правильному ответу.

В моделях Microsoft этап RL был намеренно сфокусирован на математических рассуждениях. Система вознаграждений стимулировала точность, одновременно наказывая за повторение, чрезмерную длину и неправильное форматирование ответа.

Бехл далее объяснил, что исследователи позволили модели генерировать несколько ответов на данный вопрос. Затем каждый ответ оценивался на основе его сравнения со средним баллом в группе сгенерированных ответов.

Эти относительные оценки служат механизмом обратной связи, направляя модель к предпочтению ответов, которые постоянно получают более высокие баллы. Со временем этот процесс обучает модель более тесно согласовывать свои ответы с желаемым сигналом вознаграждения.

Исследователи заметили, что применение RL к ограниченному набору из 6400 проблем привело к значительному улучшению точности в различных оценках математики и рассуждений.

"Построив Phi-1, Phi-2, Phi-3 и Phi-4, я пришел к выводу, что RL требует гораздо меньше данных, чем обучение SFT", - отметил Бехл.

Он объяснил это тем, что RL в меньшей степени направлен на передачу модели совершенно новых навыков с нуля и в большей степени на то, чтобы направлять модель к эффективному объединению и использованию существующих навыков для достижения лучших результатов.

Успех Microsoft с обучением с подкреплением согласуется с опытом многих других AI-компаний. OpenAI, пионер в разработке моделей мышления, неоднократно подчеркивал благоприятное влияние RL на свои проекты.

Интересно, что DeepSeek R1, китайская модель, которая в прошлом году произвела фурор в ландшафте ИИ, также частично объяснила свой успех применением RL. Кроме того, несколько исследователей и инженеров из OpenAI публично признали решающую роль RL в успехе их глубоких исследовательских инициатив.

Совсем недавно модель Qwen от Alibaba также одобрила обучение с подкреплением, подчеркнув его значительное влияние на их модели мышления. В своем блоге компания заявила: "Мы уверены, что объединение более сильных базовых моделей с RL, поддерживаемым масштабируемыми вычислительными ресурсами, приблизит нас к достижению общего искусственного интеллекта (AGI)".

Однако, несмотря на успехи Phi-4 Reasoning, Phi-4 Reasoning Plus и многочисленных других моделей мышления, эта область все еще сталкивается с рядом проблем.

Постоянный Поиск Совершенствования

В последние месяцы ряд исследовательских работ подчеркнул существующие ограничения и потенциальные ловушки моделей мышления. Например, в своей исследовательской работе по Phi-4 Reasoning исследователи Microsoft признали, что они по-прежнему сталкиваются с проблемами, связанными с чрезмерным потреблением времени и ресурсов, более медленным временем отклика и, что наиболее важно, с проблемой, когда ответы моделей противоречат их собственным предшествующим логическим шагам.

В еще одном важном событии Anthropic опубликовала исследование, показывающее, что цепочки рассуждений (часто называемые цепочками мыслей или CoT) могут не всегда отражать фактический процесс рассуждений модели. Исследователи обнаружили, что модели часто используют внешние подсказки, такие как явные сигналы, вставленные в подсказки, чтобы направить их к правильным ответам, но редко признают или выражают эти подсказки в своих явных логических шагах. Это несоответствие между внутренним поведением модели и ее внешним объяснением вызывает опасения по поводу надежности использования CoT в качестве надежного инструмента для интерпретируемости модели и обеспечения безопасности.

Даже OpenAI выпустила исследовательские отчеты, подчеркивающие склонность передовых моделей мышления к "взлому вознаграждений". Взлом вознаграждений относится к ситуациям, когда AI-агенты используют непредвиденные лазейки или непреднамеренные последствия в рамках своих определенных целей, чтобы максимизировать вознаграждения способами, которые изначально не предназначались или не желались. OpenAI изучила стратегии смягчения этого, такие как использование менее мощной модели (GPT-4o) для мониторинга более сильной модели, такой как o3-Mini, хотя это вносит свои собственные сложности и потенциальные предубеждения.

Нэт Макалис, сотрудник технического персонала OpenAI, подчеркнул, что "крупные модели мышления чрезвычайно хорошо умеют взламывать вознаграждения", приведя отобранные вручную примеры из отчета для иллюстрации этого.

"В цепочке рассуждений много избыточности; они противоречат сами себе, и есть много вопросов без ответов", - прокомментировал Бехл. "Но это развивающаяся область. Если мы сможем разобраться в этом как сообщество и понять, как мыслят модели, будет много преимуществ". Будущее моделей мышления зависит от решения этих проблем посредством непрерывных исследований и сотрудничества в AI-сообществе.