Малък модел на Microsoft краде шоуто

Възходът на моделите за разсъждения Phi-4

AI светът е завладян от моделите за разсъждения, а Microsoft наскоро представи семейството модели за извод Phi-4. Това включва Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning. Особено забележително е, че дори най-големият от тези модели, с едва 14 милиарда параметри, може да работи гладко на високопроизводителни лаптопи. Освен това, 3,8-милиардният параметър Phi-4-mini-reasoning надминава 8-милиардния параметър DeepSeek-R1 дестилиран модел в математическите разсъждения, подчертавайки силата на по-малките модели в задачите за извод.

Вместо да чака пускането на второто поколение DeepSeek-R2 модел за разсъждения през април, Microsoft разкри нова серия от модели за разсъждения Phi-4. Тези модели показват изключителна производителност в математическите разсъждения, надминавайки DeepSeek-R1 дестилиран модел, въпреки че Phi-4-Mini-Reasoning има по-малък параметричен мащаб.

Ахмед Авадала, партньор-мениджър изследвания в Microsoft AI Frontiers laboratory, описа Phi-4-reasoning и обобщи характеристиките на новия модел.

  • Моделът е обучен със Supervised Fine-tuning (използвайки внимателно подбран набор от данни с примери за разсъждения) и Reinforcement Learning.
  • Той се представя добре в референтни тестове за извод и може да се сравни с по-големи топ модели като DeepSeek R1.
  • Продължава да се представя силно на нови тестове (като AIME 2025, HMMT)
  • Способността за разсъждения има силна преносимост/способност за генерализация, дори след само контролирано фино настройване, той може да се адаптира към нови задачи (като k-SAT, решаване на математически уравнения, планиране и т.н.)
  • Запазва и значително подобрява общите възможности (като разбиране и изпълнение на инструкции)

Той заяви, че Phi-4 все още има няколко аспекта, които трябва да бъдат подобрени, особено в дължината на контекста, способността за кодиране и интегрирането на инструменти.

В допълнение към самия модел, Microsoft също сподели подробен технически доклад, който предоставя задълбочен анализ на процеса на обучение и оценка на модела.

В X, Димитрис Папаилиопулос, главен изследовател в Microsoft Research AI Frontiers laboratory и доцент в Университета на Уисконсин, представи повече информация за модела за разсъждения Phi-4.

Той вярва, че Phi-4-reasoning напълно е достигнал нивото на завършил университет и може да се изпълнява на локален компютър.

Това надмина очакванията му за развитието на AI.

Новият модел има малко параметри, но силна производителност.

Сила на производителността

Въпреки скромния си размер, този модел се отличава в математически референтни тестове като AIME, HMMT и OmniMath. Той се представя наравно или надминава по-големи модели с отворени тегла като QwQ-32B, R1-70B и R1, както и затворени модели като o1-mini и sonnet 3.7.

Този модел е малък по размер и е подходящ за гладко изпълнение на високопроизводителни лаптопи.

В същото време той е в състояние да решава много пъзели, които дори по-големите модели без разсъждения и някои модели за разсъждения не могат да решат.

Също така премина теста DimitrisEval!

Изненадващо, разсъжденията изглежда са наистина прехвърлящо се ‘мета-умение’, което може да бъде научено дори чрез контролирано фино настройване SFT!

Доказателство 1: Дори без специализирано обучение за задачи без разсъждения, изследователите все пак наблюдават значителни подобрения на производителността на IFEval, FlenQA и вътрешния PhiBench (увеличение с повече от 10 точки!).

В допълнение, има много малко данни, свързани с кодирането по време на SFT етапа (и изобщо няма по време на RL етапа), но моделът все пак се представя добре в това отношение.

В допълнение, Димитрис Папаилиопулос разкри, че програмирането е ключов фокус за следващите версии.

Доказателство 2: В случай на някои специфични проблеми, на които не е било изрично обучено (или SFT, или RL етап), като например задачата за търговския пътник, решаването на лабиринти, k-SAT, ограничено планиране и т.н., моделът се представя много добре в тези задачи!

А Phi-4 (и дори GPT-4) не могат да направят това.

Това напълно илюстрира, че способността за разсъждения наистина може да бъде прехвърлена като умение!

След много кратък кръг на обучение с подсилване (използвайки само 6000 проби, в сравнение с 1,4 милиона примера за SFT), механизмът за разсъждения на модела изглежда е ‘заключен’.

Това направи Димитрис Папаилиопулос особено шокиран.

Той смята, че сякаш обучението с подсилване е научило модела да разсъждава на ‘собствен език’, увеличавайки точността с около 10% на AIME и HMMT и увеличавайки средната дължина на отговора с 50% в трудни проблеми.

Обучението с подсилване е наистина ефективно!!

Феноменът на ‘заключване’ на механизма за разсъждения обикновено прави изходното разпределение на модела по-концентрирано и точността също е по-висока.

Фактът, че обучението с подсилване може значително да подобри възможностите на модела, също е отразен в предишни изследвания на Microsoft.

В етапа на обучение с подсилване, новият модел дори не е специално оптимизиран за данни: 6000 въпроса са просто избрани на случаен принцип от по-голям избор на набори от данни.

Така че защо Microsoft не проведе повече обучение с подсилване?

Тъй като моделът генерира отговори на въпроси, които надхвърлят контекстната дължина от 32k (дължината, на която моделът не е бил обучен), те можеха само да я отрежат.

В допълнение, с помощта на паралелни изчисления на разсъждения (като Maj@N), новият модел за разсъждения почти е достигнал границата на производителността на AIME 2025 и дори е надминал pass@1 производителността на своя учителски модел (o3-mini).

И завърши цялото събиране на данни преди февруари 2025 г., както и HMMT.

В други задачи изследователите също са наблюдавали феномена на ‘надминаване на учителя’, като например задачите OmniMath и Calendar Planning.

Дизайнът на подканите в SFT етапа, съчетан с последващия процес на обучение с подсилване, изглежда е дал на модела способността да се ‘самоусъвършенства’, надхвърляйки обхвата на знанията, предоставени от учителския модел.

На фигурата по-долу магентата представлява o3-mini, а зеленото представлява Phi.

Интересен феномен е, че: дългите текстове с дължини на отговорите в горните 25% често са силно корелирани с грешни отговори!

Въпреки това, от друга страна, в повечето оценки, общата средна дължина на отговора е по-дълга и точността е по-висока.

С други думи, увеличаването на изчислителните ресурси по време на тестването помага, но моделът също е склонен да ‘бърбори’, когато е ‘заседнал’.

По отношение на ограниченията на модела, има и някои неща, на които трябва да се обърне внимание:

  • Способността за обработка на контекстни дължини, надвишаващи 32k, не е напълно разширена или тествана.
  • Моделът е склонен към ‘прекомерно мислене’, когато се занимава с прости проблеми, и може да изглежда твърде многословен в самооценката.
  • Способността за многооборотни диалози не е широко тествана.

Разбира се, има повече ‘слепи петна’ за откриване, но като цяло изследователският екип смята, че са на прав път!

Тренировъчни изненади

Сурия Гунасекар, главен мениджър изследвания в Microsoft Research и принадлежащ към екипа ‘AGI Physics’, отговорен за разработването на серията модели Phi, се фокусира върху въвеждането на основните принципи на работата.

Този път екипът на Microsoft Phi се фокусира върху етапа след обучението и пусна Phi-4-reasoning (използвайки само SFT) и Phi-4-reasoning-plus (SFT+ малко количество RL).

И двата са 14B модела, които демонстрираха силни възможности в разсъжденията и общите референтни тестове на задачите.

Същността на тази работа се крие в избора на подкани и експерименталното проучване на прехвърляеми, самоусъвършенстващи се умения за разсъждения.

Имаше две изненадващи открития по време на процеса на обучение:

Първо, стига да се използват няколко обучени в домейна дълги вериги разсъждения (CoT) траектории, Phi-4 може да постигне значителни подобрения на производителността в множество задачи, като например планиране, решаване на лабиринти (без визуален вход), IFEva, FlenQA, KITAB (търсене на отговори на базата на справки) и вътрешен PhiBench;

Второ, дори ако само 6000 математически примера се използват за минимално RL обучение, производителността на модела е значително подобрена в някои референтни тестове, като най-голямото подобрение достига 10% (но използването на токени се е увеличило с около 1,5 пъти), и също така е наблюдавано междудомейнно прехвърляне на умения по време на RL етапа.

С други думи, в сравнение с големи конкуренти като OpenAI и Google, серията за разсъждения Microsoft Phi-4 демонстрира нови възможности: малките модели могат да съответстват или дори да надминат големите модели в специфични задачи, като използват висококачествени данни и усъвършенствани стратегии за обучение.

Основни методи

Моделът за разсъждения Phi-4-reasoning има 14 милиарда параметри и се представя силно в сложни задачи за разсъждения.

Моделът се основава на Phi-4 за контролирано фино настройване на обучението, като се използва внимателно подбран набор от ‘податливи на обучение’ подкани, които имат както подходяща сложност, така и разнообразие; примерите за разсъждения, генерирани от o3-mini, се използват като референции по време на процеса на обучение.

Phi-4-reasoning може да генерира подробни вериги на разсъждения и да използва пълноценно изчислителните ресурси по време на процеса на разсъждения.

На тази основа Microsoft допълнително разработи Phi-4-reasoning-plus.

Той е подобрен на базата на оригиналния модел чрез малък етап на базирано на резултатите обучение с подсилване и генерира по-дълги и по-мощни вериги на разсъждения.

Изследванията показват, че добре проектиран SFT набор от данни може значително да подобри ефекта на моделите на езика за разсъждения, а обучението с подсилване (RL) може допълнително да засили това подобрение на тази база.

В SFT експериментите, дори в тази относително проста настройка за генериране, внимателният избор и строгото филтриране на семенните проблеми все още са ключът към успеха на модела.

Те са подложили целия набор от данни за обучение на строг процес на обеззаразяване, за да се гарантира, че той не съдържа данни, които силно се припокриват с широко използвани въпроси за разсъждения или общи референтни въпроси, включително някои референтни тестове, които не са споменати в този доклад.

Пълният списък на референтните тестове, които са били обеззаразени, е както следва:

  • Математика и разсъждения: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Програмиране: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Въпроси и отговори и общи знания: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Други задачи за оценка: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Чрез Supervised Finetuning (SFT) на модела Phi-4 с 14 милиарда параметри, изследователите получиха Phi-4-reasoning, без никакво обучение с подсилване преди това.

SFT целта е да се усъвършенства структурираната способност за разсъждения, съдържаща се в основния модел.

Архитектурата на Phi-4-reasoning е същата като тази на модела Phi-4, но с две ключови модификации:

  • Токени за разсъждения: Двата токена-заместители в основния модел са използвани повторно като и токени, които се използват за маркиране на началото и края на процес на разсъждения (‘мислене’).
  • Увеличена дължина на токена: Максималната дължина на токена, първоначално поддържана от основния модел (Phi-4), беше 16K. За да се поберат допълнителни токени за разсъждения, основната честота на RoPE беше удвоена и моделът беше обучен при максимална дължина на токена от 32K.

Те са използвали синтетичен метод за генериране на голям брой примери за вериги на мисли разсъждения.

Използваният SFT набор от данни съдържа повече от 1,4 милиона двойки подкана-отговор, възлизащи на 8,3 милиарда уникални токена, обхващащи области на разсъждения като математика и програмиране, както и данни за подравняване за безопасен и отговорен AI.

Фигура 4a показва промените в ключовите показатели по време на процеса на SFT итерация.

Рано в обучението моделът започна да използва изрични токени за ‘мислене’, което показва, че моделът бързо е научил този плитък структуриран формат.

Въпреки това, както е показано на фигура 4a, ефективността на веригата на мисълта модул и способността на модела за разсъждения се подобряват по време на процеса на обучение, което показва, че моделът не просто копира формата, а всъщност учи умения за разсъждения.

Интересно е, че за разлика от обучението с подсилване, изследователите не са видели увеличение на дължината на отговора по време на SFT процеса.

Всъщност, както е показано на фигура 4b, средната дължина на отговора е намаляла леко.

Това показва, че с напредването наобучението моделът се учи да използва бюджета си за токени по-ефективно.

За да се оцени систематично различни стратегии за обучение, те са използвали фиксиран референтен тест - AIME 2024 и GPQA diamond - като показател за напредък.

Като цяло експерименталният метод може да бъде разделен на два етапа: проучване и мащабиране.

В етапа на проучване изследователите са използвали по-кратки цикли на обучение и ограничени източници на данни и полета, за да итерират бързо и да извлекат надеждни методи за обучение.

В последващата фаза на разширяване изследователите са обобщили резултатите от ранните експерименти за намаляване на риска и са финализирали SFT настройките.

Фигура 5 обобщава този напредък, като подчертава експериментите за аблация за няколко ключови решения за дизайн.

Фигура 5 показва общ преглед на контролираното фино настройване (SFT) експериментален цикъл Phi-4-reasoning, включително фазите на проучване и разширяване, като се използват някои примерни експерименти, за да се представи. Всеки клъстер точки представлява експерименталните резултати от конкретен избор на дизайн на обучение.

Фигура 7 показва ключовите констатации на модела Phi-4-reasoning-plus по време на процеса на GRPO обучение.

Започвайки от основния модел Phi-4-reasoning с контролирано фино настройване (SFT), само 90 стъпки на GRPO обучение увеличиха производителността на AIME с повече от 10% (фигура 7a).

Продължаването на увеличаването на броя на стъпките на обучение не донесе допълнителни ползи, което показва, че потенциалът на силен SFT модел е близо до тавана на производителността. Трябва да се отбележи, че изходът в GRPO обучението е ограничен до 31k токени, което обективно ограничава пространството за оптимизация на GRPO.

Както е показано на фигура 7c, дължината на отговора е силно корелирана с производителността на AIME, докато корелацията между резултата за награда и резултата за AIME е слаба. Този ефект на нарастване на дължината на отговора е очакваният ефект от GRPO обучението - моделът подобрява способността си за разсъждения, като увеличава ‘времето за мислене’.

Фигура 7d допълнително разкрива, че поради дизайна на модела за награди, дължината на генериране на грешни отговори нараства значително по-бързо от правилните отговори (когато текущият отговор на модела е грешен, системата ще го насърчи да мисли за по-дълго време).

Всъщност извършването на отхвърлящо вземане на проби, базирано единствено на дължината на отговора (особено дълги отговори, които значително надвишават медианата), може допълнително да подобри производителността на GRPO.

Както е показано на фигура 7d, тенденцията на растеж на по-късите отговори (дължина, разположена в долния 25% квантил) по време на процеса на обучение е подобна на средната дължина на правилните отговори, докато дължината на грешните отговори е по-близка до 75% квантил на общата дължина на отговора.

Този феномен на диференциация показва, че отхвърлящото вземане на проби, базирано на дължината, може да подобри ефективността на модела, като потиска прекалено дългите неправилни изходи.