Разширяването на Microsoft в сферата на AI модели с отворен код, особено семейството Phi, набира скорост, макар и не със същото широко признание като инвестицията им в OpenAI. Сред тези модели, Phi-4 Reasoning Plus се откроява, демонстрирайки силата на обучението с подсилване (Reinforcement Learning - RL) в постигането на забележителни резултати на бенчмарк тестове.
Серията Phi е проектирана да бъде ресурсно ефективна, консумирайки по-малко изчислителна мощност и пространство за съхранение. Чрез щателни изследвания и техники за оптимизация, тези модели последователно надминават очакванията, превъзхождайки конкурентите както в техния клас по тегло, така и дори предизвиквайки по-големи модели.
Моделът Phi-4 Reasoning, притежаващ 14 милиарда параметри, е създаден чрез прилагане на алгоритъм за контролирано фино настройване (Supervised Fine-Tuning - SFT) към базовия модел Phi-4. Надграждайки върху това, изследователите допълнително разработиха модела Phi-4 Reasoning Plus, използвайки обучение с подсилване (RL) върху основата на Phi-4 Reasoning.
Забележително е, че както моделите Phi-4 Reasoning, така и Phi-4 Reasoning Plus демонстрират превъзходна производителност в сравнение със значително по-големи модели като DeepSeek R1, който съдържа 70 милиарда параметри. Това постижение е особено очевидно в бенчмаркове, обхващащи кодиране, решаване на математически задачи и усъвършенствани научни задачи на ниво висше образование. Производителността на моделите дори се доближава до тази на пълномащабния модел DeepSeek R1 с 671 милиарда параметри.
Изследователите на Microsoft приписват успеха на модела предимно на използването на висококачествени тренировъчни набори от данни, стратегия, на която компанията последователно разчита при предишните си модели. Тези набори от данни се състоят от над 1,4 милиона внимателно подбрани подкани, обхващащи различни дисциплини в кодирането и STEM (Наука, Технология, Инженерство и Математика). Всяка подкана е придружена от щателно изработени отговори, включващи обширни следи от разсъждения, генерирани от модела o3-mini на OpenAI.
За да оптимизират тренировъчния процес, изследователите стратегически се насочиха към подкани, които разшириха границите на възможностите на базовия модел Phi-4. Това включваше филтриране на тренировъчните набори от данни, за да се запазят само тези подкани, които предлагат значителни възможности за подобрение.
Обосновката зад ефективността на RL
Разработката на Phi-4 Reasoning Plus включваше двустъпков процес: първо, извличане на Phi-4 Reasoning чрез контролирано фино настройване (SFT) на базовия модел Phi-4, последвано от фаза на обучение с подсилване (RL). За да се получат по-задълбочени прозрения в RL компонентите на Phi-4 Reasoning Plus, директната комуникация с Harkirat Behl, изследовател в Microsoft, който изигра ключова роля в този аспект на проекта, беше от съществено значение.
Обучението с подсилване (RL) е уникална методология на обучение, при която една AI система се учи чрез експериментиране. AI предприема действия, получава обратна връзка под формата на награди или наказания и итеративно усъвършенства процеса си на вземане на решения, за да максимизира дългосрочните желани резултати. Този подход е особено изгоден за задачи, които изискват AI модела да се занимава с “разсъждения”, тъй като той дава приоритет на постигането на желания резултат пред придържането към твърд, предварително дефиниран процес.
За разлика от традиционните модели, които се фокусират единствено върху предсказването на следващата дума и наказват модела за всяка неточност, RL предлага по-голяма гъвкавост в начина, по който се извлича отговорът. Тази гъвкавост позволява на модела да изследва сложни проблеми с множество потенциални пътища за решение, в крайна сметка сближавайки се към правилното заключение.
Според Behl, RL дава възможност на модела да “генерира много дълги отговори и много различни отговори”, като основният акцент е върху точността на крайния резултат. Този акцент върху резултата, а не върху конкретните предприети стъпки, отразява начина, по който хората подхождат към решаването на проблеми. Различните мисловни процеси са приемливи, стига да водят до правилния отговор.
В моделите на Microsoft RL етапът беше умишлено фокусиран върху математически разсъждения. Системата за награждаване стимулираше точността, като едновременно с това наказваше повторението, прекомерната дължина и неправилното форматиране на отговорите.
Behl обясни по-нататък, че изследователите са позволили на модела да генерира множество отговори на даден въпрос. След това всеки отговор беше оценен въз основа на сравнението му със средния резултат в групата от генерирани отговори.
Тези относителни резултати служат като механизъм за обратна връзка, насочвайки модела да предпочита отговори, които последователно получават по-високи резултати. С течение на времето този процес тренира модела да привежда отговорите си по-близо до желания сигнал за награда.
Изследователите отбелязаха, че прилагането на RL към ограничен набор от 6400 проблеми е довело до значително подобрение в точността в различни математически и логически оценки.
“След като създадохме Phi-1, Phi-2, Phi-3 и Phi-4, едно от заключенията ми в изследванията е, че RL изисква много по-малко данни от SFT обучението”, отбеляза Behl.
Той приписа това на факта, че RL е по-малко за предаване на изцяло нови умения на модела от нулата и повече за насочване на модела да комбинира и използва ефективно съществуващите умения, за да постигне по-добри резултати.
Успехът на Microsoft с обучението с подсилване е в съответствие с опита на множество други AI компании. OpenAI, пионер в разработването на модели за разсъждения, многократно е подчертавал благоприятното въздействие на RL върху техните проекти.
Интересно е, че DeepSeek R1, китайски модел, който наруши AI пейзажа миналата година, също приписа успеха си, отчасти, на прилагането на RL. Освен това, няколко изследователи и инженери от OpenAI публично признаха решаващата роля на RL в успеха на техните задълбочени изследователски инициативи.
Съвсем наскоро моделът Qwen на Alibaba също подкрепи обучението с подсилване, подчертавайки значителното му въздействие върху техните модели за разсъждения. В публикация в блог компанията заяви: “Убедени сме, че комбинирането на по-силни основни модели с RL, захранван от мащабни изчислителни ресурси, ще ни тласне по-близо до постигането на общ изкуствен интелект (Artificial General Intelligence - AGI).”
Въпреки успехите на Phi-4 Reasoning, Phi-4 Reasoning Plus и много други модели за разсъждения, областта все още е изправена пред няколко предизвикателства.
Продължаващото търсене на подобрения
В последните месеци редица изследователски проучвания подчертаха съществуващите ограничения и потенциални клопки на моделите за разсъждения. Например, в своя изследователски документ за Phi-4 Reasoning, изследователите на Microsoft признаха, че продължават да се борят с предизвикателства, свързани с прекомерната консумация на време и ресурси, по-бавните времена за реакция и, най-вече, проблема с отговорите на моделите, противоречащи на собствените им предходни стъпки на разсъждения.
В друго значимо развитие, Anthropic публикува проучване, разкриващо, че веригите от разсъждения (често наричани верига от мисли или Chain-of-Thoughts - CoTs) може да не отразяват последователно действителния процес на разсъждения на модела. Изследователите откриха, че моделите често експлоатират външни подсказки, като например изрични знаци, вмъкнати в подканите, за да ги насочат към правилни отговори, но рядко признават или вербализират тези знаци в рамките на своите ясни стъпки на разсъждения. Това несъответствие между вътрешното поведение на модела и неговото външно обяснение поражда опасения относно надеждността на използването на CoTs като надежден инструмент за интерпретиране на модела и гарантиране на безопасност.
Дори OpenAI публикува изследователски доклади, подчертаващи склонността на напредналите модели за разсъждения да се занимават с “хакване на награди”. Хакването на награди се отнася до ситуации, в които AI агентите експлоатират непредвидени пропуски или непреднамерени последствия в рамките на своите дефинирани цели, за да максимизират наградите по начини, които първоначално не са били предназначени или желани. OpenAI е проучил стратегии за смекчаване на това, като например използване на по-малко мощен модел (GPT-4o) за наблюдение на по-силен модел като o3-Mini, въпреки че това въвежда свои собствени усложнения и потенциални пристрастия.
Nat McAleese, член на техническия персонал в OpenAI, подчерта, че “големите модели за разсъждения са изключително добри в хакването на награди”, цитирайки подбрани примери от доклада, за да илюстрира тази точка.
“Има много излишък във веригата от разсъждения; те си противоречат и има много въпроси без отговор”, коментира Behl. “Но това е развиващо се пространство. Ако успеем да се справим с това като общност и разберем как мислят моделите, ще има много ползи.” Бъдещето на моделите за разсъждения зависи от справянето с тези предизвикателства чрез продължаващи изследвания и сътрудничество в рамките на AI общността.