RAGEN: Нов подход за надеждни AI агенти

Вълнението около AI агентите нараства от години, като много експерти прогнозират, че 2025 г. ще бъде годината, в която тези специфични AI приложения, задвижвани от усъвършенствани големи езикови и мултимодални модели (LLMs), наистина ще процъфтяват. Въпреки това, реалността е, че повечето AI агенти остават в състояние на експериментално безвремие, борейки се да преминат от изследователски лаборатории към реални приложения.

Сега, съвместните усилия на изследователи от Northwestern University, Microsoft, Stanford и University of Washington, включително бивш изследовател от DeepSeek на име Zihan Wang, представиха нова система, наречена RAGEN. Тази нова рамка има за цел да обучи и оцени AI агенти, правейки ги по-надеждни и устойчиви за практическа употреба на корпоративно ниво.

За разлика от традиционните AI задачи, фокусирани върху статични проблеми като математика или кодиране, RAGEN се справя с многооборотни, интерактивни сценарии, където агентите трябва да се адаптират, да учат и да разсъждават в несигурни среди. Този подход е от решаващо значение за разработването на AI, който може да се справи със сложността на реалните ситуации.

В основата на RAGEN е персонализирана рамка за обучение с подсилване (RL), известна като StarPO (State-Thinking-Actions-Reward Policy Optimization). Тази система изследва как LLM могат да учат чрез опит, вместо да разчитат единствено на запаметяване. StarPO се фокусира върху целия процес на вземане на решения, като взема предвид не само отделните отговори, но и пълната траектория на взаимодействията.

StarPO работи чрез два отделни етапа, които работят в тандем. Първият етап, наречен rollout stage, включва LLM, генериращ пълни последователности на взаимодействие, ръководени от разсъждения. Вторият етап, етапът на актуализация, оптимизира модела, използвайки нормализирани кумулативни награди. Тази структура създава по-стабилен и прозрачен цикъл на обучение в сравнение със стандартните методи за оптимизация на политиките.

Изследователите внедриха и стриктно тестваха рамката, използвайки фино настроени версии на моделите Qwen на Alibaba, по-специално Qwen 1.5 и Qwen 2.5. Тези модели бяха избрани заради техните отворени тегла и способността им да следват ефективно инструкции, което позволи възпроизводимост и последователни сравнения на базовите линии в различни символични задачи.

Преодоляване на ‘Ехо капана’: Обучение с подсилване и загуба на разсъждения

Zihan Wang подчерта основно предизвикателство в широко споделена нишка в X: ‘Защо вашето RL обучение винаги се срива?’ Според екипа, LLM агентите първоначално произвеждат добре обосновани, символични отговори. Въпреки това, RL системите са склонни да възнаграждават преките пътища с течение на времето, което води до повтарящи се поведения, които в крайна сметка намаляват цялостната производителност. Това явление е това, което те наричат ‘Ехо капан’.

Тази регресия възниква поради обратни връзки, при които определени фрази или стратегии дават високи награди в началото, което води до тяхната прекомерна употреба и възпрепятства изследването на нови подходи. Wang посочва, че това е количествено определимо, с измерими скали на вариация на наградата, скокове на градиента и изчезване на следите от разсъждения.

За да проучи тези поведения в контролирана среда, RAGEN използва три символични среди:

  • Bandit: Това е еднократна, стохастична задача, която оценява символичното разсъждение за риск-награда.
  • Sokoban: Многооборотна, детерминистична пъзел, която включва необратими решения.
  • Frozen Lake: Това е стохастична, многооборотна задача, която изисква адаптивно планиране.

Всяка среда е щателно проектирана да минимизира реалните пристрастия, фокусирайки се вместо това върху стратегиите за вземане на решения, които се появяват по време на обучението.

В средата Bandit, например, агентите са информирани, че рамената ‘Dragon’ и ‘Phoenix’ представляват различни разпределения на наградите. Вместо директно да предоставят вероятностите, агентите трябва да разсъждават символично, интерпретирайки ‘Dragon’ като ‘сила’, а ‘Phoenix’ като ‘надежда’, за да предскажат резултатите. Този вид настройка насърчава модела да генерира обясними, аналогични разсъждения.

Стабилизиране на обучението с подсилване със StarPO-S

За да се справи с проблема със срива на обучението, изследователите разработиха StarPO-S, стабилизирана версия на оригиналната рамка. StarPO-S включва три ключови интервенции:

  1. Филтриране на разгръщането въз основа на несигурността: Това приоритизира разгръщанията, при които агентът демонстрира несигурност относно резултата.
  2. Премахване на KL наказанието: Позволява на модела да се отклонява по-свободно от първоначалната си политика и да изследва нови поведения.
  3. Асиметрично PPO клипиране: Това усилва траекториите с висока награда повече от траекториите с ниска награда, за да подобри обучението.

Тези настройки забавят или елиминират срива на обучението, което води до подобрена производителност във всичките три задачи. Според Wang, ‘StarPO-S… работи във всичките 3 задачи. Облекчава срива. По-добра награда.’

Успехът на RL обучението зависи не само от архитектурата, но и от качеството на данните, генерирани от самите агенти. Екипът идентифицира три критични измерения, които значително влияят върху обучението:

  • Разнообразие на задачите: Излагането на модела на широк спектър от първоначални сценарии подобрява обобщаването.
  • Детайлност на взаимодействието: Разрешаването на множество действия на ход позволява по-смислено планиране.
  • Свежест на разгръщането: Поддържането на данните за обучение в съответствие с текущата политика на модела избягва остарели сигнали за обучение.

Заедно тези фактори допринасят за по-стабилен и ефективен процес на обучение.

Разкриване на мисловните процеси на агентите

Интерактивен демонстрационен сайт, създаден от изследователите в GitHub, визуално представя разгръщанията на агентите като пълни диалогови ходове, разкривайки не само предприетите действия, но и стъпка по стъпка мисловния процес зад тях.

Например, когато решава математически проблем, агентът може първо да ‘помисли’ за изолиране на променлива, преди да подаде отговор като ‘x = 5’. Тези междинни мисли са видими и проследими, осигурявайки прозрачност в начина, по който агентите стигат до решения.

Въпреки че изричното разсъждение подобрява производителността в прости, еднократни задачи като Bandit, то е склонно да се влошава по време на многооборотно обучение. Въпреки използването на структурирани подкани и токени, следите от разсъждения често се свиват или изчезват, освен ако не бъдат изрично възнаградени.

Това подчертава ограничение в традиционния дизайн на наградите: фокусирането върху завършването на задачата може да пренебрегне качеството на процеса. Екипът експериментира с наказания, базирани на формата, за да насърчи по-добре структурирано разсъждение, но признава, че е вероятно необходимо по-прецизно оформяне на наградите.

Инструменти с отворен код за разработване на AI агенти

RAGEN, заедно с неговите рамки StarPO и StarPO-S, вече е достъпен като проект с отворен код. Това осигурява ценна основа за тези, които се интересуват от разработването на AI агенти, които не само завършват задачи, но и мислят, планират и се развиват.

Тъй като AI напредва към по-голяма автономия, проекти като RAGEN хвърлят светлина върху това, което е необходимо, за да се обучат модели, които се учат както от данни, така и от последствията от собствените си действия.

Ключови въпроси за реализация в реалния свят

Въпреки че статията за RAGEN предоставя подробна техническа рамка, остават няколко практически въпроса за тези, които обмислят нейното приложение в корпоративни среди. Например, колко добре подходът на RAGEN се превежда отвъд тези стилизирани, символични задачи? Дали компаниите ще трябва да създадат изцяло нови среди и функции за възнаграждение, за да използват тази система в работни процеси като обработка на фактури или поддръжка на клиенти?

Друго критично съображение е мащабируемостта. Дори и с подобренията, предлагани от StarPO-S, статията признава, че обучението все още може да се срине за по-дълги периоди. Това повдига въпроса дали има теоретичен или практически път за поддържане на разсъжденията при отворени или непрекъснато развиващи се последователности от задачи.

RAGEN представлява значителна стъпка към създаването на по-автономни, способни да разсъждават AI агенти, като се движи отвъд обикновените технически приноси, за да предложи концептуална рамка за бъдещо развитие. Дали ще се превърне в стандартен компонент на корпоративния AI инструментариум, предстои да видим, но неговите прозрения за динамиката на обучението на агентите вече оформят бъдещето на LLM обучението.

Този нов метод отговаря на критичната нужда от надеждни и адаптивни AI агенти, предлагайки обещаващ път напред за реални приложения. Като се фокусира върху ученето чрез опит и оптимизирането на траекториите на вземане на решения, RAGEN помага да се преодолее пропастта между теоретичните модели и практическите реализации. Наличието на рамката с отворен код допълнително ускорява иновациите в тази област, давайки възможност на изследователите и разработчиците да надграждат нейните основи и да изследват нови граници в AI агент технологиите.