RAGEN: Новый подход к обучению надёжных AI агентов

Новый подход к обучению надежных AI агентов: RAGEN

Ожидания вокруг AI агентов росли годами, и многие эксперты предсказывали, что 2025 год станет годом, когда эти специализированные реализации AI, основанные на передовых больших языковых и мультимодальных моделях (LLM), действительно взлетят. Однако реальность такова, что большинство AI агентов остаются в состоянии экспериментального забвения, изо всех сил пытаясь перейти из исследовательских лабораторий в реальные приложения.

Теперь, благодаря совместным усилиям исследователей из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета, включая бывшего исследователя DeepSeek по имени Цзихань Ван, была представлена новая система под названием RAGEN. Эта новая структура направлена на обучение и оценку AI агентов, делая их более надежными и устойчивыми для практического использования на уровне предприятия.

В отличие от традиционных задач AI, ориентированных на статические проблемы, такие как математика или кодирование, RAGEN решает многоходовые интерактивные сценарии, в которых агенты должны адаптироваться, учиться и рассуждать в условиях неопределенности. Этот подход имеет решающее значение для разработки AI, который может справиться со сложностями реальных ситуаций.

В основе RAGEN лежит пользовательская структура обучения с подкреплением (RL), известная как StarPO (State-Thinking-Actions-Reward Policy Optimization). Эта система исследует, как LLM могут учиться на опыте, а не полагаться исключительно на запоминание. StarPO фокусируется на всем процессе принятия решений, рассматривая не только отдельные ответы, но и полную траекторию взаимодействий.

StarPO работает в два отдельных этапа, которые работают в тандеме. Первый этап, называемый этапом развертывания, включает в себя генерацию LLM полных последовательностей взаимодействий, основанных на рассуждениях. Второй этап, этап обновления, оптимизирует модель с использованием нормализованных кумулятивных вознаграждений. Эта структура создает более стабильный и прозрачный цикл обучения по сравнению со стандартными методами оптимизации политики.

Исследователи внедрили и тщательно протестировали структуру, используя точно настроенные версии моделей Qwen от Alibaba, а именно Qwen 1.5 и Qwen 2.5. Эти модели были выбраны за их открытый вес и их способность эффективно следовать инструкциям, что позволило обеспечить воспроизводимость и последовательное сравнение базовых показателей в различных символических задачах.

Преодоление ‘Ловушки эха’: Обучение с подкреплением и потеря рассуждений

Цзихань Ван выделил основную проблему в широко распространенном X-треде: ‘Почему ваше обучение RL всегда рушится?’ По мнению команды, агенты LLM изначально производят хорошо обоснованные символические ответы. Однако системы RL со временем склонны вознаграждать ярлыки, что приводит к повторяющемуся поведению, которое в конечном итоге снижает общую производительность. Это явление они называют ‘Ловушкой эха’.

Эта регрессия происходит из-за циклов обратной связи, когда определенные фразы или стратегии приносят высокие вознаграждения на ранних этапах, что приводит к их чрезмерному использованию и препятствует исследованию новых подходов. Ван отмечает, что это можно количественно оценить с помощью измеримых обрывов дисперсии вознаграждений, всплесков градиента и исчезновения следов рассуждений.

Чтобы изучить это поведение в контролируемой среде, RAGEN использует три символические среды:

  • Bandit: Это одноходовая стохастическая задача, которая оценивает символическое рассуждение о риске и вознаграждении.
  • Sokoban: Многоходовая детерминированная головоломка, которая включает в себя необратимые решения.
  • Frozen Lake: Это стохастическая многоходовая задача, которая требует адаптивного планирования.

Каждая среда тщательно разработана, чтобы свести к минимуму реальные предубеждения, сосредотачиваясь вместо этого на стратегиях принятия решений, которые возникают во время обучения.

В среде Bandit, например, агенты получают информацию о том, что руки ‘Дракона’ и ‘Феникса’ представляют разные распределения вознаграждений. Вместо того чтобы напрямую предоставлять вероятности, агенты должны рассуждать символически, интерпретируя ‘Дракона’ как ‘силу’, а ‘Феникса’ как ‘надежду’, чтобы предсказать результаты. Такая установка побуждает модель генерировать объяснимые аналогические рассуждения.

Стабилизация обучения с подкреплением с помощью StarPO-S

Чтобы решить проблему краха обучения, исследователи разработали StarPO-S, стабилизированную версию оригинальной структуры. StarPO-S включает в себя три ключевых вмешательства:

  1. Фильтрация развертывания на основе неопределенности: Это определяет приоритеты развертывания, когда агент демонстрирует неуверенность в результате.
  2. Удаление штрафа KL: Позволяет модели более свободно отклоняться от своей первоначальной политики и исследовать новое поведение.
  3. Асимметричное отсечение PPO: Это усиливает траектории с высоким вознаграждением больше, чем траектории с низким вознаграждением, чтобы улучшить обучение.

Эти корректировки задерживают или устраняют крах обучения, что приводит к улучшению производительности во всех трех задачах. По словам Ван, ‘StarPO-S… работает во всех 3 задачах. Облегчает крах. Лучшее вознаграждение.’

Успех обучения RL зависит не только от архитектуры, но и от качества данных, генерируемых самими агентами. Команда определила три важных аспекта, которые значительно влияют на обучение:

  • Разнообразие задач: Предоставление модели широкого спектра начальных сценариев улучшает обобщение.
  • Гранулярность взаимодействия: Разрешение нескольких действий за ход обеспечивает более значимое планирование.
  • Свежесть развертывания: Поддержание соответствия данных обучения текущей политике модели позволяет избежать устаревших сигналов обучения.

Вместе эти факторы способствуют более стабильному и эффективному процессу обучения.

Раскрытие мыслительных процессов агента

Интерактивный демонстрационный сайт, созданный исследователями на GitHub, визуально представляет развертывание агента в виде полных ходов диалога, показывая не только предпринятые действия, но и пошаговый мыслительный процесс, лежащий в их основе.

Например, при решении математической задачи агент может сначала ‘подумать’ об изоляции переменной, прежде чем представить ответ, например ‘x = 5’. Эти промежуточные мысли видны и отслеживаемы, обеспечивая прозрачность того, как агенты приходят к решениям.

Хотя явные рассуждения улучшают производительность в простых одноходовых задачах, таких как Bandit, они, как правило, ухудшаются во время многоходового обучения. Несмотря на использование структурированных подсказок и токенов, следы рассуждений часто сокращаются или исчезают, если их явно не вознаграждать.

Это подчеркивает ограничение традиционного дизайна вознаграждений: сосредоточение внимания на завершении задачи может игнорировать качество процесса. Команда экспериментировала со штрафами на основе формата, чтобы стимулировать более структурированное рассуждение, но признает, что, вероятно, необходима более точная форма вознаграждения.

Инструменты с открытым исходным кодом для разработки AI агентов

RAGEN, вместе со своими структурами StarPO и StarPO-S, теперь доступен как проект с открытым исходным кодом. Это обеспечивает ценную основу для тех, кто заинтересован в разработке AI агентов, которые не только выполняют задачи, но и думают, планируют и развиваются.

По мере того как AI продвигается к большей автономии, такие проекты, как RAGEN, проливают свет на то, что требуется для обучения моделей, которые учатся как на данных, так и на последствиях своих собственных действий.

Ключевые вопросы для реальной реализации

Хотя в статье RAGEN представлена подробная техническая структура, остается несколько практических вопросов для тех, кто рассматривает ее применение в корпоративной среде. Например, насколько хорошо подход RAGEN переносится за пределы этих стилизованных символических задач? Потребуется ли компаниям создавать совершенно новые среды и функции вознаграждения, чтобы использовать эту систему в рабочих процессах, таких как обработка счетов или поддержка клиентов?

Еще одним важным соображением является масштабируемость. Даже с улучшениями, предлагаемыми StarPO-S, в статье признается, что обучение все еще может рухнуть в течение более длительных периодов. Это поднимает вопрос о том, существует ли теоретический или практический путь для поддержания рассуждений в течение открытых или постоянно развивающихся последовательностей задач.

RAGEN представляет собой значительный шаг вперед в создании более автономных, способных рассуждать AI агентов, выходя за рамки простых технических вкладов, чтобы предложить концептуальную структуру для будущего развития. Станет ли он стандартным компонентом корпоративного инструментария AI, еще предстоит увидеть, но его понимание динамики обучения агентов уже формирует будущее обучения LLM.

Этот новый метод решает критическую потребность в надежных и адаптируемых AI агентах, предлагая многообещающий путь вперед для реальных приложений. Сосредоточившись на обучении через опыт и оптимизации траекторий принятия решений, RAGEN помогает преодолеть разрыв между теоретическими моделями и практическими реализациями. Доступность структуры с открытым исходным кодом еще больше ускоряет инновации в этой области, позволяя исследователям и разработчикам опираться на ее основы и исследовать новые горизонты в технологии AI агентов.