RAGEN: Nowe Szkolenie Agentów AI

Nowe podejście do szkolenia niezawodnych agentów AI: RAGEN

Oczekiwania wobec agentów AI rosną od lat, a wielu ekspertów przewidywało, że rok 2025 będzie przełomowy dla tych wyspecjalizowanych implementacji AI, opartych na zaawansowanych dużych modelach językowych i multimodalnych (LLM). Jednak rzeczywistość jest taka, że większość agentów AI pozostaje w fazie eksperymentalnej, z trudem przechodząc z laboratoriów badawczych do zastosowań w świecie rzeczywistym.

Obecnie, dzięki współpracy naukowców z Northwestern University, Microsoft, Stanford i University of Washington, w tym byłego badacza DeepSeek, Zihana Wanga, wprowadzono nowy system o nazwie RAGEN. Ten nowy framework ma na celu szkolenie i ocenę agentów AI, czyniąc ich bardziej niezawodnymi i odpornymi na potrzeby praktycznego, korporacyjnego użytku.

W przeciwieństwie do tradycyjnych zadań AI, skupionych na statycznych problemach, takich jak matematyka lub kodowanie, RAGEN zajmuje się wieloetapowymi, interaktywnymi scenariuszami, w których agenci muszą się adaptować, uczyć i rozumować w niepewnych środowiskach. To podejście jest kluczowe dla rozwoju AI, która potrafi radzić sobie ze złożonością sytuacji w świecie rzeczywistym.

Sercem RAGEN jest niestandardowy framework uczenia ze wzmocnieniem (RL) znany jako StarPO (State-Thinking-Actions-Reward Policy Optimization). System ten bada, w jaki sposób LLM mogą uczyć się poprzez doświadczenie, zamiast polegać wyłącznie na zapamiętywaniu. StarPO koncentruje się na całym procesie podejmowania decyzji, biorąc pod uwagę nie tylko pojedyncze odpowiedzi, ale całą trajektorię interakcji.

StarPO działa w dwóch odrębnych fazach, które współpracują ze sobą. Pierwsza faza, zwana etapem rollout, polega na generowaniu przez LLM kompletnych sekwencji interakcji, kierowanych rozumowaniem. Druga faza, etap aktualizacji, optymalizuje model przy użyciu znormalizowanych skumulowanych nagród. Ta struktura tworzy bardziej stabilną i przejrzystą pętlę uczenia w porównaniu ze standardowymi metodami optymalizacji polityki.

Naukowcy zaimplementowali i rygorystycznie przetestowali framework, wykorzystując dostrojone wersje modeli Qwen firmy Alibaba, w szczególności Qwen 1.5 i Qwen 2.5. Modele te zostały wybrane ze względu na ich otwarte wagi i zdolność do skutecznego przestrzegania instrukcji, co pozwoliło na powtarzalność i spójne porównania bazowe w różnych zadaniach symbolicznych.

Pokonywanie “Pułapki Echa”: Uczenie ze wzmocnieniem i utrata rozumowania

Zihan Wang podkreślił główne wyzwanie w szeroko udostępnianym wątku na X: “Dlaczego Twoje szkolenie RL zawsze się załamuje?” Według zespołu, agenci LLM początkowo generują dobrze uzasadnione, symboliczne odpowiedzi. Jednak systemy RL z czasem mają tendencję do nagradzania skrótów, co prowadzi do powtarzalnych zachowań, które ostatecznie zmniejszają ogólną wydajność. To zjawisko nazywają “Pułapką Echa”.

Ta regresja występuje z powodu pętli sprzężenia zwrotnego, w których pewne frazy lub strategie przynoszą wysokie nagrody na wczesnym etapie, co prowadzi do ich nadużywania i utrudnia eksplorację nowych podejść. Wang zwraca uwagę, że można to zmierzyć, obserwując mierzalne załamania wariancji nagród, skoki gradientu i zanikanie śladów rozumowania.

Aby zbadać te zachowania w kontrolowanym otoczeniu, RAGEN wykorzystuje trzy środowiska symboliczne:

  • Bandit: To jednoetapowe, stochastyczne zadanie, które ocenia symboliczne rozumowanie o ryzyku i nagrodzie.
  • Sokoban: Wieloetapowa, deterministyczna łamigłówka, która obejmuje nieodwracalne decyzje.
  • Frozen Lake: To stochastyczne, wieloetapowe zadanie, które wymaga adaptacyjnego planowania.

Każde środowisko jest starannie zaprojektowane, aby zminimalizować uprzedzenia świata rzeczywistego, koncentrując się zamiast tego na strategiach podejmowania decyzji, które pojawiają się podczas szkolenia.

W środowisku Bandit, na przykład, agenci są informowani, że ramiona “Smoka” i “Feniksa” reprezentują różne rozkłady nagród. Zamiast bezpośrednio podawać prawdopodobieństwa, agenci muszą rozumować symbolicznie, interpretując “Smoka” jako “siłę”, a “Feniksa” jako “nadzieję”, aby przewidywać wyniki. Ten rodzaj ustawienia zachęca model do generowania wytłumaczalnego, analogicznego rozumowania.

Stabilizacja uczenia ze wzmocnieniem dzięki StarPO-S

Aby rozwiązać problem załamania szkolenia, naukowcy opracowali StarPO-S, ustabilizowaną wersję oryginalnego frameworka. StarPO-S zawiera trzy kluczowe interwencje:

  1. Filtrowanie rolloutów oparte na niepewności: To priorytetyzuje rollouty, w których agent wykazuje niepewność co do wyniku.
  2. Usunięcie kary KL: Pozwala modelowi na swobodniejsze odchylanie się od jego pierwotnej polityki i eksplorowanie nowych zachowań.
  3. Asymetryczne przycinanie PPO: To wzmacnia trajektorie z wysokimi nagrodami bardziej niż te z niskimi nagrodami, aby poprawić uczenie.

Te korekty opóźniają lub eliminują załamanie szkolenia, prowadząc do poprawy wydajności we wszystkich trzech zadaniach. Według Wanga, “StarPO-S… działa we wszystkich 3 zadaniach. Łagodzi załamanie. Lepsza nagroda.”

Sukces szkolenia RL zależy nie tylko od architektury, ale także od jakości danych generowanych przez samych agentów. Zespół zidentyfikował trzy krytyczne wymiary, które znacząco wpływają na szkolenie:

  • Różnorodność zadań: Wystawienie modelu na szeroki zakres początkowych scenariuszy zwiększa generalizację.
  • Szczegółowość interakcji: Umożliwienie wielu akcji na turę umożliwia bardziej znaczące planowanie.
  • Świeżość rolloutów: Utrzymywanie danych szkoleniowych w zgodzie z bieżącą polityką modelu pozwala uniknąć przestarzałych sygnałów uczenia.

Razem, czynniki te przyczyniają się do bardziej stabilnego i efektywnego procesu szkolenia.

Odkrywanie procesów myślowych agenta

Interaktywna strona demonstracyjna, stworzona przez naukowców na GitHub, wizualnie przedstawia rollouty agenta jako pełne tury dialogowe, ujawniając nie tylko podjęte działania, ale także krok po kroku proces myślowy, który za nimi stoi.

Na przykład, rozwiązując zadanie matematyczne, agent może najpierw “pomyśleć” o wyizolowaniu zmiennej, zanim prześle odpowiedź typu “x = 5”. Te pośrednie myśli są widoczne i możliwe do prześledzenia, zapewniając przejrzystość co do tego, jak agenci dochodzą do decyzji.

Chociaż jawne rozumowanie poprawia wydajność w prostych, jednoetapowych zadaniach, takich jak Bandit, ma tendencję do pogarszania się podczas wieloetapowego szkolenia. Pomimo używania uporządkowanych podpowiedzi i tokenów, ślady rozumowania często się kurczą lub znikają, chyba że są wyraźnie nagradzane.

To podkreśla ograniczenie w tradycyjnym projektowaniu nagród: skupienie się na ukończeniu zadania może pomijać jakość procesu. Zespół eksperymentował z karami opartymi na formacie, aby zachęcić do lepiej uporządkowanego rozumowania, ale przyznaje, że prawdopodobnie konieczne jest bardziej precyzyjne kształtowanie nagród.

Narzędzia open-source do rozwoju agentów AI

RAGEN, wraz ze swoimi frameworkami StarPO i StarPO-S, jest teraz dostępny jako projekt open-source. Stanowi to cenną podstawę dla osób zainteresowanych rozwojem agentów AI, którzy nie tylko wykonują zadania, ale także myślą, planują i ewoluują.

W miarę jak AI zmierza w kierunku większej autonomii, projekty takie jak RAGEN rzucają światło na to, co jest potrzebne do szkolenia modeli, które uczą się zarówno z danych, jak i z konsekwencji własnych działań.

Kluczowe pytania dotyczące wdrożenia w świecie rzeczywistym

Chociaż artykuł RAGEN zawiera szczegółowy framework techniczny, pozostaje kilka praktycznych pytań dla osób rozważających jego zastosowanie w środowiskach korporacyjnych. Na przykład, jak dobrze podejście RAGEN przekłada się poza te stylizowane, symboliczne zadania? Czy firmy musiałyby tworzyć zupełnie nowe środowiska i funkcje nagród, aby korzystać z tego systemu w przepływach pracy, takich jak przetwarzanie faktur lub obsługa klienta?

Kolejnym krytycznym aspektem jest skalowalność. Nawet z ulepszeniami oferowanymi przez StarPO-S, artykuł przyznaje, że szkolenie nadal może się załamać w dłuższych okresach. Rodzi to pytanie, czy istnieje teoretyczna lub praktyczna ścieżka do podtrzymania rozumowania w otwartych lub stale ewoluujących sekwencjach zadań.

RAGEN stanowi znaczący krok w kierunku tworzenia bardziej autonomicznych agentów AI zdolnych do rozumowania, wykraczając poza zwykłe wkłady techniczne, aby zaoferować koncepcyjny framework dla przyszłego rozwoju. To, czy stanie się standardowym elementem korporacyjnego zestawu narzędzi AI, pozostaje do zobaczenia, ale jego spostrzeżenia na temat dynamiki uczenia się agentów już kształtują przyszłość szkolenia LLM.

Ta nowatorska metoda odpowiada na krytyczną potrzebę niezawodnych i adaptacyjnych agentów AI, oferując obiecującą drogę naprzód dla zastosowań w świecie rzeczywistym. Koncentrując się na uczeniu się poprzez doświadczenie i optymalizacji trajektorii podejmowania decyzji, RAGEN pomaga wypełnić lukę między modelami teoretycznymi a praktycznymi implementacjami. Dostępność frameworka na zasadach open-source dodatkowo przyspiesza innowacje w tej dziedzinie, umożliwiając badaczom i programistom budowanie na jego fundamentach i odkrywanie nowych granic w technologii agentów AI.