RAGEN: Betrouwbare AI-Agenten Trainen

Een samenwerking van onderzoekers van Northwestern University, Microsoft, Stanford en de Universiteit van Washington, waaronder een voormalig DeepSeek-onderzoeker genaamd Zihan Wang, heeft een nieuw systeem geïntroduceerd genaamd RAGEN. Dit nieuwe framework is bedoeld om AI-agenten te trainen en te evalueren, waardoor ze betrouwbaarder en veerkrachtiger worden voor praktisch gebruik op bedrijfsniveau.

In tegenstelling tot traditionele AI-taken die gericht zijn op statische problemen zoals wiskunde of coderen, pakt RAGEN multi-turn, interactieve scenario’s aan waarin agenten zich moeten aanpassen, leren en redeneren binnen onzekere omgevingen. Deze aanpak is cruciaal voor het ontwikkelen van AI die de complexiteit van situaties in de echte wereld aankan.

De kern van RAGEN is een aangepast reinforcement learning (RL) framework dat bekend staat als StarPO (State-Thinking-Actions-Reward Policy Optimization). Dit systeem onderzoekt hoe LLM’s kunnen leren door ervaring, in plaats van alleen op memorisatie te vertrouwen. StarPO richt zich op het gehele besluitvormingsproces, waarbij niet alleen individuele reacties worden overwogen, maar ook het volledige traject van interacties.

StarPO werkt via twee afzonderlijke fasen die samenwerken. De eerste fase, de rollout-fase, omvat het genereren van volledige interactiesequenties door de LLM, geleid door redenering. De tweede fase, de update-fase, optimaliseert het model met behulp van genormaliseerde cumulatieve beloningen. Deze structuur creëert een stabielere en transparantere leerloop in vergelijking met standaard methoden voor beleidsoptimalisatie.

De onderzoekers hebben het framework geïmplementeerd en rigoureus getest met behulp van fijn afgestemde versies van Alibaba’s Qwen-modellen, met name Qwen 1.5 en Qwen 2.5. Deze modellen zijn gekozen vanwege hun open gewichten en hun vermogen om instructies effectief op te volgen, wat reproduceerbaarheid en consistente basislijnvergelijkingen mogelijk maakte voor verschillende symbolische taken.

De ‘Echo Trap’ Overwinnen: Reinforcement Learning en Redeneringsverlies

Zihan Wang benadrukte een belangrijke uitdaging in een veel gedeelde X-thread: ‘Waarom stort je RL-training altijd in elkaar?’ Volgens het team produceren LLM-agenten aanvankelijk goed beredeneerde, symbolische reacties. RL-systemen hebben echter de neiging om na verloop van tijd snelkoppelingen te belonen, wat leidt tot repetitief gedrag dat uiteindelijk de algehele prestaties vermindert. Dit fenomeen noemen ze de ‘Echo Trap’.

Deze regressie treedt op als gevolg van feedbackloops waarbij bepaalde zinnen of strategieën in een vroeg stadium hoge beloningen opleveren, wat leidt tot overmatig gebruik ervan en het belemmeren van de verkenning van nieuwe benaderingen. Wang wijst erop dat dit kwantificeerbaar is, met meetbare variantiekliffen in de beloning, gradiëntspikes en het verdwijnen van redeneringssporen.

Om deze gedragingen in een gecontroleerde omgeving te onderzoeken, gebruikt RAGEN drie symbolische omgevingen:

  • Bandit: Dit is een stochastic taak met één beurt die de symbolische risico-beloningsredenering beoordeelt.
  • Sokoban: Een deterministische puzzel met meerdere beurten waarbij onomkeerbare beslissingen moeten worden genomen.
  • Frozen Lake: Dit is een stochastische taak met meerdere beurten die adaptieve planning vereist.

Elke omgeving is zorgvuldig ontworpen om biases uit de echte wereld te minimaliseren en zich in plaats daarvan te concentreren op de besluitvormingsstrategieën die tijdens de training ontstaan.

In de Bandit-omgeving krijgen agenten bijvoorbeeld te horen dat ‘Draak’- en ‘Phoenix’-armen verschillende beloningsverdelingen vertegenwoordigen. In plaats van de kansen rechtstreeks te geven, moeten de agenten symbolisch redeneren en ‘Draak’ interpreteren als ‘kracht’ en ‘Phoenix’ als ‘hoop’ om uitkomsten te voorspellen. Dit soort opzet moedigt het model aan om verklaarbare, analoge redeneringen te genereren.

Reinforcement Learning Stabiliseren met StarPO-S

Om het probleem van het instorten van de training aan te pakken, hebben de onderzoekers StarPO-S ontwikkeld, een gestabiliseerde versie van het originele framework. StarPO-S bevat drie belangrijke interventies:

  1. Op onzekerheid gebaseerde rollout-filtering: Dit geeft prioriteit aan rollouts waarbij de agent onzekerheid toont over de uitkomst.
  2. Verwijdering van KL-penalty: Hiermee kan het model vrijer afwijken van zijn oorspronkelijke beleid en nieuwe gedragingen verkennen.
  3. Asymmetrische PPO-clipping: Dit versterkt trajecten met een hoge beloning meer dan trajecten met een lage beloning om het leren te verbeteren.

Deze aanpassingen vertragen of elimineren het instorten van de training, wat leidt tot betere prestaties bij alle drie de taken. Volgens Wang ‘werkt StarPO-S… bij alle 3 de taken. Verlicht het instorten. Betere beloning.’

Het succes van RL-training hangt niet alleen af van de architectuur, maar ook van de kwaliteit van de gegevens die door de agenten zelf worden gegenereerd. Het team identificeerde drie kritieke dimensies die de training aanzienlijk beïnvloeden:

  • Taakdiversiteit: Het blootstellen van het model aan een breed scala aan initiële scenario’s verbetert de generalisatie.
  • Interactiegranulariteit: Het toestaan van meerdere acties per beurt maakt een meer zinvolle planning mogelijk.
  • Rollout-versheid: Het afstemmen van trainingsgegevens op het huidige modelbeleid voorkomt verouderde leersignalen.

Samen dragen deze factoren bij aan een stabieler en effectiever trainingsproces.

Gedachteprocessen van Agenten Onthullen

Een interactieve demoset, gemaakt door de onderzoekers op GitHub, geeft de rollouts van agenten visueel weer als volledige dialoogbeurten, waarbij niet alleen de ondernomen acties worden onthuld, maar ook het stapsgewijze gedachteproces erachter.

Bij het oplossen van een wiskundig probleem kan een agent bijvoorbeeld eerst ‘denken’ over het isoleren van een variabele voordat hij een antwoord als ‘x = 5’ indient. Deze tussenliggende gedachten zijn zichtbaar en traceerbaar, waardoor inzicht wordt verkregen in hoe agenten tot beslissingen komen.

Hoewel expliciete redenering de prestaties verbetert bij eenvoudige taken met één beurt, zoals Bandit, heeft het de neiging om tijdens trainingen met meerdere beurten te verslechteren. Ondanks het gebruik van gestructureerde prompts en tokens, krimpen of verdwijnen redeneringssporen vaak, tenzij ze expliciet worden beloond.

Dit benadrukt een beperking in het traditionele beloningsontwerp: de focus op taakvoltooiing kan de kwaliteit van het proces over het hoofd zien. Het team experimenteerde met op formaat gebaseerde straffen om beter gestructureerde redenering aan te moedigen, maar erkent dat een meer verfijnde beloningsvorming waarschijnlijk noodzakelijk is. Het is bijvoorbeeld mogelijk om agenten te belonen voor het stellen van de juiste vragen. Een chatbot die wordt getraind om medische diagnoses te stellen, kan de juiste vragen stellen aan de patiënt, in plaats van onmiddellijk de verkeerde conclusie te trekken op basis van onvolledige informatie.

Open-Source Tools voor AI-Agentontwikkeling

RAGEN, samen met zijn StarPO- en StarPO-S-frameworks, is nu beschikbaar als een open-source project. Dit biedt een waardevolle basis voor degenen die geïnteresseerd zijn in het ontwikkelen van AI-agenten die niet alleen taken voltooien, maar ook denken, plannen en evolueren.

Naarmate AI zich ontwikkelt naar meer autonomie, werpen projecten zoals RAGEN licht op wat er nodig is om modellen te trainen die leren van zowel gegevens als de gevolgen van hun eigen acties. De mogelijkheden die geboden worden door dergelijke AI-agenten zijn enorm en strekken zich uit tot verschillende industrieën. In de gezondheidszorg kunnen ze bijvoorbeeld helpen bij het personaliseren van behandelplannen en het verbeteren van de patiëntenzorg door complexe medische gegevens te analyseren en op basis daarvan aanbevelingen te doen. In de financiële sector kunnen ze worden ingezet voor het detecteren van fraude, het automatiseren van tradingstrategieën en het bieden van gepersonaliseerd financieel advies aan klanten. En in de productie kunnen ze helpen bij het optimaliseren van processen, het voorspellen van onderhoudsbehoeften en het verbeteren van de algehele efficiëntie. Het potentieel is eindeloos en zal alleen maar toenemen naarmate de technologie verder evolueert.

Het openstellen van RAGEN als een open-source project bevordert de samenwerking en innovatie binnen de AI-gemeenschap. Door de tools en frameworks beschikbaar te stellen, stelt het onderzoekers en ontwikkelaars in staat om voort te bouwen op bestaande kennis, nieuwe benaderingen te verkennen en de grenzen van AI-agenttechnologie te verleggen. Deze open aanpak draagt bij aan een snellere ontwikkeling en implementatie van betrouwbare en effectieve AI-oplossingen die een breed scala aan problemen kunnen oplossen en de manier waarop we leven en werken kunnen verbeteren. Bovendien kunnen bedrijven die gebruikmaken van RAGEN profiteren van de transparantie en controle die de open-source aard van het project biedt, waardoor ze de code kunnen aanpassen en optimaliseren om aan hun specifieke behoeften te voldoen.

Belangrijke Vragen voor Implementatie in de Praktijk

Hoewel het RAGEN-paper een gedetailleerd technisch framework biedt, blijven er verschillende praktische vragen over voor degenen die overwegen om het toe te passen in bedrijfsomgevingen. Hoe goed vertaalt de aanpak van RAGEN zich bijvoorbeeld verder dan deze gestileerde, symbolische taken? Zouden bedrijven volledig nieuwe omgevingen en beloningsfuncties moeten creëren om dit systeem te gebruiken in workflows zoals factuurverwerking of klantenondersteuning?

Een andere cruciale overweging is schaalbaarheid. Zelfs met de verbeteringen die StarPO-S biedt, erkent het paper dat de training nog steeds kan instorten over langere perioden. Dit roept de vraag op of er een theoretisch of praktisch pad is om redenering te behouden over open of continu evoluerende taakreeksen. Het vermogen om te schalen is essentieel voor het succesvol implementeren van AI-agenten in complexe, dynamische omgevingen. Een agent die is ontworpen om een klantenservice te automatiseren, moet bijvoorbeeld in staat zijn om een breed scala aan vragen en problemen aan te pakken en zich aan te passen aan veranderende klantbehoeften en -verwachtingen.

Bovendien is het belangrijk om te overwegen hoe RAGEN kan worden geïntegreerd met bestaande systemen en infrastructuur binnen een organisatie. Dit kan het aanpassen van de framework vereisen om compatibel te zijn met bestaande data-opslagplaatsen, workflows en applicaties. Het is ook belangrijk om te zorgen voor adequate beveiligingsmaatregelen om gevoelige informatie te beschermen en de privacy van gebruikers te waarborgen.

Een andere belangrijke factor is het vereiste niveau van menselijke expertise om RAGEN te implementeren en te onderhouden. Hoewel het framework open-source is, kan het expertise in reinforcement learning, LLM’s en AI-agenttechnologie vereisen om het effectief te gebruiken. Het is mogelijk dat bedrijven moeten investeren in het trainen van hun eigen personeel of het inhuren van externe consultants om hen te helpen bij het implementeren en optimaliseren van RAGEN voor hun specifieke behoeften.

Tot slot is het belangrijk om de ethische implicaties van het gebruik van AI-agenten te overwegen. Zoals met elke AI-technologie, is het belangrijk om ervoor te zorgen dat AI-agenten op een eerlijke, transparante en verantwoordelijke manier worden gebruikt. Dit kan het implementeren van mechanismen vereisen om bias in de data te identificeren en te corrigeren, ervoor te zorgen dat agenten beslissingen nemen die consistent zijn met ethische richtlijnen en het bieden van transparantie over de manier waarop agenten tot beslissingen komen.

RAGEN vertegenwoordigt een belangrijke stap in de richting van het creëren van meer autonome, redeneervermogen hebbende AI-agenten, en gaat verder dan louter technische bijdragen om een conceptueel framework te bieden voor toekomstige ontwikkeling. Of het een standaardcomponent wordt van de enterprise AI-toolkit valt nog te bezien, maar de inzichten in de dynamiek van agentleren vormen nu al de toekomst van LLM-training. De uitdagingen die hierboven beschreven worden, moeten echter wel overwogen worden.

Deze nieuwe methode pakt de kritieke behoefte aan betrouwbare en aanpasbare AI-agenten aan en biedt een veelbelovende weg voorwaarts voor toepassingen in de echte wereld. Door zich te richten op leren door ervaring en het optimaliseren van besluitvormingstrajecten, helpt RAGEN de kloof te overbruggen tussen theoretische modellen en praktische implementaties. De open-source beschikbaarheid van het framework versnelt de innovatie in het veld verder, waardoor onderzoekers en ontwikkelaars in staat worden gesteld om voort te bouwen op de fundamenten en nieuwe grenzen te verkennen in AI-agenttechnologie. Bovendien biedt RAGEN inzicht in hoe reinforcement learning ingezet kan worden om LLM’s betere redeneervaardigheden aan te leren. Deze vaardigheden zijn cruciaal voor het creëren van AI-agenten die in staat zijn om complexe problemen op te lossen en zich aan te passen aan veranderende omstandigheden. Door te focussen op het belonen van goed beredeneerde beslissingen en het bestraffen van snelkoppelingen, kan RAGEN LLM’s helpen om de ‘Echo Trap’ te vermijden en hun algehele prestaties te verbeteren. Dit is essentieel voor het ontwikkelen van AI-agenten die betrouwbaar en effectief kunnen functioneren in de echte wereld.