RAGEN: Zuverlässige KI-Agenten trainieren | de

Ein neuer Ansatz zum Training zuverlässiger KI-Agenten: RAGEN

Die Erwartungen an KI-Agenten sind seit Jahren hoch, und viele Experten prognostizieren, dass 2025 das Jahr sein wird, in dem diese aufgabenspezifischen KI-Implementierungen, die von fortschrittlichen großen Sprach- und multimodalen Modellen (LLMs) angetrieben werden, wirklich durchstarten werden. Die Realität ist jedoch, dass die meisten KI-Agenten sich immer noch in einem experimentellen Schwebezustand befinden und Schwierigkeiten haben, den Übergang von Forschungslabors zu realen Anwendungen zu schaffen.

Nun hat eine Zusammenarbeit von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, darunter ein ehemaliger DeepSeek-Forscher namens Zihan Wang, ein neuartiges System namens RAGEN vorgestellt. Dieser neue Rahmen zielt darauf ab, KI-Agenten zu trainieren und zu bewerten, um sie für den praktischen Einsatz auf Unternehmensebene zuverlässiger und widerstandsfähiger zu machen.

Im Gegensatz zu herkömmlichen KI-Aufgaben, die sich auf statische Probleme wie Mathematik oder Programmierung konzentrieren, geht RAGEN mehrstufige, interaktive Szenarien an, in denen sich Agenten anpassen, lernen und in unsicheren Umgebungen argumentieren müssen. Dieser Ansatz ist entscheidend für die Entwicklung von KI, die mit der Komplexität realer Situationen umgehen kann.

Das Herzstück von RAGEN ist ein benutzerdefiniertes Reinforcement Learning (RL)-Framework namens StarPO (State-Thinking-Actions-Reward Policy Optimization). Dieses System untersucht, wie LLMs durch Erfahrung lernen können, anstatt sich ausschließlich auf das Auswendiglernen zu verlassen. StarPO konzentriert sich auf den gesamten Entscheidungsprozess und berücksichtigt nicht nur einzelne Antworten, sondern die gesamte Trajektorie der Interaktionen.

StarPO arbeitet in zwei verschiedenen Phasen, die Hand in Hand gehen. Die erste Phase, die als Rollout-Phase bezeichnet wird, beinhaltet, dass das LLM vollständige Interaktionssequenzen generiert, die durch logisches Denken geleitet werden. Die zweite Phase, die Update-Phase, optimiert das Modell mithilfe normalisierter kumulativer Belohnungen. Diese Struktur schafft eine stabilere und transparentere Lernschleife im Vergleich zu Standard-Policy-Optimierungsmethoden.

Die Forscher implementierten und testeten den Rahmen rigoros mit feinabgestimmten Versionen von Alibabas Qwen-Modellen, insbesondere Qwen 1.5 und Qwen 2.5. Diese Modelle wurden aufgrund ihrer offenen Gewichte und ihrer Fähigkeit, Anweisungen effektiv zu befolgen, ausgewählt, was Reproduzierbarkeit und konsistente Basislinienvergleiche über verschiedene symbolische Aufgaben hinweg ermöglichte.

Überwindung der ‘Echo-Falle’: Reinforcement Learning und Reasoning Loss

Zihan Wang hob in einem weit verbreiteten X-Thread eine zentrale Herausforderung hervor: ‘Warum bricht Ihr RL-Training immer zusammen?’ Laut dem Team produzieren LLM-Agenten zunächst gut begründete, symbolische Antworten. RL-Systeme neigen jedoch dazu, im Laufe der Zeit Abkürzungen zu belohnen, was zu sich wiederholenden Verhaltensweisen führt, die letztendlich die Gesamtleistung mindern. Dieses Phänomen bezeichnen sie als ‘Echo-Falle’.

Diese Regression tritt aufgrund von Feedbackschleifen auf, in denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen erzielen, was zu deren übermäßigem Gebrauch führt und die Erforschung neuer Ansätze behindert. Wang weist darauf hin, dass dies quantifizierbar ist, mit messbaren Belohnungsvarianz-Cliffs, Gradientenspitzen und dem Verschwinden von Reasoning-Spuren.

Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, verwendet RAGEN drei symbolische Umgebungen:

Bandit: Dies ist eine einstufige, stochastische Aufgabe, die symbolisches Risiko-Belohnungs-Denken bewertet.
Sokoban: Ein mehrstufiges, deterministisches Puzzle, das irreversible Entscheidungen beinhaltet.
Frozen Lake: Dies ist eine stochastische, mehrstufige Aufgabe, die adaptive Planung erfordert.

Jede Umgebung ist sorgfältig darauf ausgelegt, reale Verzerrungen zu minimieren und sich stattdessen auf die Entscheidungsfindungsstrategien zu konzentrieren, die während des Trainings entstehen.

In der Bandit-Umgebung werden Agenten beispielsweise darüber informiert, dass die ‘Drachen’- und ‘Phönix’-Arme unterschiedliche Belohnungsverteilungen darstellen. Anstatt die Wahrscheinlichkeiten direkt anzugeben, müssen die Agenten symbolisch argumentieren und ‘Drachen’ als ‘Stärke’ und ‘Phönix’ als ‘Hoffnung’ interpretieren, um Ergebnisse vorherzusagen. Diese Art von Setup ermutigt das Modell, erklärbare, analoge Argumentationen zu generieren.

Stabilisierung von Reinforcement Learning mit StarPO-S

Um das Problem des Trainingszusammenbruchs anzugehen, entwickelten die Forscher StarPO-S, eine stabilisierte Version des ursprünglichen Frameworks. StarPO-S enthält drei wichtige Interventionen:

Unsicherheitsbasierte Rollout-Filterung: Dies priorisiert Rollouts, bei denen der Agent Unsicherheit über das Ergebnis zeigt.
KL-Penalty-Entfernung: Ermöglicht dem Modell, freier von seiner ursprünglichen Policy abzuweichen und neue Verhaltensweisen zu erkunden.
Asymmetrisches PPO-Clipping: Dies verstärkt Trajektorien mit hoher Belohnung stärker als solche mit niedriger Belohnung, um das Lernen zu verbessern.

Diese Anpassungen verzögern oder eliminieren den Trainingszusammenbruch, was zu einer verbesserten Leistung über alle drei Aufgaben hinweg führt. Laut Wang funktioniert ‘StarPO-S … über alle 3 Aufgaben hinweg. Lindert den Zusammenbruch. Bessere Belohnung.’

Der Erfolg des RL-Trainings hängt nicht nur von der Architektur ab, sondern auch von der Qualität der Daten, die von den Agenten selbst generiert werden. Das Team identifizierte drei kritische Dimensionen, die das Training erheblich beeinflussen:

Aufgabenvielfalt: Das Aussetzen des Modells einer breiten Palette von anfänglichen Szenarien verbessert die Generalisierung.
Interaktionsgranularität: Das Zulassen mehrerer Aktionen pro Runde ermöglicht eine sinnvollere Planung.
Rollout-Frische: Das Ausrichten der Trainingsdaten an der aktuellen Modell-Policy vermeidet veraltete Lernsignale.

Zusammen tragen diese Faktoren zu einem stabileren und effektiveren Trainingsprozess bei.

Enthüllung der Denkprozesse von Agenten

Eine interaktive Demo-Site, die von den Forschern auf GitHub erstellt wurde, stellt Agenten-Rollouts visuell als vollständige Dialogrunden dar und enthüllt nicht nur die ergriffenen Maßnahmen, sondern auch den schrittweisen Denkprozess dahinter.

Wenn ein Agent beispielsweise ein mathematisches Problem löst, könnte er zuerst ‘denken’, eine Variable zu isolieren, bevor er eine Antwort wie ‘x = 5’ sendet. Diese Zwischengedanken sind sichtbar und nachvollziehbar und bieten Transparenz darüber, wie Agenten zu Entscheidungen gelangen.

Während explizites Reasoning die Leistung bei einfachen, einstufigen Aufgaben wie Bandit verbessert, neigt es dazu, sich während des mehrstufigen Trainings zu verschlechtern. Trotz der Verwendung strukturierter Prompts und Tokens schrumpfen oder verschwinden Reasoning-Spuren oft, es sei denn, sie werden explizit belohnt.

Dies verdeutlicht eine Einschränkung im traditionellen Belohnungsdesign: Die Konzentration auf den Abschluss der Aufgabe kann die Qualität des Prozesses übersehen. Das Team experimentierte mit formatbasierten Penalties, um ein besser strukturiertes Reasoning zu fördern, räumt jedoch ein, dass eine verfeinerte Belohnungsgestaltung wahrscheinlich notwendig ist.

Open-Source-Tools für die Entwicklung von KI-Agenten

RAGEN ist zusammen mit seinen StarPO- und StarPO-S-Frameworks jetzt als Open-Source-Projekt verfügbar. Dies bietet eine wertvolle Grundlage für diejenigen, die daran interessiert sind, KI-Agenten zu entwickeln, die nicht nur Aufgaben erledigen, sondern auch denken, planen und sich entwickeln.

Während die KI auf größere Autonomie zusteuert, werfen Projekte wie RAGEN ein Licht darauf, was es braucht, um Modelle zu trainieren, die sowohl aus Daten als auch aus den Konsequenzen ihrer eigenen Handlungen lernen.

Schlüsselfragen für die reale Implementierung

Während das RAGEN-Paper einen detaillierten technischen Rahmen bietet, bleiben mehrere praktische Fragen für diejenigen offen, die seine Anwendung in Unternehmensumgebungen in Betracht ziehen. Wie gut lässt sich beispielsweise der Ansatz von RAGEN über diese stilisierten, symbolischen Aufgaben hinaus übertragen? Müssten Unternehmen völlig neue Umgebungen und Belohnungsfunktionen erstellen, um dieses System in Workflows wie Rechnungsverarbeitung oder Kundensupport einzusetzen?

Ein weiterer kritischer Aspekt ist die Skalierbarkeit. Selbst mit den Verbesserungen, die StarPO-S bietet, räumt das Paper ein, dass das Training über längere Zeiträume immer noch zusammenbrechen kann. Dies wirft die Frage auf, ob es einen theoretischen oder praktischen Weg gibt, das Reasoning über offene oder sich kontinuierlich entwickelnde Aufgabensequenzen hinweg aufrechtzuerhalten.

RAGEN stellt einen bedeutenden Schritt in Richtung der Schaffung autonomerer, denkfähiger KI-Agenten dar und geht über bloße technische Beiträge hinaus, um einen konzeptionellen Rahmen für die zukünftige Entwicklung zu bieten. Ob es zu einer Standardkomponente des Enterprise-KI-Toolkits wird, bleibt abzuwarten, aber seine Erkenntnisse über die Dynamik des Agentenlernens prägen bereits die Zukunft des LLM-Trainings.

Diese neuartige Methode adressiert den kritischen Bedarf an zuverlässigen und anpassungsfähigen KI-Agenten und bietet einen vielversprechenden Weg für reale Anwendungen. Indem es sich auf das Lernen durch Erfahrung und die Optimierung von Entscheidungstrajektorien konzentriert, trägt RAGEN dazu bei, die Kluft zwischen theoretischen Modellen und praktischen Implementierungen zu überbrücken. Die Open-Source-Verfügbarkeit des Frameworks beschleunigt die Innovation in diesem Bereich zusätzlich und ermöglicht es Forschern und Entwicklern, auf seinen Grundlagen aufzubauen und neue Grenzen in der KI-Agenten-Technologie zu erkunden.

title: “RAGEN: Zuverlässige KI-Agenten trainieren”
date: ‘2025-04-24’
updated: ‘2025-04-24’
language: de
tags: [‘AI’, ‘LLM’, ‘Agent’]

draft: false
description: “Ein neues System namens RAGEN trainiert und bewertet KI-Agenten, um sie zuverlässiger und widerstandsfähiger für den praktischen Einsatz zu machen. Es verwendet ein benutzerdefiniertes Reinforcement Learning-Framework namens StarPO.”
authors: [‘default’]
layout: PostLayout

Ein neuer Ansatz zum Training zuverlässiger KI-Agenten: RAGEN

Die Erwartungen an KI-Agenten sind seit Jahren hoch, und viele Experten prognostizieren, dass 2025 das Jahr sein wird,in dem diese aufgabenspezifischen KI-Implementierungen, die von fortschrittlichen großen Sprach- und multimodalen Modellen (LLMs) angetrieben werden, wirklich durchstarten werden. Die Realität ist jedoch, dass die meisten KI-Agenten sich immer noch in einem experimentellen Schwebezustand befinden und Schwierigkeiten haben, den Übergang von Forschungslabors zu realen Anwendungen zu schaffen.

Überwindung der ‘Echo-Falle’: Reinforcement Learning und Reasoning Loss

Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, verwendet RAGEN drei symbolische Umgebungen:

Bandit: Dies ist eine einstufige, stochastische Aufgabe, die symbolisches Risiko-Belohnungs-Denken bewertet.
Sokoban: Ein mehrstufiges, deterministisches Puzzle, das irreversible Entscheidungen beinhaltet.
Frozen Lake: Dies ist eine stochastische, mehrstufige Aufgabe, die adaptive Planung erfordert.

Jede Umgebung ist sorgfältig darauf ausgelegt, reale Verzerrungen zu minimieren und sich stattdessen auf die Entscheidungsfindungsstrategien zu konzentrieren, die während des Trainings entstehen.

Stabilisierung von Reinforcement Learning mit StarPO-S

Um das Problem des Trainingszusammenbruchs anzugehen, entwickelten die Forscher StarPO-S, eine stabilisierte Version des ursprünglichen Frameworks. StarPO-S enthält drei wichtige Interventionen:

Unsicherheitsbasierte Rollout-Filterung: Dies priorisiert Rollouts, bei denen der Agent Unsicherheit über das Ergebnis zeigt.
KL-Penalty-Entfernung: Ermöglicht dem Modell, freier von seiner ursprünglichen Policy abzuweichen und neue Verhaltensweisen zu erkunden.
Asymmetrisches PPO-Clipping: Dies verstärkt Trajektorien mit hoher Belohnung stärker als solche mit niedriger Belohnung, um das Lernen zu verbessern.

Aufgabenvielfalt: Das Aussetzen des Modells einer breiten Palette von anfänglichen Szenarien verbessert die Generalisierung.
Interaktionsgranularität: Das Zulassen mehrerer Aktionen pro Runde ermöglicht eine sinnvollere Planung.
Rollout-Frische: Das Ausrichten der Trainingsdaten an der aktuellen Modell-Policy vermeidet veraltete Lernsignale.

Zusammen tragen diese Faktoren zu einem stabileren und effektiveren Trainingsprozess bei.

Enthüllung der Denkprozesse von Agenten

Open-Source-Tools für die Entwicklung von KI-Agenten

Schlüsselfragen für die reale Implementierung

aktualisiert am 2025-04-24

# AI # LLM # Agent