Un’attesa febbrile circonda gli agenti AI da anni, con molti esperti che prevedono che il 2025 sarà l’anno in cui queste implementazioni AI specifiche per attività, alimentate da modelli linguistici di grandi dimensioni avanzati (LLM) e multimodali, decolleranno davvero. Tuttavia, la realtà è che la maggior parte degli agenti AI rimane in uno stato di limbo sperimentale, lottando per passare dai laboratori di ricerca alle applicazioni del mondo reale.
Ora, uno sforzo collaborativo di ricercatori della Northwestern University, Microsoft, Stanford e dell’Università di Washington, tra cui un ex ricercatore di DeepSeek di nome Zihan Wang, ha introdotto un nuovo sistema chiamato RAGEN. Questo nuovo framework mira a addestrare e valutare gli agenti AI, rendendoli più affidabili e resilienti per un utilizzo pratico a livello aziendale.
A differenza delle attività AI tradizionali incentrate su problemi statici come la matematica o la programmazione, RAGEN affronta scenari interattivi multi-turno in cui gli agenti devono adattarsi, apprendere e ragionare all’interno di ambienti incerti. Questo approccio è fondamentale per sviluppare un’AI in grado di gestire le complessità delle situazioni del mondo reale.
Al centro di RAGEN c’è un framework personalizzato di reinforcement learning (RL) noto come StarPO (State-Thinking-Actions-Reward Policy Optimization). Questo sistema esplora come gli LLM possono imparare attraverso l’esperienza, piuttosto che affidarsi esclusivamente alla memorizzazione. StarPO si concentra sull’intero processo decisionale, considerando non solo le singole risposte ma la completa traiettoria delle interazioni.
StarPO opera attraverso due fasi distinte che lavorano in tandem. La prima fase, chiamata fase di rollout, prevede che l’LLM generi sequenze di interazione complete guidate dal ragionamento. La seconda fase, la fase di aggiornamento, ottimizza il modello utilizzando ricompense cumulative normalizzate. Questa struttura crea un ciclo di apprendimento più stabile e trasparente rispetto ai metodi standard di policy optimization.
I ricercatori hanno implementato e testato rigorosamente il framework utilizzando versioni fine-tuned dei modelli Qwen di Alibaba, in particolare Qwen 1.5 e Qwen 2.5. Questi modelli sono stati scelti per i loro pesi aperti e la loro capacità di seguire efficacemente le istruzioni, il che ha consentito la riproducibilità e confronti di base coerenti tra varie attività simboliche.
Superare la ‘Echo Trap’: Reinforcement Learning e Perdita di Ragionamento
Zihan Wang ha evidenziato una sfida fondamentale in un thread X ampiamente condiviso: ‘Perché il tuo addestramento RL collassa sempre?’. Secondo il team, gli agenti LLM inizialmente producono risposte simboliche ben ragionate. Tuttavia, i sistemi RL tendono a premiare le scorciatoie nel tempo, portando a comportamenti ripetitivi che alla fine diminuiscono le prestazioni complessive. Questo fenomeno è ciò che chiamano la ‘Echo Trap’.
Questa regressione si verifica a causa di cicli di feedback in cui determinate frasi o strategie producono ricompense elevate all’inizio, portando al loro uso eccessivo e ostacolando l’esplorazione di nuovi approcci. Wang sottolinea che questo è quantificabile, con misurabili cali di varianza della ricompensa, picchi di gradiente e la scomparsa delle tracce di ragionamento.
Per esaminare questi comportamenti in un ambiente controllato, RAGEN impiega tre ambienti simbolici:
- Bandit: Questa è un’attività stocastica a singolo turno che valuta il ragionamento simbolico rischio-ricompensa.
- Sokoban: Un puzzle deterministico multi-turno che implica decisioni irreversibili.
- Frozen Lake: Questa è un’attività stocastica multi-turno che richiede una pianificazione adattiva.
Ogni ambiente è meticolosamente progettato per ridurre al minimo i pregiudizi del mondo reale, concentrandosi invece sulle strategie decisionali che emergono durante l’addestramento.
Nell’ambiente Bandit, ad esempio, gli agenti vengono informati che i bracci ‘Drago’ e ‘Fenice’ rappresentano diverse distribuzioni di ricompense. Piuttosto che fornire direttamente le probabilità, gli agenti devono ragionare simbolicamente, interpretando ‘Drago’ come ‘forza’ e ‘Fenice’ come ‘speranza’ per prevedere i risultati. Questo tipo di impostazione incoraggia il modello a generare un ragionamento analogico spiegabile.
Stabilizzare il Reinforcement Learning con StarPO-S
Per affrontare il problema del collasso dell’addestramento, i ricercatori hanno sviluppato StarPO-S, una versione stabilizzata del framework originale. StarPO-S incorpora tre interventi chiave:
- Filtraggio del rollout basato sull’incertezza: Ciò dà la priorità ai rollout in cui l’agente dimostra incertezza sull’esito.
- Rimozione della penalità KL: Consentire al modello di deviare più liberamente dalla sua politica originale ed esplorare nuovi comportamenti.
- Clipping PPO asimmetrico: Ciò amplifica le traiettorie ad alta ricompensa più di quelle a bassa ricompensa per migliorare l’apprendimento.
Questi aggiustamenti ritardano o eliminano il collasso dell’addestramento, portando a prestazioni migliorate in tutte e tre le attività. Secondo Wang, ‘StarPO-S… funziona in tutte e 3 le attività. Allevia il collasso. Migliore ricompensa.’
Il successo dell’addestramento RL dipende non solo dall’architettura ma anche dalla qualità dei dati generati dagli agenti stessi. Il team ha identificato tre dimensioni critiche che influiscono in modo significativo sull’addestramento:
- Diversità delle attività: Esponendo il modello a una vasta gamma di scenari iniziali si migliora la generalizzazione.
- Granularità dell’interazione: Consentire più azioni per turno consente una pianificazione più significativa.
- Freschezza del rollout: Mantenere i dati di addestramento allineati con la politica del modello corrente evita segnali di apprendimento obsoleti.
Insieme, questi fattori contribuiscono a un processo di addestramento più stabile ed efficace.
Svelare i Processi di Pensiero degli Agenti
Un sito demo interattivo creato dai ricercatori su GitHub rappresenta visivamente i rollout degli agenti come turni di dialogo completi, rivelando non solo le azioni intraprese ma anche il processo di pensiero passo dopo passo che le sottende.
Ad esempio, quando risolve un problema di matematica, un agente potrebbe prima ‘pensare’ di isolare una variabile prima di presentare una risposta come ‘x = 5’. Questi pensieri intermedi sono visibili e tracciabili, fornendo trasparenza su come gli agenti arrivano alle decisioni.
Mentre il ragionamento esplicito migliora le prestazioni in semplici attività a singolo turno come Bandit, tende a degradarsi durante l’addestramento multi-turno. Nonostante l’utilizzo di prompt e token strutturati, le tracce di ragionamento spesso si restringono o svaniscono a meno che non vengano esplicitamente ricompensate.
Ciò evidenzia una limitazione nella progettazione tradizionale delle ricompense: concentrarsi sul completamento dell’attività può trascurare la qualità del processo. Il team ha sperimentato con penalità basate sul formato per incoraggiare un ragionamento meglio strutturato, ma riconosce che è probabilmente necessaria una modellazione delle ricompense più raffinata.
Strumenti Open-Source per lo Sviluppo di Agenti AI
RAGEN, insieme ai suoi framework StarPO e StarPO-S, è ora disponibile come progetto open-source. Ciò fornisce una base preziosa per coloro che sono interessati a sviluppare agenti AI che non solo completano le attività ma anche pensano, pianificano ed evolvono.
Man mano che l’AI progredisce verso una maggiore autonomia, progetti come RAGEN fanno luce su ciò che serve per addestrare modelli che apprendono sia dai dati sia dalle conseguenze delle proprie azioni.
Domande Chiave per l’Implementazione nel Mondo Reale
Mentre il documento RAGEN fornisce un framework tecnico dettagliato, rimangono diverse domande pratiche per coloro che considerano la sua applicazione in ambienti aziendali. Ad esempio, quanto bene l’approccio di RAGEN si traduce al di là di queste attività simboliche stilizzate? Le aziende dovrebbero creare ambienti e funzioni di ricompensa completamente nuovi per utilizzare questo sistema in flussi di lavoro come l’elaborazione delle fatture o l’assistenza clienti?
Un’altra considerazione critica è la scalabilità. Anche con i miglioramenti offerti da StarPO-S, il documento riconosce che l’addestramento può ancora collassare per periodi più lunghi. Ciò solleva la questione se esista un percorso teorico o pratico per sostenere il ragionamento su sequenze di attività aperte o in continua evoluzione.
RAGEN rappresenta un passo significativo verso la creazione di agenti AI più autonomi e capaci di ragionare, andando oltre i semplici contributi tecnici per offrire un framework concettuale per lo sviluppo futuro. Resta da vedere se diventerà un componente standard del toolkit AI aziendale, ma le sue intuizioni sulla dinamica dell’apprendimento degli agenti stanno già plasmando il futuro dell’addestramento LLM.
Questo nuovo metodo affronta la necessità critica di agenti AI affidabili e adattabili, offrendo un percorso promettente per le applicazioni del mondo reale. Concentrandosi sull’apprendimento attraverso l’esperienza e sull’ottimizzazione delle traiettorie decisionali, RAGEN aiuta a colmare il divario tra modelli teorici e implementazioni pratiche. La disponibilità open-source del framework accelera ulteriormente l’innovazione nel campo, consentendo a ricercatori e sviluppatori di costruire sulle sue fondamenta ed esplorare nuove frontiere nella tecnologia degli agenti AI.