RAGEN: Nueva formación de agentes de IA fiables

Un nuevo enfoque para la formación de agentes de IA fiables: RAGEN

La anticipación que rodea a los agentes de IA ha ido creciendo durante años, y muchos expertos predicen que 2025 sería el año en que estas implementaciones de IA específicas para tareas, impulsadas por modelos de lenguaje grandes y multimodales (LLM) avanzados, realmente despegarían. Sin embargo, la realidad es que la mayoría de los agentes de IA permanecen en un estado de limbo experimental, luchando por pasar de los laboratorios de investigación a las aplicaciones del mundo real.

Ahora, un esfuerzo de colaboración de investigadores de la Universidad Northwestern, Microsoft, Stanford y la Universidad de Washington, incluido un ex investigador de DeepSeek llamado Zihan Wang, ha introducido un nuevo sistema llamado RAGEN. Este nuevo marco tiene como objetivo formar y evaluar agentes de IA, haciéndolos más fiables y resistentes para el uso práctico a nivel empresarial.

A diferencia de las tareas tradicionales de IA centradas en problemas estáticos como las matemáticas o la programación, RAGEN aborda escenarios interactivos de múltiples turnos en los que los agentes deben adaptarse, aprender y razonar dentro de entornos inciertos. Este enfoque es crucial para desarrollar una IA que pueda manejar las complejidades de las situaciones del mundo real.

En el corazón de RAGEN se encuentra un marco de aprendizaje por refuerzo (RL) personalizado conocido como StarPO (Optimización de la política de recompensa-acciones-pensamiento-estado). Este sistema explora cómo los LLM pueden aprender a través de la experiencia, en lugar de depender únicamente de la memorización. StarPO se centra en todo el proceso de toma de decisiones, teniendo en cuenta no solo las respuestas individuales sino toda la trayectoria de las interacciones.

StarPO opera a través de dos fases distintas que funcionan en tándem. La primera fase, llamada etapa de despliegue, implica que el LLM genere secuencias de interacción completas guiadas por el razonamiento. La segunda fase, la etapa de actualización, optimiza el modelo utilizando recompensas acumulativas normalizadas. Esta estructura crea un bucle de aprendizaje más estable y transparente en comparación con los métodos estándar de optimización de políticas.

Los investigadores implementaron y probaron rigurosamente el marco utilizando versiones ajustadas de los modelos Qwen de Alibaba, específicamente Qwen 1.5 y Qwen 2.5. Estos modelos fueron elegidos por sus pesos abiertos y su capacidad para seguir las instrucciones de manera efectiva, lo que permitió la reproducibilidad y las comparaciones de referencia consistentes en varias tareas simbólicas.

Superando la ‘Trampa del Eco’: Aprendizaje por Refuerzo y Pérdida de Razonamiento

Zihan Wang destacó un desafío central en un hilo de X ampliamente compartido: ‘¿Por qué tu entrenamiento RL siempre se derrumba?’. Según el equipo, los agentes LLM inicialmente producen respuestas simbólicas bien razonadas. Sin embargo, los sistemas RL tienden a recompensar los atajos con el tiempo, lo que lleva a comportamientos repetitivos que en última instancia disminuyen el rendimiento general. Este fenómeno es lo que ellos denominan la ‘Trampa del Eco’.

Esta regresión se produce debido a los bucles de retroalimentación en los que ciertas frases o estrategias producen altas recompensas al principio, lo que lleva a su uso excesivo e impide la exploración de nuevos enfoques. Wang señala que esto es cuantificable, con acantilados de varianza de recompensa medibles, picos de gradiente y la desaparición de rastros de razonamiento.

Para examinar estos comportamientos en un entorno controlado, RAGEN emplea tres entornos simbólicos:

  • Bandido: Esta es una tarea estocástica de un solo turno que evalúa el razonamiento simbólico de riesgo-recompensa.
  • Sokoban: Un rompecabezas determinista de múltiples turnos que implica decisiones irreversibles.
  • Lago Congelado: Esta es una tarea estocástica de múltiples turnos que exige una planificación adaptativa.

Cada entorno está meticulosamente diseñado para minimizar los sesgos del mundo real, centrándose en cambio en las estrategias de toma de decisiones que surgen durante el entrenamiento.

En el entorno Bandido, por ejemplo, se informa a los agentes de que los brazos ‘Dragón’ y ‘Fénix’ representan diferentes distribuciones de recompensa. En lugar de proporcionar directamente las probabilidades, los agentes deben razonar simbólicamente, interpretando ‘Dragón’ como ‘fuerza’ y ‘Fénix’ como ‘esperanza’ para predecir los resultados. Este tipo de configuración anima al modelo a generar un razonamiento analógico explicable.

Estabilizando el Aprendizaje por Refuerzo con StarPO-S

Para abordar el problema del colapso del entrenamiento, los investigadores desarrollaron StarPO-S, una versión estabilizada del marco original. StarPO-S incorpora tres intervenciones clave:

  1. Filtrado de despliegue basado en la incertidumbre: Esto prioriza los despliegues en los que el agente demuestra incertidumbre sobre el resultado.
  2. Eliminación de la penalización KL: Permitir que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
  3. Recorte PPO asimétrico: Esto amplifica las trayectorias de alta recompensa más que las de baja recompensa para mejorar el aprendizaje.

Estos ajustes retrasan o eliminan el colapso del entrenamiento, lo que lleva a un mejor rendimiento en las tres tareas. Según Wang, ‘StarPO-S… funciona en las 3 tareas. Alivia el colapso. Mejor recompensa’.

El éxito del entrenamiento RL depende no solo de la arquitectura sino también de la calidad de los datos generados por los propios agentes. El equipo identificó tres dimensiones críticas que impactan significativamente el entrenamiento:

  • Diversidad de tareas: Exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
  • Granularidad de la interacción: Permitir múltiples acciones por turno permite una planificación más significativa.
  • Frescura del despliegue: Mantener los datos de entrenamiento alineados con la política del modelo actual evita señales de aprendizaje obsoletas.

En conjunto, estos factores contribuyen a un proceso de entrenamiento más estable y efectivo.

Revelando los Procesos de Pensamiento del Agente

Un sitio de demostración interactivo creado por los investigadores en GitHub representa visualmente los despliegues del agente como turnos de diálogo completos, revelando no solo las acciones tomadas sino también el proceso de pensamiento paso a paso detrás de ellas.

Por ejemplo, al resolver un problema de matemáticas, un agente podría primero ‘pensar’ en aislar una variable antes de enviar una respuesta como ‘x = 5’. Estos pensamientos intermedios son visibles y rastreables, proporcionando transparencia sobre cómo los agentes llegan a las decisiones.

Si bien el razonamiento explícito mejora el rendimiento en tareas simples de un solo turno como Bandido, tiende a degradarse durante el entrenamiento de múltiples turnos. A pesar de utilizar indicaciones y tokens estructurados, los rastros de razonamiento a menudo se encogen o desaparecen a menos que se recompensen explícitamente.

Esto destaca una limitación en el diseño tradicional de recompensas: centrarse en la finalización de la tarea puede pasar por alto la calidad del proceso. El equipo experimentó con penalizaciones basadas en el formato para fomentar un razonamiento mejor estructurado, pero reconoce que es probable que sea necesario un modelado de recompensas más refinado.

Herramientas de Código Abierto para el Desarrollo de Agentes de IA

RAGEN, junto con sus marcos StarPO y StarPO-S, ahora está disponible como un proyecto de código abierto. Esto proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas sino que también piensen, planifiquen y evolucionen.

A medida que la IA avanza hacia una mayor autonomía, proyectos como RAGEN arrojan luz sobre lo que se necesita para formar modelos que aprendan tanto de los datos como de las consecuencias de sus propias acciones.

Preguntas Clave para la Implementación en el Mundo Real

Si bien el documento de RAGEN proporciona un marco técnico detallado, quedan varias preguntas prácticas para aquellos que consideran su aplicación en entornos empresariales. Por ejemplo, ¿qué tan bien se traduce el enfoque de RAGEN más allá de estas tareas simbólicas estilizadas? ¿Tendrían las empresas que crear entornos y funciones de recompensa completamente nuevos para utilizar este sistema en flujos de trabajo como el procesamiento de facturas o la atención al cliente?

Otra consideración crítica es la escalabilidad. Incluso con las mejoras ofrecidas por StarPO-S, el documento reconoce que el entrenamiento aún puede colapsar durante períodos más largos. Esto plantea la pregunta de si existe una vía teórica o práctica para mantener el razonamiento sobre secuencias de tareas abiertas o en continua evolución.

RAGEN representa un paso significativo hacia la creación de agentes de IA más autónomos y capaces de razonar, yendo más allá de las meras contribuciones técnicas para ofrecer un marco conceptual para el desarrollo futuro. Queda por ver si se convierte en un componente estándar del conjunto de herramientas de IA empresarial, pero sus conocimientos sobre la dinámica del aprendizaje del agente ya están dando forma al futuro del entrenamiento LLM.

Este novedoso método aborda la necesidad crítica de agentes de IA fiables y adaptables, ofreciendo un camino prometedor para las aplicaciones del mundo real. Al centrarse en el aprendizaje a través de la experiencia y la optimización de las trayectorias de toma de decisiones, RAGEN ayuda a cerrar la brecha entre los modelos teóricos y las implementaciones prácticas. La disponibilidad de código abierto del marco acelera aún más la innovación en el campo, lo que permite a los investigadores y desarrolladores construir sobre sus cimientos y explorar nuevas fronteras en la tecnología de agentes de IA.