RAGEN: 신뢰성 높은 AI 에이전트 훈련을 위한 새로운 접근 방식
수년간 AI 에이전트에 대한 기대감이 높아져 왔으며, 많은 전문가들은 고급 대규모 언어 및 멀티모달 모델(LLM)을 기반으로 하는 이러한 특정 작업 AI 구현이 2025년에 본격적으로 시작될 것이라고 예측했습니다. 그러나 현실은 대부분의 AI 에이전트가 실험적인 상태에 머물러 연구실에서 실제 응용 프로그램으로 전환하는 데 어려움을 겪고 있다는 것입니다.
현재 Northwestern University, Microsoft, Stanford 및 University of Washington의 연구진과 전 DeepSeek 연구원인 Zihan Wang을 포함한 공동 노력으로 RAGEN이라는 새로운 시스템이 도입되었습니다. 이 새로운 프레임워크는 AI 에이전트를 훈련하고 평가하여 실제 엔터프라이즈 수준 사용에 더 안정적이고 탄력적으로 만드는 것을 목표로 합니다.
수학이나 코딩과 같은 정적인 문제에 초점을 맞춘 기존 AI 작업과 달리 RAGEN은 에이전트가 불확실한 환경 내에서 적응하고 배우고 추론해야 하는 다중 턴, 대화형 시나리오를 다룹니다. 이러한 접근 방식은 실제 상황의 복잡성을 처리할 수 있는 AI를 개발하는 데 매우 중요합니다.
RAGEN의 핵심은 StarPO(State-Thinking-Actions-Reward Policy Optimization)로 알려진 맞춤형 강화 학습(RL) 프레임워크입니다. 이 시스템은 LLM이 단순히 암기에 의존하는 것이 아니라 경험을 통해 학습할 수 있는 방법을 탐구합니다. StarPO는 개별 응답뿐만 아니라 전체 상호 작용 궤적을 고려하여 전체 의사 결정 프로세스에 초점을 맞춥니다.
StarPO는 함께 작동하는 두 가지 뚜렷한 단계를 통해 작동합니다. 첫 번째 단계인 롤아웃 단계는 LLM이 추론에 따라 전체 상호 작용 시퀀스를 생성하는 것을 포함합니다. 두 번째 단계인 업데이트 단계는 정규화된 누적 보상을 사용하여 모델을 최적화합니다. 이러한 구조는 표준 정책 최적화 방법에 비해 더 안정적이고 투명한 학습 루프를 만듭니다.
연구원들은 Alibaba의 Qwen 모델, 특히 Qwen 1.5 및 Qwen 2.5의 미세 조정된 버전을 사용하여 프레임워크를 구현하고 엄격하게 테스트했습니다. 이러한 모델은 다양한 상징적 작업에서 재현성 및 일관된 기준 비교를 허용하는 개방형 가중치와 명령을 효과적으로 따르는 능력으로 선택되었습니다.
‘에코 트랩’ 극복: 강화 학습 및 추론 손실
Zihan Wang은 널리 공유된 X 스레드에서 핵심 과제를 강조했습니다. ‘RL 교육이 항상 무너지는 이유는 무엇입니까?’ 팀에 따르면 LLM 에이전트는 처음에 잘 추론된 상징적 응답을 생성합니다. 그러나 RL 시스템은 시간이 지남에 따라 지름길에 보상하는 경향이 있어 궁극적으로 전반적인 성능을 저하시키는 반복적인 동작으로 이어집니다. 이러한 현상이 그들이 ‘에코 트랩’이라고 부르는 것입니다.
이러한 회귀는 특정 구문이나 전략이 초기에 높은 보상을 산출하는 피드백 루프로 인해 발생하여 과도한 사용으로 이어지고 새로운 접근 방식의 탐색을 방해합니다. Wang은 이것이 측정 가능하며 측정 가능한 보상 분산 클리프, 기울기 스파이크 및 추론 추적의 사라짐이 있다고 지적합니다.
제어된 환경에서 이러한 동작을 검사하기 위해 RAGEN은 세 가지 상징적 환경을 사용합니다.
- Bandit: 상징적 위험-보상 추론을 평가하는 단일 턴 확률론적 작업입니다.
- Sokoban: 비가역적 결정을 포함하는 다중 턴 결정론적 퍼즐입니다.
- Frozen Lake: 적응형 계획이 필요한 확률론적 다중 턴 작업입니다.
각 환경은 실제 편향을 최소화하도록 세심하게 설계되었으며, 대신 교육 중에 나타나는 의사 결정 전략에 초점을 맞춥니다.
예를 들어 Bandit 환경에서 에이전트는 ‘Dragon’ 및 ‘Phoenix’ 암이 다른 보상 분포를 나타낸다는 정보를 받습니다. 확률을 직접 제공하는 대신 에이전트는 ‘Dragon’을 ‘힘’으로, ‘Phoenix’를 ‘희망’으로 해석하여 결과를 예측해야 합니다. 이러한 종류의 설정은 모델이 설명 가능한 유추적 추론을 생성하도록 장려합니다.
StarPO-S를 통한 강화 학습 안정화
연구원들은 교육 붕괴 문제를 해결하기 위해 원래 프레임워크의 안정화된 버전인 StarPO-S를 개발했습니다. StarPO-S에는 세 가지 주요 개입이 포함되어 있습니다.
- 불확실성 기반 롤아웃 필터링: 에이전트가 결과에 대한 불확실성을 나타내는 롤아웃을 우선시합니다.
- KL 페널티 제거: 모델이 원래 정책에서 더 자유롭게 벗어나 새로운 동작을 탐색할 수 있도록 허용합니다.
- 비대칭 PPO 클리핑: 낮은 보상보다 높은 보상 궤적을 더 증폭하여 학습을 향상시킵니다.
이러한 조정은 교육 붕괴를 지연시키거나 제거하여 세 가지 작업 모두에서 성능을 향상시킵니다. Wang에 따르면 ‘StarPO-S는 3가지 작업 모두에서 작동합니다. 붕괴를 완화합니다. 더 나은 보상.’
RL 교육의 성공은 아키텍처뿐만 아니라 에이전트 자체가 생성한 데이터의 품질에도 달려 있습니다. 팀은 교육에 큰 영향을 미치는 세 가지 중요한 차원을 확인했습니다.
- 작업 다양성: 모델을 광범위한 초기 시나리오에 노출하면 일반화가 향상됩니다.
- 상호 작용 세분성: 턴당 여러 작업을 허용하면 보다 의미 있는 계획이 가능합니다.
- 롤아웃 신선도: 교육 데이터를 현재 모델 정책에 맞게 유지하면 오래된 학습 신호가 방지됩니다.
함께, 이러한 요소는 보다 안정적이고 효과적인 교육 프로세스에 기여합니다.
에이전트 사고 과정 공개
연구원들이 GitHub에서 만든 대화형 데모 사이트는 에이전트 롤아웃을 전체 대화 턴으로 시각적으로 나타내어 취해진 조치뿐만 아니라 그 뒤에 있는 단계별 사고 과정도 보여줍니다.
예를 들어 수학 문제를 해결할 때 에이전트는 먼저 ‘x = 5’와 같은 답변을 제출하기 전에 변수를 분리하는 것에 대해 ‘생각’할 수 있습니다. 이러한 중간 생각은 보이고 추적 가능하므로 에이전트가 결정에 도달하는 방법에 대한 투명성을 제공합니다.
명시적인 추론은 Bandit과 같은 간단한 단일 턴 작업에서 성능을 향상시키지만 다중 턴 교육 중에는 저하되는 경향이 있습니다. 구조화된 프롬프트와 토큰을 사용함에도 불구하고 추론 추적은 명시적으로 보상하지 않으면 줄어들거나 사라집니다.
이는 기존 보상 설계의 한계를 강조합니다. 작업 완료에 초점을 맞추면 프로세스 품질을 간과할 수 있습니다. 팀은 더 나은 구조화된 추론을 장려하기 위해 형식 기반 페널티를 실험했지만 보다 세련된 보상 형성이 필요할 가능성이 높다는 것을 인정합니다.
AI 에이전트 개발을 위한 오픈 소스 도구
RAGEN은 StarPO 및 StarPO-S 프레임워크와 함께 이제 오픈 소스 프로젝트로 제공됩니다. 이는 작업을 완료할 뿐만 아니라 생각하고 계획하고 진화하는 AI 에이전트를 개발하는 데 관심이 있는 사람들에게 귀중한 기반을 제공합니다.
AI가 더 큰 자율성을 향해 나아감에 따라 RAGEN과 같은 프로젝트는 데이터와 자신의 행동 결과로부터 학습하는 모델을 훈련하는 데 필요한 것이 무엇인지 밝혀줍니다.
실제 구현을 위한 주요 질문
RAGEN 논문은 상세한 기술 프레임워크를 제공하지만 기업 환경에서 적용을 고려하는 사람들에게는 몇 가지 실질적인 질문이 남아 있습니다. 예를 들어 RAGEN의 접근 방식은 이러한 양식화된 상징적 작업을 넘어 얼마나 잘 변환됩니까? 기업은 송장 처리 또는 고객 지원과 같은 워크플로에서 이 시스템을 사용하기 위해 완전히 새로운 환경과 보상 함수를 만들어야 합니까?
또 다른 중요한 고려 사항은 확장성입니다. StarPO-S가 제공하는 개선 사항에도 불구하고 논문은 교육이 여전히 더 긴 기간 동안 무너질 수 있다고 인정합니다. 이는 개방형 또는 지속적으로 진화하는 작업 시퀀스에서 추론을 유지하기 위한 이론적 또는 실질적인 경로가 있는지에 대한 질문을 제기합니다.
RAGEN은 단순한 기술적 기여를 넘어 미래 개발을 위한 개념적 프레임워크를 제공함으로써 보다 자율적이고 추론 능력이 있는 AI 에이전트를 만드는 데 중요한 단계를 나타냅니다. 엔터프라이즈 AI 툴킷의 표준 구성 요소가 될지는 두고 볼 일이지만 에이전트 학습 역학에 대한 통찰력은 이미 LLM 교육의 미래를 형성하고 있습니다.
이 새로운 방법은 신뢰할 수 있고 적응 가능한 AI 에이전트에 대한 중요한 필요성을 해결하여 실제 응용 프로그램을 위한 유망한 경로를 제공합니다. 경험을 통한 학습과 의사 결정 궤적 최적화에 초점을 맞춤으로써 RAGEN은 이론적 모델과 실제 구현 간의 격차를 해소하는 데 도움이 됩니다. 프레임워크의 오픈 소스 가용성은 이 분야의 혁신을 더욱 가속화하여 연구원과 개발자가 그 기반을 기반으로 AI 에이전트 기술의 새로운 영역을 탐색할 수 있도록 지원합니다.
RAGEN과 기존 AI 시스템의 차이점
RAGEN은 기존 AI 시스템과 여러 가지 면에서 차별화됩니다. 기존 AI 시스템은 주로 특정 작업이나 문제 해결에 중점을 두는 반면, RAGEN은 에이전트가 스스로 학습하고 적응할 수 있는 능력을 강조합니다. RAGEN은 강화 학습을 통해 에이전트가 경험을 통해 배우고 자신의 행동 결과를 통해 학습할 수 있도록 합니다.
또한, RAGEN은 에이전트가 추론하고 계획할 수 있도록 설계되었습니다. 에이전트는 작업을 완료하기 위해 단순히 미리 정의된 규칙을 따르는 것이 아니라 문제를 이해하고 해결하기 위한 전략을 개발할 수 있습니다. 이는 에이전트가 복잡하고 불확실한 환경에서 더 잘 작동할 수 있도록 합니다.
RAGEN의 잠재적인 응용 분야
RAGEN은 다양한 분야에서 잠재적인 응용 분야를 가지고 있습니다. 예를 들어, RAGEN은 고객 서비스, 의료, 금융, 제조 등 다양한 분야에서 자동화된 에이전트를 개발하는 데 사용될 수 있습니다.
- 고객 서비스: RAGEN은 고객 문의에 응답하고 문제를 해결하는 데 사용할 수 있는 자동화된 고객 서비스 에이전트를 개발하는 데 사용될 수 있습니다.
- 의료: RAGEN은 환자를 진단하고 치료하는 데 사용할 수 있는 자동화된 의료 에이전트를 개발하는 데 사용될 수 있습니다.
- 금융: RAGEN은 금융 거래를 관리하고 위험을 평가하는 데 사용할 수 있는 자동화된 금융 에이전트를 개발하는 데 사용될 수 있습니다.
- 제조: RAGEN은 제조 공정을 제어하고 품질을 보장하는 데 사용할 수 있는 자동화된 제조 에이전트를 개발하는 데 사용될 수 있습니다.
RAGEN의 한계점
RAGEN은 잠재력이 큰 기술이지만 몇 가지 한계점도 가지고 있습니다.
- 학습 비용: RAGEN 에이전트를 훈련하는 데는 많은 시간과 리소스가 소요될 수 있습니다.
- 복잡성: RAGEN은 복잡한 시스템이며, 개발하고 유지하는 데 전문 지식이 필요합니다.
- 일반화: RAGEN 에이전트는 훈련된 특정 환경에서만 잘 작동할 수 있습니다. 다른 환경에서 작동하려면 재훈련이 필요할 수 있습니다.
- 윤리적 고려 사항: RAGEN과 같은 AI 기술의 사용에는 윤리적 고려 사항이 필요합니다. 예를 들어, 자동화된 에이전트가 인간의 일자리를 대체할 수 있다는 우려가 있습니다.
결론
RAGEN은 신뢰성 높은 AI 에이전트를 훈련하기 위한 새로운 접근 방식을 제공합니다. RAGEN은 강화 학습과 추론 능력을 결합하여 에이전트가 복잡하고 불확실한 환경에서 더 잘 작동할 수 있도록 합니다. RAGEN은 다양한 분야에서 잠재적인 응용 분야를 가지고 있지만 몇 가지 한계점도 가지고 있습니다. RAGEN과 같은 AI 기술의 사용에는 윤리적 고려 사항이 필요합니다.