RAGEN: رویکردی نو در آموزش عوامل هوش مصنوعی

انتظارات پیرامون عوامل هوش مصنوعی (AI agents) سال‌هاست که در حال افزایش است و بسیاری از کارشناسان پیش‌بینی می‌کنند که سال ۲۰۲۵ سالی خواهد بود که این پیاده‌سازی‌های هوش مصنوعی خاص وظیفه، که توسط مدل‌های زبانی بزرگ و چندوجهی پیشرفته (LLMs) پشتیبانی می‌شوند، واقعاً به اوج خود برسند. با این حال، واقعیت این است که بیشتر عوامل هوش مصنوعی در وضعیت برزخی آزمایشی باقی مانده‌اند و برای انتقال از آزمایشگاه‌های تحقیقاتی به کاربردهای دنیای واقعی تلاش می‌کنند.

اکنون، یک تلاش مشترک از سوی محققان دانشگاه نورث‌وسترن، مایکروسافت، استنفورد و دانشگاه واشنگتن، از جمله پژوهشگر سابق DeepSeek به نام زیهان وانگ، یک سیستم جدید به نام RAGEN را معرفی کرده است. این چارچوب جدید با هدف آموزش و ارزیابی عوامل هوش مصنوعی، آنها را برای استفاده عملی و در سطح سازمانی قابل اعتمادتر و مقاوم‌تر می‌کند.

برخلاف وظایف سنتی هوش مصنوعی که بر مسائل ایستا مانند ریاضیات یا کدنویسی متمرکز هستند، RAGEN به سناریوهای تعاملی و چند مرحله‌ای می‌پردازد که در آن عوامل باید در محیط‌های نامشخص تطبیق، یادگیری و استدلال کنند. این رویکرد برای توسعه هوش مصنوعی که می‌تواند از عهده پیچیدگی‌های موقعیت‌های دنیای واقعی برآید، بسیار مهم است.

در قلب RAGEN، یک چارچوب یادگیری تقویتی (RL) سفارشی به نام StarPO (بهینه‌سازی سیاست پاداش-عمل-تفکر-حالت) وجود دارد. این سیستم بررسی می‌کند که چگونه LLMها می‌توانند از طریق تجربه یاد بگیرند، نه اینکه صرفاً به حافظه تکیه کنند. StarPO بر کل فرآیند تصمیم‌گیری متمرکز است و نه تنها پاسخ‌های فردی، بلکه کل مسیر تعاملات را در نظر می‌گیرد.

StarPO از طریق دو فاز مجزا که به صورت همزمان کار می‌کنند، عمل می‌کند. فاز اول، مرحله انتشار نامیده می‌شود، شامل تولید توالی‌های تعامل کامل توسط LLM است که با استدلال هدایت می‌شود. فاز دوم، مرحله به‌روزرسانی، مدل را با استفاده از پاداش‌های تجمعی نرمال شده بهینه می‌کند. این ساختار در مقایسه با روش‌های استاندارد بهینه‌سازی سیاست، یک حلقه یادگیری پایدارتر و شفاف‌تر ایجاد می‌کند.

محققان این چارچوب را با استفاده از نسخه‌های تنظیم‌شده دقیق مدل‌های Qwen شرکت Alibaba، به طور خاص Qwen 1.5 و Qwen 2.5، پیاده‌سازی و به طور دقیق آزمایش کردند. این مدل‌ها به دلیل وزن‌های باز و توانایی آنها در پیروی مؤثر از دستورالعمل‌ها انتخاب شدند، که امکان بازتولید و مقایسه‌های پایه ثابت در وظایف نمادین مختلف را فراهم می‌کرد.

غلبه بر ‘تله اکو’: یادگیری تقویتی و از دست دادن استدلال

زیهان وانگ در یک رشته توییت گسترده، یک چالش اصلی را برجسته کرد: ‘چرا آموزش RL شما همیشه فرو می‌ریزد؟’ به گفته تیم، عوامل LLM در ابتدا پاسخ‌های نمادین و منطقی خوبی ارائه می‌دهند. با این حال، سیستم‌های RL به مرور زمان تمایل دارند به میانبرها پاداش دهند، که منجر به رفتارهای تکراری می‌شود که در نهایت عملکرد کلی را کاهش می‌دهد. این پدیده همان چیزی است که آنها ‘تله اکو’ می‌نامند.

این پسرفت به دلیل حلقه‌های بازخوردی رخ می‌دهد که در آن عبارات یا استراتژی‌های خاص در اوایل کار پاداش‌های بالایی به همراه دارند، که منجر به استفاده بیش از حد از آنها و مانع از کشف رویکردهای جدید می‌شود. وانگ اشاره می‌کند که این قابل اندازه‌گیری است، با پرتگاه‌های واریانس پاداش قابل اندازه‌گیری، سنبله‌های گرادیان و ناپدید شدن آثار استدلال.

برای بررسی این رفتارها در یک محیط کنترل شده، RAGEN از سه محیط نمادین استفاده می‌کند:

  • Bandit: این یک وظیفه تصادفی تک‌مرحله‌ای است که استدلال نمادین ریسک-پاداش را ارزیابی می‌کند.
  • Sokoban: یک پازل چندمرحله‌ای و قطعی است که شامل تصمیمات غیرقابل برگشت است.
  • Frozen Lake: این یک وظیفه تصادفی و چندمرحله‌ای است که نیازمند برنامه‌ریزی انطباقی است.

هر محیط به دقت طراحی شده است تا سوگیری‌های دنیای واقعی را به حداقل برساند و در عوض بر استراتژی‌های تصمیم‌گیری که در طول آموزش ظاهر می‌شوند تمرکز کند.

برای مثال، در محیط Bandit، به عوامل اطلاع داده می‌شود که بازوهای ‘اژدها’ و ‘ققنوس’ نشان‌دهنده توزیع‌های پاداش متفاوت هستند. به جای ارائه مستقیم احتمالات، عوامل باید به صورت نمادین استدلال کنند و ‘اژدها’ را به عنوان ‘قدرت’ و ‘ققنوس’ را به عنوان ‘امید’ تفسیر کنند تا نتایج را پیش‌بینی کنند. این نوع تنظیمات مدل را تشویق می‌کند تا استدلال قیاسی و قابل توضیح تولید کند.

تثبیت یادگیری تقویتی با StarPO-S

برای رفع مشکل فروپاشی آموزش، محققان StarPO-S، یک نسخه تثبیت‌شده از چارچوب اصلی را توسعه دادند. StarPO-S شامل سه مداخله کلیدی است:

  1. فیلتر کردن انتشار مبتنی بر عدم قطعیت: این اولویت را به انتشارهایی می‌دهد که در آن عامل عدم قطعیت در مورد نتیجه را نشان می‌دهد.
  2. حذف جریمه KL: اجازه دادن به مدل برای انحراف آزادانه‌تر از سیاست اصلی خود و کشف رفتارهای جدید.
  3. برش PPO نامتقارن: این مسیرهای با پاداش بالا را بیشتر از مسیرهای با پاداش پایین تقویت می‌کند تا یادگیری را بهبود بخشد.

این تنظیمات فروپاشی آموزش را به تاخیر می‌اندازد یا از بین می‌برد، که منجر به بهبود عملکرد در هر سه کار می‌شود. به گفته وانگ، ‘StarPO-S… در هر 3 کار کار می‌کند. فروپاشی را تسکین می‌دهد. پاداش بهتری دارد.’

موفقیت آموزش RL نه تنها به معماری بلکه به کیفیت داده‌های تولید شده توسط خود عوامل نیز بستگی دارد. این تیم سه بعد مهم را شناسایی کرد که به طور قابل توجهی بر آموزش تأثیر می‌گذارند:

  • تنوع وظیفه: قرار دادن مدل در معرض طیف گسترده‌ای از سناریوهای اولیه، تعمیم را افزایش می‌دهد.
  • دانه بندی تعامل: اجازه دادن به چندین عمل در هر نوبت، برنامه‌ریزی معنادارتری را ممکن می‌سازد.
  • طراوت انتشار: همگام نگه داشتن داده‌های آموزشی با سیاست مدل فعلی از سیگنال‌های یادگیری منسوخ جلوگیری می‌کند.

در مجموع، این عوامل به یک فرآیند آموزشی پایدارتر و مؤثرتر کمک می‌کنند.

رونمایی از فرآیندهای فکری عامل

یک سایت نمایشی تعاملی که توسط محققان در GitHub ایجاد شده است، انتشارهای عامل را به عنوان نوبت‌های گفتگوی کامل به صورت بصری نشان می‌دهد و نه تنها اقدامات انجام شده، بلکه فرآیند فکری گام به گام پشت سر آنها را نیز نشان می‌دهد.

برای مثال، هنگام حل یک مسئله ریاضی، یک عامل ممکن است ابتدا ‘فکر کند’ در مورد جدا کردن یک متغیر قبل از ارسال پاسخی مانند ‘x = 5’. این افکار میانی قابل مشاهده و ردیابی هستند و شفافیت را در نحوه رسیدن عوامل به تصمیمات فراهم می‌کنند.

در حالی که استدلال صریح عملکرد را در وظایف ساده و تک‌مرحله‌ای مانند Bandit بهبود می‌بخشد، اما در طول آموزش چندمرحله‌ای تمایل به تخریب دارد. علیرغم استفاده از اعلان‌ها و نشانه‌های ساختاریافته، آثار استدلال اغلب کوچک می‌شوند یا ناپدید می‌شوند، مگر اینکه به صراحت پاداش داده شوند.

این یک محدودیت در طراحی پاداش سنتی را برجسته می‌کند: تمرکز بر تکمیل وظیفه ممکن است کیفیت فرآیند را نادیده بگیرد. این تیم با جریمه‌های مبتنی بر فرمت برای تشویق استدلال ساختاریافته‌تر آزمایش کرد، اما اذعان می‌کند که شکل‌دهی پاداش اصلاح‌شده‌تری احتمالاً ضروری است.

ابزارهای متن‌باز برای توسعه عامل هوش مصنوعی

RAGEN، همراه با چارچوب‌های StarPO و StarPO-S، اکنون به عنوان یک پروژه متن‌باز در دسترس است. این یک پایه ارزشمند برای کسانی که علاقه‌مند به توسعه عوامل هوش مصنوعی هستند که نه تنها وظایف را تکمیل می‌کنند، بلکه فکر می‌کنند، برنامه‌ریزی می‌کنند و تکامل می‌یابند، فراهم می‌کند.

همانطور که هوش مصنوعی به سمت استقلال بیشتر پیشرفت می‌کند، پروژه‌هایی مانند RAGEN نشان می‌دهند که برای آموزش مدل‌هایی که از داده‌ها و پیامدهای اقدامات خود یاد می‌گیرند، چه چیزی لازم است.

سوالات کلیدی برای پیاده‌سازی در دنیای واقعی

در حالی که مقاله RAGEN یک چارچوب فنی دقیق ارائه می‌دهد، چندین سوال عملی برای کسانی که قصد دارند از آن در محیط‌های سازمانی استفاده کنند، باقی می‌ماند. برای مثال، رویکرد RAGEN تا چه حد فراتر از این وظایف نمادین و سبک‌دار منتقل می‌شود؟ آیا شرکت‌ها باید محیط‌ها و توابع پاداش کاملاً جدیدی ایجاد کنند تا از این سیستم در گردش‌های کاری مانند پردازش فاکتور یا پشتیبانی مشتری استفاده کنند؟

یکی دیگر از ملاحظات مهم مقیاس‌پذیری است. حتی با بهبودهای ارائه شده توسط StarPO-S، این مقاله اذعان می‌کند که آموزش همچنان می‌تواند در طول دوره‌های طولانی‌تر سقوط کند. این سوال را مطرح می‌کند که آیا یک مسیر نظری یا عملی برای حفظ استدلال در توالی‌های وظیفه باز یا در حال تکامل مداوم وجود دارد یا خیر.

RAGEN گامی مهم در جهت ایجاد عوامل هوش مصنوعی خودمختارتر و با قابلیت استدلال است که فراتر از کمک‌های فنی صرف، یک چارچوب مفهومی برای توسعه آینده ارائه می‌دهد. اینکه آیا به یک جزء استاندارد از جعبه ابزار هوش مصنوعی سازمانی تبدیل می‌شود یا خیر، هنوز مشخص نیست، اما بینش‌های آن در مورد پویایی یادگیری عامل در حال حاضر آینده آموزش LLM را شکل می‌دهد.

این روش جدید به نیاز مبرم به عوامل هوش مصنوعی قابل اعتماد و سازگار می‌پردازد و یک مسیر امیدوارکننده برای کاربردهای دنیای واقعی ارائه می‌دهد. RAGEN با تمرکز بر یادگیری از طریق تجربه و بهینه‌سازی مسیرهای تصمیم‌گیری، به پر کردن شکاف بین مدل‌های نظری و پیاده‌سازی‌های عملی کمک می‌کند. در دسترس بودن متن‌باز این چارچوب نوآوری را در این زمینه تسریع می‌کند و محققان و توسعه‌دهندگان را قادر می‌سازد تا بر پایه بنیان‌های آن بنا کنند و مرزهای جدیدی را در فناوری عامل هوش مصنوعی کشف کنند.