انتظارات پیرامون عوامل هوش مصنوعی (AI agents) سالهاست که در حال افزایش است و بسیاری از کارشناسان پیشبینی میکنند که سال ۲۰۲۵ سالی خواهد بود که این پیادهسازیهای هوش مصنوعی خاص وظیفه، که توسط مدلهای زبانی بزرگ و چندوجهی پیشرفته (LLMs) پشتیبانی میشوند، واقعاً به اوج خود برسند. با این حال، واقعیت این است که بیشتر عوامل هوش مصنوعی در وضعیت برزخی آزمایشی باقی ماندهاند و برای انتقال از آزمایشگاههای تحقیقاتی به کاربردهای دنیای واقعی تلاش میکنند.
اکنون، یک تلاش مشترک از سوی محققان دانشگاه نورثوسترن، مایکروسافت، استنفورد و دانشگاه واشنگتن، از جمله پژوهشگر سابق DeepSeek به نام زیهان وانگ، یک سیستم جدید به نام RAGEN را معرفی کرده است. این چارچوب جدید با هدف آموزش و ارزیابی عوامل هوش مصنوعی، آنها را برای استفاده عملی و در سطح سازمانی قابل اعتمادتر و مقاومتر میکند.
برخلاف وظایف سنتی هوش مصنوعی که بر مسائل ایستا مانند ریاضیات یا کدنویسی متمرکز هستند، RAGEN به سناریوهای تعاملی و چند مرحلهای میپردازد که در آن عوامل باید در محیطهای نامشخص تطبیق، یادگیری و استدلال کنند. این رویکرد برای توسعه هوش مصنوعی که میتواند از عهده پیچیدگیهای موقعیتهای دنیای واقعی برآید، بسیار مهم است.
در قلب RAGEN، یک چارچوب یادگیری تقویتی (RL) سفارشی به نام StarPO (بهینهسازی سیاست پاداش-عمل-تفکر-حالت) وجود دارد. این سیستم بررسی میکند که چگونه LLMها میتوانند از طریق تجربه یاد بگیرند، نه اینکه صرفاً به حافظه تکیه کنند. StarPO بر کل فرآیند تصمیمگیری متمرکز است و نه تنها پاسخهای فردی، بلکه کل مسیر تعاملات را در نظر میگیرد.
StarPO از طریق دو فاز مجزا که به صورت همزمان کار میکنند، عمل میکند. فاز اول، مرحله انتشار نامیده میشود، شامل تولید توالیهای تعامل کامل توسط LLM است که با استدلال هدایت میشود. فاز دوم، مرحله بهروزرسانی، مدل را با استفاده از پاداشهای تجمعی نرمال شده بهینه میکند. این ساختار در مقایسه با روشهای استاندارد بهینهسازی سیاست، یک حلقه یادگیری پایدارتر و شفافتر ایجاد میکند.
محققان این چارچوب را با استفاده از نسخههای تنظیمشده دقیق مدلهای Qwen شرکت Alibaba، به طور خاص Qwen 1.5 و Qwen 2.5، پیادهسازی و به طور دقیق آزمایش کردند. این مدلها به دلیل وزنهای باز و توانایی آنها در پیروی مؤثر از دستورالعملها انتخاب شدند، که امکان بازتولید و مقایسههای پایه ثابت در وظایف نمادین مختلف را فراهم میکرد.
غلبه بر ‘تله اکو’: یادگیری تقویتی و از دست دادن استدلال
زیهان وانگ در یک رشته توییت گسترده، یک چالش اصلی را برجسته کرد: ‘چرا آموزش RL شما همیشه فرو میریزد؟’ به گفته تیم، عوامل LLM در ابتدا پاسخهای نمادین و منطقی خوبی ارائه میدهند. با این حال، سیستمهای RL به مرور زمان تمایل دارند به میانبرها پاداش دهند، که منجر به رفتارهای تکراری میشود که در نهایت عملکرد کلی را کاهش میدهد. این پدیده همان چیزی است که آنها ‘تله اکو’ مینامند.
این پسرفت به دلیل حلقههای بازخوردی رخ میدهد که در آن عبارات یا استراتژیهای خاص در اوایل کار پاداشهای بالایی به همراه دارند، که منجر به استفاده بیش از حد از آنها و مانع از کشف رویکردهای جدید میشود. وانگ اشاره میکند که این قابل اندازهگیری است، با پرتگاههای واریانس پاداش قابل اندازهگیری، سنبلههای گرادیان و ناپدید شدن آثار استدلال.
برای بررسی این رفتارها در یک محیط کنترل شده، RAGEN از سه محیط نمادین استفاده میکند:
- Bandit: این یک وظیفه تصادفی تکمرحلهای است که استدلال نمادین ریسک-پاداش را ارزیابی میکند.
- Sokoban: یک پازل چندمرحلهای و قطعی است که شامل تصمیمات غیرقابل برگشت است.
- Frozen Lake: این یک وظیفه تصادفی و چندمرحلهای است که نیازمند برنامهریزی انطباقی است.
هر محیط به دقت طراحی شده است تا سوگیریهای دنیای واقعی را به حداقل برساند و در عوض بر استراتژیهای تصمیمگیری که در طول آموزش ظاهر میشوند تمرکز کند.
برای مثال، در محیط Bandit، به عوامل اطلاع داده میشود که بازوهای ‘اژدها’ و ‘ققنوس’ نشاندهنده توزیعهای پاداش متفاوت هستند. به جای ارائه مستقیم احتمالات، عوامل باید به صورت نمادین استدلال کنند و ‘اژدها’ را به عنوان ‘قدرت’ و ‘ققنوس’ را به عنوان ‘امید’ تفسیر کنند تا نتایج را پیشبینی کنند. این نوع تنظیمات مدل را تشویق میکند تا استدلال قیاسی و قابل توضیح تولید کند.
تثبیت یادگیری تقویتی با StarPO-S
برای رفع مشکل فروپاشی آموزش، محققان StarPO-S، یک نسخه تثبیتشده از چارچوب اصلی را توسعه دادند. StarPO-S شامل سه مداخله کلیدی است:
- فیلتر کردن انتشار مبتنی بر عدم قطعیت: این اولویت را به انتشارهایی میدهد که در آن عامل عدم قطعیت در مورد نتیجه را نشان میدهد.
- حذف جریمه KL: اجازه دادن به مدل برای انحراف آزادانهتر از سیاست اصلی خود و کشف رفتارهای جدید.
- برش PPO نامتقارن: این مسیرهای با پاداش بالا را بیشتر از مسیرهای با پاداش پایین تقویت میکند تا یادگیری را بهبود بخشد.
این تنظیمات فروپاشی آموزش را به تاخیر میاندازد یا از بین میبرد، که منجر به بهبود عملکرد در هر سه کار میشود. به گفته وانگ، ‘StarPO-S… در هر 3 کار کار میکند. فروپاشی را تسکین میدهد. پاداش بهتری دارد.’
موفقیت آموزش RL نه تنها به معماری بلکه به کیفیت دادههای تولید شده توسط خود عوامل نیز بستگی دارد. این تیم سه بعد مهم را شناسایی کرد که به طور قابل توجهی بر آموزش تأثیر میگذارند:
- تنوع وظیفه: قرار دادن مدل در معرض طیف گستردهای از سناریوهای اولیه، تعمیم را افزایش میدهد.
- دانه بندی تعامل: اجازه دادن به چندین عمل در هر نوبت، برنامهریزی معنادارتری را ممکن میسازد.
- طراوت انتشار: همگام نگه داشتن دادههای آموزشی با سیاست مدل فعلی از سیگنالهای یادگیری منسوخ جلوگیری میکند.
در مجموع، این عوامل به یک فرآیند آموزشی پایدارتر و مؤثرتر کمک میکنند.
رونمایی از فرآیندهای فکری عامل
یک سایت نمایشی تعاملی که توسط محققان در GitHub ایجاد شده است، انتشارهای عامل را به عنوان نوبتهای گفتگوی کامل به صورت بصری نشان میدهد و نه تنها اقدامات انجام شده، بلکه فرآیند فکری گام به گام پشت سر آنها را نیز نشان میدهد.
برای مثال، هنگام حل یک مسئله ریاضی، یک عامل ممکن است ابتدا ‘فکر کند’ در مورد جدا کردن یک متغیر قبل از ارسال پاسخی مانند ‘x = 5’. این افکار میانی قابل مشاهده و ردیابی هستند و شفافیت را در نحوه رسیدن عوامل به تصمیمات فراهم میکنند.
در حالی که استدلال صریح عملکرد را در وظایف ساده و تکمرحلهای مانند Bandit بهبود میبخشد، اما در طول آموزش چندمرحلهای تمایل به تخریب دارد. علیرغم استفاده از اعلانها و نشانههای ساختاریافته، آثار استدلال اغلب کوچک میشوند یا ناپدید میشوند، مگر اینکه به صراحت پاداش داده شوند.
این یک محدودیت در طراحی پاداش سنتی را برجسته میکند: تمرکز بر تکمیل وظیفه ممکن است کیفیت فرآیند را نادیده بگیرد. این تیم با جریمههای مبتنی بر فرمت برای تشویق استدلال ساختاریافتهتر آزمایش کرد، اما اذعان میکند که شکلدهی پاداش اصلاحشدهتری احتمالاً ضروری است.
ابزارهای متنباز برای توسعه عامل هوش مصنوعی
RAGEN، همراه با چارچوبهای StarPO و StarPO-S، اکنون به عنوان یک پروژه متنباز در دسترس است. این یک پایه ارزشمند برای کسانی که علاقهمند به توسعه عوامل هوش مصنوعی هستند که نه تنها وظایف را تکمیل میکنند، بلکه فکر میکنند، برنامهریزی میکنند و تکامل مییابند، فراهم میکند.
همانطور که هوش مصنوعی به سمت استقلال بیشتر پیشرفت میکند، پروژههایی مانند RAGEN نشان میدهند که برای آموزش مدلهایی که از دادهها و پیامدهای اقدامات خود یاد میگیرند، چه چیزی لازم است.
سوالات کلیدی برای پیادهسازی در دنیای واقعی
در حالی که مقاله RAGEN یک چارچوب فنی دقیق ارائه میدهد، چندین سوال عملی برای کسانی که قصد دارند از آن در محیطهای سازمانی استفاده کنند، باقی میماند. برای مثال، رویکرد RAGEN تا چه حد فراتر از این وظایف نمادین و سبکدار منتقل میشود؟ آیا شرکتها باید محیطها و توابع پاداش کاملاً جدیدی ایجاد کنند تا از این سیستم در گردشهای کاری مانند پردازش فاکتور یا پشتیبانی مشتری استفاده کنند؟
یکی دیگر از ملاحظات مهم مقیاسپذیری است. حتی با بهبودهای ارائه شده توسط StarPO-S، این مقاله اذعان میکند که آموزش همچنان میتواند در طول دورههای طولانیتر سقوط کند. این سوال را مطرح میکند که آیا یک مسیر نظری یا عملی برای حفظ استدلال در توالیهای وظیفه باز یا در حال تکامل مداوم وجود دارد یا خیر.
RAGEN گامی مهم در جهت ایجاد عوامل هوش مصنوعی خودمختارتر و با قابلیت استدلال است که فراتر از کمکهای فنی صرف، یک چارچوب مفهومی برای توسعه آینده ارائه میدهد. اینکه آیا به یک جزء استاندارد از جعبه ابزار هوش مصنوعی سازمانی تبدیل میشود یا خیر، هنوز مشخص نیست، اما بینشهای آن در مورد پویایی یادگیری عامل در حال حاضر آینده آموزش LLM را شکل میدهد.
این روش جدید به نیاز مبرم به عوامل هوش مصنوعی قابل اعتماد و سازگار میپردازد و یک مسیر امیدوارکننده برای کاربردهای دنیای واقعی ارائه میدهد. RAGEN با تمرکز بر یادگیری از طریق تجربه و بهینهسازی مسیرهای تصمیمگیری، به پر کردن شکاف بین مدلهای نظری و پیادهسازیهای عملی کمک میکند. در دسترس بودن متنباز این چارچوب نوآوری را در این زمینه تسریع میکند و محققان و توسعهدهندگان را قادر میسازد تا بر پایه بنیانهای آن بنا کنند و مرزهای جدیدی را در فناوری عامل هوش مصنوعی کشف کنند.