גישה חדשה להכשרת סוכני AI מהימנים: RAGEN
הציפייה לסוכני AI גוברת כבר שנים, כאשר מומחים רבים צופים ששנת 2025 תהיה השנה שבה יישומי AI ספציפיים למשימות אלה, המופעלים על ידי מודלים מתקדמים של שפה גדולה ורב-מודלית (LLMs), ימריאו באמת. עם זאת, המציאות היא שרוב סוכני ה-AI נשארים במצב של לימבו ניסיוני, נאבקים לעבור ממעבדות מחקר ליישומים בעולם האמיתי.
כעת, מאמץ משותף של חוקרים מאוניברסיטת נורת’ווסטרן, מיקרוסופט, סטנפורד ואוניברסיטת וושינגטון, כולל חוקר לשעבר מ-DeepSeek בשם זיהאן וואנג, הציג מערכת חדשה בשם RAGEN. מסגרת חדשה זו נועדה לאמן ולהעריך סוכני AI, מה שהופך אותם לאמינים ועמידים יותר לשימוש מעשי ברמת הארגון.
שלא כמו משימות AI מסורתיות המתמקדות בבעיות סטטיות כמו מתמטיקה או קידוד, RAGEN מתמודדת עם תרחישים אינטראקטיביים מרובי-שלבים שבהם סוכנים חייבים להסתגל, ללמוד ולנמק בסביבות לא ודאיות. גישה זו חיונית לפיתוח AI שיכול להתמודד עם המורכבות של מצבים בעולם האמיתי.
בלב RAGEN נמצאת מסגרת למידת חיזוק מותאמת אישית (RL) המכונה StarPO (אופטימיזציה של מדיניות תגמול-פעולות-חשיבה-מצב). מערכת זו בוחנת כיצד LLMs יכולים ללמוד באמצעות ניסיון, ולא להסתמך רק על שינון. StarPO מתמקד בכל תהליך קבלת ההחלטות, תוך התחשבות לא רק בתגובות בודדות אלא במסלול האינטראקציות השלם.
StarPO פועל בשני שלבים נפרדים הפועלים יחד. השלב הראשון, הנקרא שלב הפריסה, כולל את ה-LLM שמייצר רצפים מלאים של אינטראקציות המונחים על ידי נימוקים. השלב השני, שלב העדכון, מייעל את המודל באמצעות תגמולים מצטברים מנורמלים. מבנה זה יוצר לולאת למידה יציבה ושקופה יותר בהשוואה לשיטות אופטימיזציה של מדיניות סטנדרטית.
החוקרים יישמו ובדקו בקפדנות את המסגרת באמצעות גרסאות מכוונות של מודלי Qwen של עליבאבא, במיוחד Qwen 1.5 ו-Qwen 2.5. מודלים אלה נבחרו בזכות המשקלים הפתוחים שלהם ויכולתם לעקוב אחר הוראות ביעילות, מה שאפשר שכפול והשוואות בסיסיות עקביות על פני משימות סמליות שונות.
התגברות על ‘מלכודת ההד’: למידת חיזוק ואובדן נימוקים
זיהאן וואנג הדגיש אתגר מרכזי בשרשור X משותף באופן נרחב: ‘למה אימון ה-RL שלך תמיד קורס?’ לדברי הצוות, סוכני LLM מייצרים בתחילה תגובות סמליות מנומקות היטב. עם זאת, מערכות RL נוטות לתגמל קיצורי דרך לאורך זמן, מה שמוביל להתנהגויות חוזרות ונשנות שבסופו של דבר מפחיתות את הביצועים הכוללים. תופעה זו היא מה שהם מכנים ‘מלכודת ההד’.
נסיגה זו מתרחשת עקב לולאות משוב שבהן ביטויים או אסטרטגיות מסוימות מניבות תגמולים גבוהים בשלב מוקדם, מה שמוביל לשימוש יתר בהם ומפריע לחקר גישות חדשות. וואנג מציין שזה ניתן לכימות, עם מצוקי שונות תגמולים ניתנים למדידה, זינוקי שיפוע והיעלמות של עקבות נימוקים.
כדי לבחון התנהגויות אלה בסביבה מבוקרת, RAGEN משתמשת בשלוש סביבות סמליות:
- Bandit: זוהי משימה סטוכסטית חד-פעמית המעריכה נימוקי סיכון-תגמול סמליים.
- Sokoban: חידה דטרמיניסטית מרובת-סיבובים הכוללת החלטות בלתי הפיכות.
- Frozen Lake: זוהי משימה סטוכסטית מרובת-סיבובים הדורשת תכנון הסתגלותי.
כל סביבה מעוצבת בקפידה כדי למזער הטיות בעולם האמיתי, תוך התמקדות באסטרטגיות קבלת ההחלטות המתעוררות במהלך האימון.
בסביבת Bandit, למשל, סוכנים מיודעים שזרועות ‘דרקון’ ו’עוף החול’ מייצגות התפלגויות תגמולים שונות. במקום לספק ישירות את ההסתברויות, על הסוכנים לנמק באופן סמלי, לפרש את ‘דרקון’ כ’כוח’ ואת ‘עוף החול’ כ’תקווה’ כדי לחזות תוצאות. סוג זה של הגדרה מעודד את המודל ליצור נימוקים אנלוגיים הניתנים להסבר.
ייצוב למידת חיזוק עם StarPO-S
כדי לטפל בבעיית קריסת האימונים, החוקרים פיתחו את StarPO-S, גרסה מיוצבת של המסגרת המקורית. StarPO-S משלב שלושה התערבויות מפתח:
- סינון פריסה מבוסס אי ודאות: זה נותן עדיפות לפריסות שבהן הסוכן מפגין אי ודאות לגבי התוצאה.
- הסרת עונש KL: מאפשר למודל לסטות בחופשיות רבה יותר מהמדיניות המקורית שלו ולחקור התנהגויות חדשות.
- חיתוך PPO אסימטרי: זה מגביר מסלולים בעלי תגמול גבוה יותר מאשר מסלולים בעלי תגמול נמוך כדי לשפר את הלמידה.
התאמות אלה מעכבות או מבטלות את קריסת האימונים, מה שמוביל לביצועים משופרים בכל שלוש המשימות. לדברי וואנג, ‘StarPO-S… עובד על פני כל 3 המשימות. מקל על קריסה. תגמול טוב יותר.’
הצלחת אימון RL תלויה לא רק בארכיטקטורה אלא גם באיכות הנתונים שמייצרים הסוכנים עצמם. הצוות זיהה שלושה ממדים קריטיים המשפיעים באופן משמעותי על האימון:
- מגוון משימות: חשיפת המודל למגוון רחב של תרחישים ראשוניים משפרת את ההכללה.
- גרגוריות אינטראקציה: מתן אפשרות למספר פעולות לכל תור מאפשר תכנון משמעותי יותר.
- רעננות פריסה: שמירה על נתוני האימון מיושרים עם מדיניות המודל הנוכחית מונעת אותות למידה מיושנים.
יחד, גורמים אלה תורמים לתהליך אימון יציב ויעיל יותר.
חשיפת תהליכי החשיבה של הסוכן
אתר הדגמה אינטראקטיבי שנוצר על ידי החוקרים ב-GitHub מייצג באופן ויזואלי פריסות סוכנים כתורות דיאלוג מלאות, וחושף לא רק את הפעולות שננקטו אלא גם את תהליך החשיבה המדורג מאחוריהן.
לדוגמה, כאשר פותרים בעיה במתמטיקה, סוכן עשוי תחילה ‘לחשוב’ על בידוד משתנה לפני שהוא מגיש תשובה כמו ‘x = 5’. מחשבות ביניים אלה גלויות וניתנות למעקב, ומספקות שקיפות לגבי האופן שבו סוכנים מגיעים להחלטות.
בעוד שנימוק מפורש משפר את הביצועים במשימות פשוטות חד-פעמיות כמו Bandit, הוא נוטה להתדרדר במהלך אימון מרובה סיבובים. למרות השימוש בהנחיות ואסימונים מובנים, עקבות נימוקים לרוב מתכווצים או נעלמים אלא אם כן מתוגמלים באופן מפורש.
זה מדגיש מגבלה בעיצוב תגמולים מסורתי: התמקדות בהשלמת משימות עלולה להתעלם מאיכות התהליך. הצוות ניסה עונשים מבוססי פורמט כדי לעודד נימוקים מובנים טוב יותר, אך מכיר בכך שעיצוב תגמולים מעודן יותר הוא כנראה הכרחי.
כלי קוד פתוח לפיתוח סוכני AI
RAGEN, יחד עם מסגרות StarPO ו-StarPO-S שלה, זמין כעת כפרויקט קוד פתוח. זה מספק בסיס רב ערך עבור אלה המעוניינים לפתח סוכני AI שלא רק משלימים משימות אלא גם חושבים, מתכננים ומתפתחים.
ככל שה-AI מתקדם לעבר אוטונומיה גדולה יותר, פרויקטים כמו RAGEN שופכים אור על מה שנדרש כדי לאמן מודלים שלומדים הן מנתונים והן מההשלכות של הפעולות שלהם.
שאלות מפתח ליישום בעולם האמיתי
בעוד שמסמך RAGEN מספק מסגרת טכנית מפורטת, מספר שאלות מעשיות נותרו עבור אלה השוקלים את היישום שלה בסביבות ארגוניות. לדוגמה, עד כמה הגישה של RAGEN מתורגמת מעבר למשימות סמליות ומסוגננות אלה? האם חברות יצטרכו ליצור סביבות ופונקציות תגמול חדשות לחלוטין כדי להשתמש במערכת זו בתהליכי עבודה כגון עיבוד חשבוניות או תמיכת לקוחות?
שיקול קריטי נוסף הוא מדרגיות. גם עם השיפורים המוצעים על ידי StarPO-S, המאמר מכיר בכך שהאימונים עדיין יכולים לקרוס לאורך תקופות ארוכות יותר. זה מעלה את השאלה האם יש מסלול תיאורטי או מעשי לשמירה על נימוקים על פני רצפי משימות פתוחים או מתפתחים ללא הרף.
RAGEN מייצג צעד משמעותי לקראת יצירת סוכני AI אוטונומיים יותר בעלי יכולת נימוק, תוך מעבר מעבר לתרומות טכניות בלבד כדי להציע מסגרת מושגית לפיתוח עתידי. האם הוא יהפוך למרכיב סטנדרטי של ארגז הכלים של AI הארגוני עדיין לא ברור, אך התובנות שלו לגבי הדינמיקה של למידת סוכנים כבר מעצבות את עתיד אימון ה-LLM.
שיטה חדשנית זו מטפלת בצורך הקריטי בסוכני AI אמינים וניתנים להתאמה, ומציעה דרך מבטיחה קדימה ליישומים בעולם האמיתי. על ידי התמקדות בלמידה באמצעות ניסיון ואופטימיזציה של מסלולי קבלת החלטות, RAGEN עוזר לגשר על הפער בין מודלים תיאורטיים ליישומים מעשיים. הזמינות של קוד פתוח של המסגרת מאיצה עוד יותר את החדשנות בתחום, ומעצימה חוקרים ומפתחים לבנות על היסודות שלה ולחקור גבולות חדשים בטכנולוגיית סוכני AI.