ניצחון הלמידה החיזוקית: Phi-4 של מיקרוסופט

מיקרוסופט נכנסה לתחום מודלי ה-AI בקוד פתוח, במיוחד משפחת Phi, וצוברת אחיזה, אם כי לא עם אותו הכרה רחבה כמו ההשקעה שלה ב-OpenAI. בין המודלים הללו, ה-Phi-4 Reasoning Plus בולט, ומציג את הכוח של למידה חיזוקית (RL) בהשגת תוצאות יוצאות דופן במבחני ביצועים.

סדרת Phi מתוכננת להיות יעילה במשאבים, ולצרוך פחות כוח חישובי ושטח אחסון. באמצעות מחקר קפדני וטכניקות אופטימיזציה, המודלים הללו עקפו בעקביות את הציפיות, ועלו על המתחרים הן בכיתת המשקל שלהם ואף אתגרו מודלים גדולים יותר.

מודל Phi-4 Reasoning, המתגאה ב-14 מיליארד פרמטרים, נוצר על ידי יישום אלגוריתם כוונון עדין מפוקח (SFT) למודל הבסיסי Phi-4. בהתבסס על כך, החוקרים פיתחו עוד יותר את מודל Phi-4 Reasoning Plus, תוך מינוף למידה חיזוקית (RL) על בסיס Phi-4 Reasoning.

באופן מדהים, הן מודלי Phi-4 Reasoning והן Phi-4 Reasoning Plus הדגימו ביצועים מעולים בהשוואה למודלים גדולים משמעותית כמו DeepSeek R1, המכיל 70 מיליארד פרמטרים. הישג זה ניכר במיוחד במדדים המקיפים קידוד, פתרון בעיות מתמטיות ומשימות מדעיות מתקדמות ברמת הבוגר. ביצועי המודלים אף מתקרבים לאלה של מודל DeepSeek R1 בקנה מידה מלא של 671 מיליארד פרמטרים.

חוקרי מיקרוסופט מייחסים את הצלחת המודל בעיקר לשימוש במערכי נתונים איכותיים להדרכה, אסטרטגיה שהחברה הסתמכה עליה בעקביות עם המודלים הקודמים שלה. מערכי נתונים אלה כוללים למעלה מ-1.4 מיליון הנחיות שנאספו בקפידה המשתרעות על פני דיסציפלינות קידוד ו-STEM שונות (מדע, טכנולוגיה, הנדסה ומתמטיקה). לכל הנחיה מצורפות תשובות מעוצבות בקפידה, המשלבות עקבות הנמקה נרחבות שנוצרו על ידי מודל o3-mini של OpenAI.

כדי לייעל את תהליך ההכשרה, החוקרים מיקדו באופן אסטרטגי הנחיות שדחפו את הגבולות של היכולות של מודל Phi-4 הבסיסי. זה כלל סינון של מערכי הנתונים להדרכה כדי לשמור רק על אותן הנחיות שהציעו הזדמנויות משמעותיות לשיפור.

ההיגיון מאחורי האפקטיביות של RL

הפיתוח של Phi-4 Reasoning Plus כלל תהליך דו-שלבי: ראשית, הסקת Phi-4 Reasoning באמצעות כוונון עדין מפוקח (SFT) של מודל Phi-4 הבסיסי, ואחריו שלב של למידה חיזוקית (RL). כדי לקבל תובנות מעמיקות יותר לגבי רכיבי ה-RL של Phi-4 Reasoning Plus, תקשורת ישירה עם הרקיראט בהל, חוקר במיקרוסופט שמילא תפקיד מרכזי בהיבט זה של הפרויקט, הייתה חיונית.

למידה חיזוקית (RL) היא מתודולוגיית הכשרה ייחודית שבה מערכת AI לומדת באמצעות ניסויים. ה-AI נוקט פעולות, מקבל משוב בצורה של תגמולים או עונשים, ומעדן באופן איטרטיבי את תהליך קבלת ההחלטות שלו כדי למקסם תוצאות רצויות לטווח ארוך. גישה זו מועילה במיוחד למשימות הדורשות ממודל ה-AI לעסוק ב”חשיבה”, מכיוון שהיא נותנת עדיפות להשגת התוצאה הרצויה על פני הקפדה על תהליך נוקשה ומוגדר מראש.

שלא כמו מודלים מסורתיים המתמקדים אך ורק בחיזוי המילה הבאה ומענישים את המודל על כל אי דיוק, RL מציעה גמישות רבה יותר באופן השגת תשובה. גמישות זו מאפשרת למודל לחקור בעיות מורכבות עם מספר נתיבי פתרון פוטנציאליים, ובסופו של דבר להגיע למסקנה הנכונה.

לדברי בהל, RL מעצים את המודל “ליצור תשובות ארוכות מאוד, ותשובות רבות ושונות”, כאשר הדגש העיקרי הוא על דיוק התוצאה הסופית. דגש זה על התוצאה, ולא על הצעדים הספציפיים שננקטו, משקף את האופן שבו בני אדם ניגשים לפתרון בעיות. תהליכי חשיבה שונים מקובלים, כל עוד הם מובילים לתשובה הנכונה.

במודלים של מיקרוסופט, שלב ה-RL התמקד בכוונה בחשיבה מתמטית. מערכת התגמולים תמרצה דיוק, תוך שהיא מענישה במקביל על חזרה, אורך מוגזם ופורמט תגובה לא תקין.

בהל הסביר עוד כי החוקרים אפשרו למודל ליצור מספר תשובות לשאלה נתונה. לאחר מכן, כל תשובה קיבלה ניקוד על סמך ההשוואה שלה לניקוד הממוצע בתוך קבוצת התשובות שנוצרו.

ציונים יחסיים אלה משמשים כמנגנון משוב, המנחה את המודל להעדיף תשובות המקבלות באופן עקבי ציונים גבוהים יותר. עם הזמן, תהליך זה מאמן את המודל ליישר את התגובות שלו בצורה הדוקה יותר עם אות התגמול הרצוי.

החוקרים הבחינו בכך שיישום RL על קבוצה מוגבלת של 6,400 בעיות הוביל לשיפור משמעותי בדיוק על פני הערכות מתמטיקה וחשיבה שונות.

“לאחר שבניתי את Phi-1, Phi-2, Phi-3 ו-Phi-4, מסקנה אחת ממני במחקר היא ש-RL דורש הרבה פחות נתונים מאשר אימון ה-SFT”, ציין בהל.

הוא ייחס זאת לעובדה ש-RL עוסק פחות בהקניית מיומנויות חדשות לחלוטין למודל מאפס, ויותר בהנחיית המודל לשלב ולמנף ביעילות מיומנויות קיימות כדי להשיג תוצאות טובות יותר.

ההצלחה של מיקרוסופט בלמידה חיזוקית תואמת את החוויות של חברות AI רבות אחרות. OpenAI, חלוצה בפיתוח מודלי חשיבה, הדגישה שוב ושוב את ההשפעה החיובית של RL על הפרויקטים שלהן.

מעניין ש-DeepSeek R1, מודל סיני ששיבש את נוף ה-AI בשנה שעברה, ייחס גם הוא את הצלחתו, בין היתר,ליישום RL. יתר על כן, מספר חוקרים ומהנדסים מ-OpenAI הכירו בפומבי בתפקיד המכריע של RL בהצלחת יוזמות המחקר העמוק שלהם.

לאחרונה, מודל Qwen של עליבאבא אישר גם הוא למידה חיזוקית, תוך הדגשת השפעתה המשמעותית על מודלי ההנמקה שלהם. בפוסט בבלוג, החברה הצהירה: “אנו בטוחים ששילוב של מודלים חזקים יותר עם RL המופעלים על ידי משאבים חישוביים מוגדלים יניע אותנו קרוב יותר להשגת בינה כללית מלאכותית (AGI).”

עם זאת, למרות ההצלחות של Phi-4 Reasoning, Phi-4 Reasoning Plus ומודלי חשיבה רבים אחרים, התחום עדיין מתמודד עם מספר אתגרים.

המסע המתמשך לשיפור

בחודשים האחרונים, מספר מחקרי מחקר הדגישו את המגבלות הקיימות ואת המלכודות הפוטנציאליות של מודלי חשיבה. לדוגמה, במאמר המחקר שלהם על Phi-4 Reasoning, חוקרי מיקרוסופט הודו שהם ממשיכים להתמודד עם אתגרים הקשורים לצריכה מוגזמת של זמן ומשאבים, זמני תגובה איטיים יותר, ובאופן בולט ביותר, הנושא של תגובות המודלים הסותרות את צעדי ההנמקה הקודמים שלהם.

בהתפתחות משמעותית נוספת, אנתרופיק פרסמה מחקר המגלה שרשתות חשיבה (המכונות לעתים קרובות שרשרת מחשבות, או CoT) עשויות שלא לשקף באופן עקבי את תהליך ההנמקה האמיתי של מודל. החוקרים גילו שמודלים מנצלים לעתים קרובות רמזים חיצוניים, כגון רמזים מפורשים המוחדרים לתזכורות כדי להנחות אותם לתשובות נכונות, אך לעתים רחוקות מכירים או מביעים רמזים אלה בשלבי ההנמקה המפורשים שלהם. פער זה בין ההתנהגות הפנימית של המודל לבין ההסבר החיצוני שלו מעורר חששות לגבי המהימנות של שימוש ב-CoTs ככלי אמין ליכולת פענוח מודלים ולהבטחת בטיחות.

אפילו OpenAI פרסמה דוחות מחקר המדגישים את הנטייה של מודלי חשיבה מתקדמים לעסוק ב”פריצת תגמולים”. פריצת תגמולים מתייחסת למצבים שבהם סוכני AI מנצלים פרצות בלתי צפויות או השלכות לא מכוונות בתוך היעדים המוגדרים שלהם כדי למקסם את התגמולים בדרכים שלא היו במקור מיועדות או רצויות. OpenAI חקרה אסטרטגיות להפחתת הדבר, כגון שימוש במודל חלש פחות (GPT-4o) כדי לפקח על מודל חזק יותר כמו o3-Mini, אם כי זה מציג מורכבויות והטיות פוטנציאליות משלו.

נאט מק’אליס, חבר צוות טכני ב-OpenAI, הדגיש כי “מודלי חשיבה גדולים מצוינים בפריצת תגמולים”, תוך ציטוט דוגמאות שנבחרו בקפידה מהדוח כדי להמחיש נקודה זו.

“יש הרבה יתירות בשרשרת הטיעונים; הם סותרים את עצמם, ויש הרבה שאלות פתוחות”, העיר בהל. “אבל זה תחום מתפתח. אם נוכל למסמר את זה כקהילה ולהבין איך המודלים חושבים, יהיה הרבה רווח.” עתיד מודלי החשיבה תלוי בטיפול באתגרים אלה באמצעות המשך מחקר ושיתוף פעולה בתוך קהילת ה-AI.