בעוד DeepSeek-R2 נותר חמקמק, מודלים קטנים יותר של מיקרוסופט עושים גלים, ומציגים יכולות נימוק מרשימות שאומנו על מערך נתונים קטן באופן מפתיע.
עליית מודלי הנימוק Phi-4
עולם ה-AI שבוי כעת במודלי נימוק, ומיקרוסופט הציגה לאחרונה את משפחת מודלי ההיסק Phi-4. זה כולל את Phi-4-reasoning, Phi-4-reasoning-plus ו-Phi-4-mini-reasoning. מה שראוי במיוחד לציון הוא שאפילו הגדול מבין המודלים האלה, המתגאה ב-14 מיליארד פרמטרים בלבד, יכול לפעול בצורה חלקה על מחשבים ניידים בעלי ביצועים גבוהים. יתר על כן, ה-Phi-4-mini-reasoning עם 3.8 מיליארד פרמטרים עולה על מודל DeepSeek-R1 מזוקק עם 8 מיליארד פרמטרים בנימוק מתמטי, מה שמדגיש את העוצמה של מודלים קטנים יותר במשימות היסק.
במקום לחכות לשחרור הדור השני של מודל הנימוק DeepSeek-R2 באפריל, מיקרוסופט חשפה סדרה חדשה של מודלי נימוק Phi-4. מודלים אלה מפגינים ביצועים יוצאי דופן בנימוק מתמטי, ועולים על מודל DeepSeek-R1 מזוקק, למרות של-Phi-4-Mini-Reasoning יש סולם פרמטרים קטן יותר.
אחמד עוודאללה, מנהל מחקר שותף במעבדת Microsoft AI Frontiers, תיאר את Phi-4-reasoning וסיכם את התכונות של המודל החדש.
- המודל מאומן עם כוונון עדין מפוקח (באמצעות מערך נתונים של דוגמאות נימוק שנבחרו בקפידה) ולמידת חיזוק.
- הוא מתפקד היטב במבחני ביצועים של היסק ויכול להיות דומה למודלים מובילים גדולים יותר כמו DeepSeek R1.
- הוא ממשיך לתפקד חזק במבחנים חדשים (כגון AIME 2025, HMMT)
- ליכולת הנימוק יש יכולת העברה/הכללה חזקה, אפילו לאחר כוונון עדין מפוקח בלבד, היא יכולה להסתגל למשימות חדשות (כגון k-SAT, פתרון משוואות מתמטיות, תזמון וכו’)
- שומר ומשפר מאוד יכולות כלליות (כגון הבנת והוצאה לפועל של הוראות)
הוא הצהיר של-Phi-4 עדיין יש כמה היבטים שצריכים שיפור, במיוחד באורך ההקשר, יכולת הקידוד ושילוב כלים.
בנוסף למודל עצמו, מיקרוסופט גם שיתפה דו’ח טכני מפורט המספק ניתוח מעמיק של תהליך ההכשרה וההערכה של המודל.
ב-X, דימיטריס פאפאילופולוס, חוקר ראשי במעבדת Microsoft Research AI Frontiers ופרופסור חבר באוניברסיטת ויסקונסין, הציג מידע נוסף על מודל הנימוק Phi-4.
הוא מאמין ש-Phi-4-reasoning הגיע לחלוטין לרמת בוגר ויכול לפעול על מחשב אישי מקומי.
זה עלה על הציפיות שלו להתפתחות של AI.
למודל החדש יש מעט פרמטרים אך ביצועים חזקים.
תחנת כוח לביצועים
למרות גודלו הצנוע, מודל זה מצטיין במדדי ביצועים מתמטיים כגון AIME, HMMT ו-OmniMath. הוא מתפקד ברמה שווה או עולה על מודלים גדולים יותר במשקל פתוח כמו QwQ-32B, R1-70B ו-R1, ומודלים סגורים כמו o1-mini ו-sonnet 3.7.
מודל זה קטן בגודלו ומתאים לפעול בצורה חלקה על מחשבים ניידים בעלי ביצועים גבוהים.
במקביל, הוא מסוגל לפתור חידות רבות שאפילו מודלים גדולים יותר שאינם נימוקים וכמה מודלי נימוקים אינם יכולים לפתור.
הוא גם עבר את מבחן DimitrisEval!
באופן מפתיע, נימוק נראה כמו “מטא-מיומנות” ניתנת להעברה אמיתית שאפשר ללמוד אפילו באמצעות SFT (כוונון עדין מפוקח)!
ראיה 1: אפילו ללא הכשרה מיוחדת במשימות שאינן נימוק, חוקרים עדיין הבחינו בשיפורי ביצועים משמעותיים ב-IFEval, FlenQA וב-PhiBench הפנימי (עלייה של יותר מ-10 נקודות!).
בנוסף, יש מעט מאוד נתונים הקשורים לקידוד במהלך שלב ה-SFT (ואף אחד בכלל במהלך שלב ה-RL), אבל המודל עדיין מתפקד היטב בהקשר הזה.
בנוסף, דימיטריס פאפאילופולוס חשף שתיכנות הוא מוקד מרכזי לגרסאות הבאות.
ראיה 2: במקרה של כמה בעיות ספציפיות שלא אומנו עליהן במפורש (בשלב SFT או RL), כגון בעיית הסוכן הנוסע, פתרון מבוכים, k-SAT, תכנון מוגבל וכו’, המודל מתפקד היטב במשימות אלה!
ו-Phi-4 (ואפילו GPT-4) לא יכולים לעשות זאת.
זה ממחיש באופן מלא שיכולת הנימוק אכן יכולה להיות מועברת כמיומנות!
לאחר סיבוב קצר מאוד של למידת חיזוק (תוך שימוש ב-6,000 דוגמאות בלבד, בהשוואה ל-1.4 מיליון דוגמאות עבור SFT), מנגנון הנימוק של המודל נראה “נעול”.
זה גרם לדימיטריס פאפאילופולוס להיות המום במיוחד.
הוא מרגיש כאילו למידת חיזוק לימדה את המודל לנמק ב”שפה שלו”, והגדילה את הדיוק בכ-10% ב-AIME ו-HMMT, והגדילה את אורך התשובה הממוצע ב-50% בבעיות קשות.
למידת חיזוק ממש יעילה!!
התופעה של מנגנון הנימוק ש”ננעל” בדרך כלל גורמת להתפלגות הפלט של המודל להיות מרוכזת יותר והדיוק גם גבוה יותר.
העובדה שלמידת חיזוק יכולה לשפר משמעותית את היכולות של המודל באה לידי ביטוי גם במחקרים קודמים של מיקרוסופט.
בשלב למידת החיזוק, המודל החדש אפילו לא עבר אופטימיזציה מיוחדת לנתונים: 6,000 שאלות פשוט נבחרו באקראי מתוך מבחר גדול יותר של מערכי נתונים.
אז למה מיקרוסופט לא ערכה יותר אימוני למידת חיזוק?
מכיוון שהמודל יצר תשובות לשאלות שחרגו מאורך ההקשר של 32k (האורך שהמודל לא אומן עליו), הם יכלו רק לקטוע אותו.
בנוסף, בעזרת חישובי נימוק מקבילים (כגון Maj@N), מודל הנימוק החדש כמעט הגיע למגבלת הביצועים ב-AIME 2025, ואף עלה על ביצועי pass@1 של מודל המורה שלו (o3-mini).
והשלים את כל איסוף הנתונים לפני פברואר 2025, וכך גם HMMT.
במשימות אחרות, חוקרים גם הבחינו בתופעה של “לעבור את המורה”, כגון משימות OmniMath ותכנון לוח שנה.
עיצוב ההנחיות בשלב ה-SFT, יחד עם תהליך למידת החיזוק שלאחר מכן, נראה שנתן למודל את היכולת ל”שיפור עצמי”, העולה על היקף הידע שסופק על ידי מודל המורה.
באיור למטה, מג’נטה מייצגת o3-mini וירוק מייצגת את Phi.
תופעה מעניינת היא ש: טקסטים ארוכים עם אורכי תגובה ב-25% העליונים קשורים לעתים קרובות לתשובות שגויות!
עם זאת, מצד שני, ברוב ההערכות, אורך התשובה הממוצע הכולל ארוך יותר והדיוק גבוה יותר.
במילים אחרות, הגדלת משאבי המחשוב במהלך הבדיקה עוזרת, אבל המודל גם נוטה ל”פזר” כשהוא “תקוע”.
לגבי המגבלות של המודל, יש גם כמה דברים שכדאי לשים לב אליהם:
- היכולת לטפל באורכי הקשר העולים על 32k לא הורחבה או נבדקה במלואה.
- המודל נוטה ל”לחשוב יותר מדי” כשמתמודדים עם בעיות פשוטות, ועשוי להיראות מילולי מדי בהערכה עצמית.
- היכולת של דיאלוגים מרובי פניות לא נבדקה באופן נרחב.
כמובן, יש עוד “שטחים מתים” לגלות, אבל בסך הכל, צוות המחקר מרגיש שהם על המסלול הנכון!
הפתעות באימונים
סוריה גונאסקר, מנהלת מחקר ראשית ב-Microsoft Research והשייכת לצוות ה-“AGI Physics” האחראי על פיתוח סדרת מודלי Phi, התמקדה בהצגת העקרונות הבסיסיים של העבודה.
הפעם, צוות Microsoft Phi התמקד בשלב שלאחר האימון והשיק את Phi-4-reasoning (באמצעות SFT בלבד) ו-Phi-4-reasoning-plus (SFT+ כמות קטנה של RL).
שניהם מודלים של 14B שהדגימו יכולות חזקות בנימוק ובמדדי ביצועים של משימות כלליות.
הליבה של עבודה זו טמונה בבחירת הנחיות ובחקירה ניסויית של מיומנויות נימוק הניתנות להעברה ומשתפרות מעצמן.
היו שתי תגליות מפתיעות במהלך תהליך האימון:
ראשית, כל עוד נעשה שימוש בכמה מסלולי נימוק ארוכי שרשרת (CoT) שאומנו בתחום, Phi-4 יכול להשיג שיפורי ביצועים משמעותיים במשימות מרובות כגון תזמון, פתרון מבוכים (ללא קלט ויזואלי), IFEva, FlenQA, KITAB (שאילתת שאלות מבוססות חיפוש) ו-PhiBench פנימי;
שנית, גם אם נעשה שימוש ב-6,000 דוגמאות מתמטיות בלבד לאימוני RL מינימליים, הביצועים של המודל משתפרים משמעותית בכמה מדדי ביצועים, כאשר השיפור הגבוה ביותר מגיע ל-10% (אך השימוש בטוקנים גדל בערך פי 1.5), ותועדה גם העברה חוצת תחומים של מיומנויות במהלך שלב ה-RL.
במילים אחרות, בהשוואה למתחרות גדולות כמו OpenAI ו-Google, סדרת הנימוק Microsoft Phi-4 מדגימה אפשרויות חדשות: מודלים קטנים יכולים להתאים או אפילו לעלות על מודלים גדולים במשימות ספציפיות על ידי שימוש בנתונים איכותיים ואסטרטגיות אימון מעודנות.
שיטות ליבה
למודל הנימוק Phi-4-reasoning יש 14 מיליארד פרמטרים ומתפקד חזק במשימות נימוק מורכבות.
המודל מבוסס על Phi-4 לאימוני כוונון עדין מפוקחים, תוך שימוש במערך נבחר בקפידה של הנחיות “ניתנות ללמידה” שיש להן גם מורכבות וגם גיוון מתאימים; דוגמאות הנימוק שנוצרו על ידי o3-mini משמשות כהפניות במהלך תהליך האימון.
Phi-4-reasoning יכול ליצור שרשראות נימוק מפורטות ולנצל את משאבי המחשוב באופן מלא במהלך תהליך הנימוק.
על בסיס זה, מיקרוסופט פיתחה עוד יותר את Phi-4-reasoning-plus.
הוא משופר על בסיס המודל המקורי באמצעות שלב קטן של למידת חיזוק מבוססת תוצאות, ומייצר שרשראות נימוק ארוכות וחזקות יותר.
מחקרים מראים שמערך נתונים SFT מעוצב היטב יכול לשפר משמעותית את ההשפעה של מודלי שפה של נימוק, ולמידת חיזוק (RL) יכולה להגביר עוד יותר שיפור זה על בסיס זה.
בניסויי SFT, אפילו במסגרת יצירה פשוטה יחסית זו, בחירה זהירה וסינון קפדני של בעיות זרע הם עדיין המפתח להצלחת המודל.
הם העבירו את כל מערך נתוני האימון תהליך טיהור קפדני כדי להבטיח שהוא לא מכיל נתונים החופפים במידה רבה לשאלות נימוק או מדדי ביצועים כלליים בשימוש נרחב, כולל כמה מדדי ביצועים שלא הוזכרו בדו’ח זה.
הרשימה המלאה של מבחני ביצועים שעברו טיהור היא כדלקמן:
- מתמטיקה ונימוק: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- תכנות: LiveCodeBench, Codeforces, HumanEval, MBPP
- מענה על שאלות וידע כללי: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- משימות הערכה אחרות: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
באמצעות כוונון עדין מפוקח (SFT) של מודל Phi-4 עם 14 מיליארד פרמטרים, חוקרים השיגו את Phi-4-reasoning, ללא כל למידת חיזוק לפני כן.
מטרת ה-SFT היא לחדד את יכולת הנימוק המובנית הכלולה במודל הבסיסי.
הארכיטקטורה של Phi-4-reasoning זהה לזו של מודל Phi-4, אך עם שני שינויים עיקריים:
- טוקני נימוק: שני טוקני מציין המיקום במודל הבסיסי משמשים מחדש כ-
ו- טוקנים, המשמשים לסימון ההתחלה והסיום של תהליך נימוק (“חשיבה”). - אורך טוקן מוגבר: אורך הטוקן המקסימלי שנתמך בתחילה על ידי המודל הבסיסי (Phi-4) היה 16K. כדי להתאים לטוקני נימוק נוספים, תדר הבסיס של RoPE הוכפל, והמודל אומן באורך טוקן מרבי של 32K.
הם השתמשו בשיטה סינתטית כדי ליצור מספר גדול של דוגמאות נימוק של שרשרת מחשבות.
מערך הנתונים SFT המשמש מכיל יותר מ-1.4 מיליון צמדי הנחיה-תגובה, בסך הכל 8.3 מיליארד טוקנים ייחודיים, המכסים תחומי נימוק כגון מתמטיקה ותכנות, כמו גם נתוני יישור עבור AI בטוח ואחראי.
איור 4א מציג את השינויים במדדים עיקריים לאורך תהליך האיטרציה של SFT.
בתחילת האימון, המודל התחיל להשתמש בטוקני “חשיבה” מפורשים, מה שמצביע על כך שהמודל למד במהירות את הפורמט המובנה הרדוד הזה.
עם זאת, כפי שמוצג באיור 4א, האפקטיביות של מודול שרשרת המחשבות ויכולת הנימוק של המודל משתפרות לאורך כל תהליך האימון, מה שמצביע על כך שהמודל לא רק מעתיק את הפורמט, אלא למעשה לומד מיומנויות נימוק.
מעניין ששלא כמו למידת חיזוק, חוקרים לא ראו עלייה באורך התגובה במהלך תהליך ה-SFT.
למעשה, כפי שמוצג באיור 4ב, אורך התגובה הממוצע ירד מעט.
זה מראה שככל שהאימונים מתקדמים, המודל לומד להשתמש בתקציב הטוקנים שלו בצורה יעילה יותר.
כדי להעריך באופן שיטתי אסטרטגיות אימון שונות, הם השתמשו במדד ביצועים קבוע - AIME 2024 ו-GPQA diamond - כמדד להתקדמות.
בסך הכל, השיטה הניסויית יכולה להיות מחולקת לשני שלבים: חקירה והרחבה.
בשלב החקירה, חוקרים השתמשו במחזורי אימון קצרים יותר ומקורות נתונים ותחומים מוגבלים כדי לבצע איטרציה מהירה ולחלץ שיטות אימון חזקות.
בשלב ההרחבה שלאחר מכן, חוקרים סיכמו את התוצאות של ניסויי הפחתת הסיכונים המוקדמים וסיימו את הגדרות ה-SFT.
איור 5 מסכם התקדמות זו, ומדגיש ניסויי הפחתה עבור מספר אפשרויות עיצוב מפתח.
איור 5 מציג סקירה כללית ברמה גבוהה של מחזור ניסויי כוונון עדין מפוקח (SFT) של Phi-4-reasoning, כולל שלבי חקירה והרחבה, תוך שימוש בכמה ניסויים לדוגמה לייצוג. כל אשכול נקודות מייצג את התוצאות הניסיוניות של בחירת עיצוב אימון ספציפית.
איור 7 מציג את הממצאים העיקריים של מודל Phi-4-reasoning-plus במהלך תהליך אימוני ה-GRPO.
החל ממודל הבסיס לכוונון עדין מפוקח (SFT) Phi-4-reasoning, רק 90 שלבים של אימוני GRPO הגדילו את ביצועי ה-AIME ביותר מ-10% (איור 7א).
המשך הגדלת מספר שלבי האימון לא הביא תועלת נוספת, מה שמצביע על כך שהפוטנציאל של מודל SFT חזק קרוב לתקרת הביצועים. יש לציין שהפלט באימוני GRPO מוגבל ל-31k טוקנים, מה שמגביל באופן אובייקטיבי את מרחב האופטימיזציה של GRPO.
כפי שמוצג באיור 7ג, אורך תגובה קשור קשר הדוק לביצועי AIME, בעוד שהקשר בין ציון תגמול וציון AIME חלש. אפקט צמיחת אורך תגובה זה הוא האפקט הצפוי של אימוני GRPO - המודל משפר את יכולת הנימוק שלו על ידי הגדלת “זמן החשיבה”.
איור 7ד חושף עוד יותר שבשל העיצוב של מודל התגמול, אורך היצירה של תשובות שגויות גדל מהר משמעותית מתשובות נכונות (כאשר התשובה הנוכחית של המודל שגויה, המערכת תעודד אותו לחשוב זמן רב יותר).
למעשה, ביצוע דגימת דחייה המבוססת אך ורק על אורך תגובה (במיוחד תגובות ארוכות החורגות משמעותית מהחציון) עשוי לשפר עוד יותר את ביצועי ה-GRPO.
כפי שמוצג באיור 7ד, מגמת הצמיחה של תגובות קצרות יותר (אורך הממוקם ברביעון התחתון של 25%) במהלך תהליך האימון דומה לאורך הממוצע של תשובות נכונות, בעוד שאורך התשובות השגויות קרוב יותר לרביעון ה-75% של אורך התגובה הכולל.
תופעת הבחנה זו מצביעה על כך שדגימת דחייה מבוססת אורך יכולה לשפר את יעילות המודל על ידי דיכוי פלטים שגויים ארוכים מדי.