עלייתם של מודלי Phi-Reasoning
מודלי Phi-reasoning החדשים מתוכננים לרתום שינוי גודל בזמן הסקה (inference-time scaling) למשימות מורכבות הדורשות פירוק רב-שלבי והשתקפות פנימית. מודלים אלה מדגימים יכולות יוצאות דופן בהסקה מתמטית, ומבססים את עצמם כבסיס ליישומים דמויי סוכן (agent-like applications) המטפלים במשימות סבוכות ורב-פנים. היסטורית, יכולות כאלה היו בלעדיות למודלים גדולים משמעותית. מודלי Phi-reasoning מציגים קטגוריה חדשה של SLMs הממנפים זיקוק (distillation), למידת חיזוק (reinforcement learning) ונתונים באיכות גבוהה כדי ליצור איזון בין גודל וביצועים. גודלם הקומפקטי הופך אותם למתאימים לסביבות בעלות השהיה נמוכה (low-latency environments), בעוד שיכולות ההסקה החזקות שלהם מתחרות באלה של מודלים גדולים בהרבה. שילוב זה של יעילות ויכולת מאפשר אפילו למכשירים מוגבלי משאבים לבצע משימות הסקה מורכבות ביעילות.
Phi-4-Reasoning ו-Phi-4-Reasoning-Plus: צלילה מעמיקה
Phi-4-Reasoning: מודל הסקה פתוח משקל
Phi-4-reasoning בולט כמודל הסקה פתוח משקל עם 14 מיליארד פרמטרים. הוא נועד להתחרות במודלים גדולים משמעותית במשימות הסקה מורכבות. מודל זה אומן באמצעות כוונון עדין מפוקח (supervised fine-tuning) של Phi-4 על דוגמאות הסקה שנאספו בקפידה שמקורן ב-o3-mini של OpenAI. Phi-4-reasoning מייצר שרשראות הסקה מפורטות, תוך ניצול יעיל של זמן חישוב נוסף במהלך הסקה. הישג זה מדגיש כיצד אוצרות נתונים מדויק ומערכי נתונים סינתטיים באיכות גבוהה מאפשרים למודלים קטנים יותר להתחרות בעמיתיהם הגדולים יותר.
Phi-4-Reasoning-Plus: שיפור הסקה באמצעות למידת חיזוק
בהתבסס על היכולות של Phi-4-reasoning, Phi-4-reasoning-plus עובר הכשרה נוספת עם למידת חיזוק כדי לנצל זמן חישוב נוסף במהלך הסקה. הוא מעבד פי 1.5 יותר טוקנים (tokens) מ-Phi-4-reasoning, מה שמביא לדיוק משופר.
מדדי ביצועים
למרות גודלם הקטן משמעותית, גם Phi-4-reasoning וגם Phi-4-reasoning-plus עולים על o1-mini של OpenAI ו-DeepSeek-R1-Distill-Llama-70B על פני מדדי ביצועים שונים, כולל הסקה מתמטית וחקרים מדעיים ברמת דוקטורט. באופן מרשים, הם אפילו עולים על מודל ה-DeepSeek-R1 המלא (עם 671 מיליארד פרמטרים) במבחן AIME 2025, המשמש כתחרות המוקדמת לאולימפיאדת המתמטיקה של ארה"ב לשנת 2025. שני המודלים נגישים בקלות ב-Azure AI Foundry וב-Hugging Face.
Phi-4-Mini-Reasoning: תחנת כוח קומפקטית לסביבות מוגבלות
Phi-4-mini-reasoning תוכנן במיוחד כדי לתת מענה לדרישה למודל הסקה קומפקטי. מודל שפה מבוסס טרנספורמציה (transformer-based language model) זה מותאם להסקה מתמטית ומציע יכולות פתרון בעיות איכותיות, צעד אחר צעד, בסביבות שבהן כוח מחשוב או השהיה מוגבלים. הוא עבר כוונון עדין באמצעות נתונים סינתטיים שנוצרו על ידי מודל Deepseek-R1, ומאזן ביעילות יעילות עם יכולות הסקה מתקדמות. זה הופך אותו לאידיאלי עבור יישומים חינוכיים, מערכות שיעורים מוטבעות ופריסות קלות משקל במערכות קצה או ניידות. המודל אומן על למעלה ממיליון בעיות מתמטיות מגוונות, החל מרמת חטיבת הביניים ועד לרמת דוקטורט, מה שמבטיח את הרבגוניות והיעילות שלו במגוון רחב של הקשרים חינוכיים.
Phi בפעולה: הרחבת אופקים
האבולוציה של Phi במהלך השנה האחרונה דחפה בעקביות את גבולות האיכות ביחס לגודל, כאשר המשפחה התרחבה כדי לכלול תכונות חדשות המותאמות לצרכים מגוונים. ניתן להריץ מודלים אלה באופן מקומי הן על מעבדי CPU והן על מעבדי GPU במגוון מכשירי Windows 11, מה שמספק גמישות ונגישות למשתמשים עם תצורות חומרה שונות.
שילוב עם Copilot+ PCs: עידן חדש של מחשוב המופעל על ידי AI
מודלי Phi מהווים חלק בלתי נפרד מ-Copilot+ PCs, תוך מינוף גרסת Phi Silica המותאמת ל-NPU. גרסה יעילה ביותר זו של Phi, המנוהלת על ידי מערכת ההפעלה, נועדה להיטען מראש לזיכרון, ומציעה זמני תגובה מהירים ותפוקת טוקנים חסכונית באנרגיה. זה מאפשר להפעיל אותו במקביל ליישומים אחרים במחשב האישי, ומשפר את יכולות ריבוי המשימות ואת הביצועים הכוללים של המערכת.
יישומים בעולם האמיתי
מודלי Phi כבר נמצאים בשימוש בחוויות ליבה כגון Click to Do, המספקת כלי טקסט חכמים לכל התוכן שעל המסך. הם זמינים גם כממשקי API למפתחים לשילוב חלק ביישומים. המודלים נמצאים כעת בשימוש ביישומי פרודוקטיביות שונים כמו Outlook, שבהם הם מספקים תכונות סיכום לא מקוונות של Copilot. מודלי Phi-4-reasoning ו-Phi-4-mini-reasoning ממנפים אופטימיזציות בעלות מעטה נמוך (low-bit optimizations) עבור Phi Silica ובקרוב יהיו זמינים להפעלה ב-Copilot+ PC NPUs.
המחויבות של Microsoft ל-AI אחראי ובטיחות
במיקרוסופט, AI אחראי הוא עיקרון יסוד המנחה את הפיתוח והפריסה של מערכות AI, כולל מודלי Phi. מודלי Phi מפותחים בהתאם לעקרונות ה-AI של מיקרוסופט: אחריותיות, שקיפות, הוגנות, אמינות ובטיחות, פרטיות ואבטחה, והכללה. משפחת המודלים של Phi משתמשת בגישה חזקה לבטיחות לאחר אימון, תוך שימוש בשילוב של טכניקות כוונון עדין מפוקח (Supervised Fine-Tuning - SFT), אופטימיזציה של העדפה ישירה (Direct Preference Optimization - DPO) ולמידת חיזוק ממשוב אנושי (Reinforcement Learning from Human Feedback - RLHF) כדי להבטיח את השימוש האחראי והאתי שלהם.
הבסיס הטכני של מודלי Phi: בחינה מפורטת
מודלי Phi של מיקרוסופט מייצגים התקדמות משמעותית בתחום מודלי השפה הקטנים, במיוחד ביכולתם לבצע משימות הסקה מורכבות עם פרמטרים מועטים יחסית. סעיף זה מתעמק בפרטים הטכניים המאפשרים למודלים אלה להשיג ביצועים מרשימים כאלה.
חידושים ארכיטקטוניים
מודלי Phi מבוססים על ארכיטקטורת הטרנספורמציה (transformer architecture), מודל למידה עמוקה שחולל מהפכה בעיבוד שפה טבעית. טרנספורמציות מצטיינות בלכידת תלות ארוכת טווח בטקסט, ומאפשרות למודלים להבין את ההקשר והניואנסים של השפה.
מנגנון תשומת הלב (Attention Mechanism): הליבה של ארכיטקטורת הטרנספורמציה היא מנגנון תשומת הלב, המאפשר למודל להתמקד בחלקים הרלוונטיים ביותר של הקלט בעת יצירת פלט. זה חשוב במיוחד למשימות הסקה, שבהן המודל צריך לזהות את המידע והקשרים העיקריים כדי להגיע למסקנה נכונה.
תשומת לב של מכפלת נקודה מותאמת (Scaled Dot-Product Attention): מודלי Phi משתמשים בתשומת לב של מכפלת נקודה מותאמת, גרסה מעודנת של מנגנון תשומת הלב הכוללת גורם קנה מידה כדי למנוע ממכפלות הנקודה להיות גדולות מדי, מה שעלול להוביל לחוסר יציבות במהלך האימון.
תשומת לב מרובת ראשים (Multi-Head Attention): כדי ללכוד היבטים שונים של הקלט, מודלי Phi משתמשים בתשומת לב מרובת ראשים, שבה מנגנוני תשומת לב מרובים פועלים במקביל. כל ראש מתמקד בקבוצת משנה שונה של הקלט, ומאפשר למודל ללמוד ייצוגים מורכבים יותר.
רשתות הזנה קדמית (Feed-Forward Networks): לאחר שכבות תשומת הלב, ארכיטקטורת הטרנספורמציה כוללת רשתות הזנה קדמית המעבדות עוד יותר את המידע. רשתות אלה מורכבות ממספר שכבות של נוירונים הלומדים לחלץ תכונות מפלט תשומת הלב.
מתודולוגיות אימון: גישה רבת פנים
האימון של מודלי Phi כולל שילוב של טכניקות, כולל כוונון עדין מפוקח, למידת חיזוק וזיקוק נתונים.
כוונון עדין מפוקח (SFT): כוונון עדין מפוקח כולל אימון המודל על מערך נתונים מתויג, שבו הקלט הוא שאלה או בעיה, והפלט הוא התשובה או הפתרון הנכונים. זה עוזר למודל ללמוד לשייך קלטים ספציפיים לפלטים המתאימים.
למידת חיזוק (RL): למידת חיזוק היא טכניקה שבה המודל לומד לקבל החלטות על ידי אינטראקציה עם סביבה וקבלת תגמולים או עונשים על פעולותיו. בהקשר של מודלי שפה, הסביבה יכולה להיות קבוצה של כללים או אילוצים, והתגמול יכול להתבסס על הדיוק של תגובות המודל.
זיקוק נתונים (Data Distillation): זיקוק נתונים הוא טכניקה שבה מודל קטן יותר מאומן לחקות את ההתנהגות של מודל גדול ומורכב יותר. זה מאפשר למודל הקטן יותר להשיג ביצועים הדומים למודל הגדול יותר, תוך שהוא דורש פחות משאבים.
אוצרות נתונים: אבן הפינה של הביצועים
הביצועים של מודלי Phi תלויים במידה רבה באיכות הנתונים המשמשים לאימון. מיקרוסופט השקיעה מאמצים ניכרים באוצרות מערכי נתונים באיכות גבוהה שתוכננו במיוחד למשימות הסקה.
יצירת נתונים סינתטיים (Synthetic Data Generation): כדי להגדיל את הנתונים הזמינים, מיקרוסופט פיתחה טכניקות ליצירת נתונים סינתטיים המחקים את המאפיינים של נתונים מהעולם האמיתי. זה מאפשר לאמן את המודלים על מערך נתונים גדול ומגוון יותר, מה שמשפר את יכולת ההכללה שלהם.
סינון נתונים (Data Filtering): מיקרוסופט מעסיקה טכניקות סינון נתונים קפדניות כדי להסיר נתונים רועשים או לא רלוונטיים ממערך הנתונים המשמש לאימון. זה מבטיח שהמודלים מאומנים על נתונים נקיים ומדויקים, מה שמוביל לביצועים טובים יותר.
הגדלת נתונים (Data Augmentation): טכניקות הגדלת נתונים משמשות כדי להגדיל את המגוון של מערך הנתונים המשמש לאימון על ידי החלת טרנספורמציות על הנתונים הקיימים. זה עוזר למודלים להיות חסינים יותר לשינויים בקלט.
טכניקות אופטימיזציה: איזון בין יעילות לדיוק
מודלי Phi מותאמים הן ליעילות והן לדיוק, ומאפשרים להם לפעול במכשירים מוגבלי משאבים מבלי לוותר על ביצועים.
כימות (Quantization): כימות היא טכניקה שבה הדיוק של פרמטרי המודל מופחת, מה שמפחית את טביעת הזיכרון ואת דרישות החישוב של המודל.
גיזום (Pruning): גיזום היא טכניקה שבה מסירים חיבורים פחות חשובים במודל, מה שמפחית את הגודל והמורכבות של המודל.
זיקוק ידע (Knowledge Distillation): זיקוק ידע כולל העברת ידע ממודל גדול ומורכב יותר למודל קטן יותר. זה מאפשר למודל הקטן יותר להשיג ביצועים הדומים למודל הגדול יותר, תוך שהוא דורש פחות משאבים.
ה-Phi Silica NPU: גישה סינרגטית לחומרה ותוכנה
מודלי Phi של מיקרוסופט מתוכננים להיות משולבים באופן הדוק עם ה-Phi Silica NPU (יחידת עיבוד עצבית), מאיץ חומרה מיוחד המותאם לעומסי עבודה של למידה עמוקה.
אופטימיזציה בעלת מעטה נמוך (Low-Bit Optimization): ה-Phi Silica NPU תומך באופטימיזציה בעלת מעטה נמוך, המאפשרת למודלים לפעול עם דיוק מופחת, מה שמפחית עוד יותר את טביעת הזיכרון שלהם ואת דרישות החישוב.
טעינה מראש לזיכרון (Pre-Loading into Memory): מודלי Phi מתוכננים להיטען מראש לזיכרון, מה שמאפשר להפעיל אותם במהירות וביעילות.
ניהול מערכת הפעלה (Operating System Management): ה-Phi Silica NPU מנוהל על ידי מערכת ההפעלה, מה שמאפשר לשלב אותו בצורה חלקה בחוויית המשתמש.
לסיכום, מודלי Phi של מיקרוסופט מייצגים הישג משמעותי בתחום מודלי השפה הקטנים. על ידי שילוב של עיצובים אדריכליים חדשניים, מתודולוגיות אימון קפדניות, אוצרות נתונים זהיר ותכנון משותף לחומרה-תוכנה, מיקרוסופט יצרה משפחה של מודלים שהם גם חזקים ויעילים, המאפשרים מגוון רחב של יישומים המופעלים על ידי AI.