מיקרוסופט חושפת את Phi-4: עוצמה קומפקטית ל-AI במכשיר

משפחת Phi מתרחבת: הצגת יכולות מולטימודאליות

תרומתה של מיקרוסופט לתחום המתפתח הזה של SLMs היא משפחת Phi, חבילה של מודלים קומפקטיים. הדור הרביעי של Phi הוצג בתחילה בדצמבר, וכעת, מיקרוסופט מרחיבה את השורה עם שתי תוספות משמעותיות: Phi-4-multimodal ו-Phi-4-mini. בהתאם לאחיהם, מודלים חדשים אלה יהיו זמינים בקלות דרך Azure AI Foundry, Hugging Face וקטלוג ה-API של Nvidia, כולם תחת רישיון MIT המתירני.

Phi-4-multimodal, במיוחד, בולט. זהו מודל של 5.6 מיליארד פרמטרים הממנף טכניקה מתוחכמת הנקראת ‘mixture-of-LoRAs’ (Low-Rank Adaptations). גישה זו מאפשרת למודל לעבד דיבור, קלט חזותי ונתונים טקסטואליים בו-זמנית. LoRAs מייצגות שיטה חדשה להגברת הביצועים של מודל שפה גדול במשימות ספציפיות, תוך עקיפת הצורך בכוונון עדין נרחב על פני כל הפרמטרים שלו. במקום זאת, מפתחים המשתמשים ב-LoRA מכניסים באופן אסטרטגי מספר קטן יותר של משקלים חדשים למודל. רק משקלים חדשים אלה שהוכנסו עוברים אימון, וכתוצאה מכך תהליך מהיר ויעיל יותר מבחינת זיכרון. התוצאה היא אוסף של מודלים קלים יותר שקל הרבה יותר לאחסן, לשתף ולפרוס.

ההשלכות של יעילות זו הן משמעותיות. Phi-4-multimodal משיג הסקה בזמן אחזור נמוך – כלומר הוא יכול לעבד מידע ולספק תגובות מהר מאוד – תוך שהוא מותאם לביצוע במכשיר. זה מתורגם להפחתה דרמטית בתקורה החישובית, מה שהופך את זה לאפשרי להריץ יישומי AI מתוחכמים על מכשירים שבעבר חסרו את כוח העיבוד הדרוש.

מקרי שימוש פוטנציאליים: מסמארטפונים ועד שירותים פיננסיים

היישומים הפוטנציאליים של Phi-4-multimodal מגוונים ומרחיקי לכת. דמיינו את המודל פועל בצורה חלקה בסמארטפונים, מפעיל תכונות מתקדמות בתוך כלי רכב, או מניע יישומים ארגוניים קלים. דוגמה משכנעת היא יישום שירותים פיננסיים רב-לשוני, המסוגל להבין ולהגיב לשאילתות משתמשים בשפות שונות, לעבד נתונים חזותיים כגון מסמכים, והכל תוך כדי פעולה יעילה במכשיר של המשתמש.

אנליסטים בתעשייה מכירים בפוטנציאל הטרנספורמטיבי של Phi-4-multimodal. זה נתפס כצעד משמעותי קדימה עבור מפתחים, במיוחד אלה המתמקדים ביצירת יישומים מונעי AI עבור מכשירים ניידים או סביבות שבהן משאבי מחשוב מוגבלים.

צ’רלי דאי, סגן נשיא ואנליסט ראשי בפורסטר, מדגיש את יכולתו של המודל לשלב עיבוד טקסט, תמונה ואודיו עם יכולות חשיבה חזקות. הוא מדגיש ששילוב זה משפר יישומי AI, ומספק למפתחים ולארגונים “פתרונות רב-תכליתיים, יעילים וניתנים להרחבה”.

יובל ג’ושי, שותף ב-Everest Group, מכיר בהתאמתו של המודל לפריסה בסביבות מוגבלות מחשוב. בעוד שהוא מציין שמכשירים ניידים אולי אינם הפלטפורמה האידיאלית עבור כל מקרי השימוש ב-AI גנרטיבי, הוא רואה את ה-SLMs החדשים כהשתקפות של מיקרוסופט השואבת השראה מ-DeepSeek, יוזמה נוספת המתמקדת במזעור ההסתמכות על תשתית מחשוב בקנה מידה גדול.

ביצועי Benchmarking: חוזקות ותחומים לצמיחה

כשמדובר בביצועי benchmarking, Phi-4-multimodal מציג פער ביצועים בהשוואה למודלים כמו Gemini-2.0-Flash ו-GPT-4o-realtime-preview, במיוחד במשימות של מענה על שאלות דיבור (QA). מיקרוסופט מודה שהגודל הקטן יותר של מודלי Phi-4 מגביל מטבעו את יכולתם לשמור ידע עובדתי לצורך מענה על שאלות. עם זאת, החברה מדגישה מאמצים מתמשכים לשפר יכולת זו באיטרציות עתידיות של המודל.

למרות זאת, Phi-4-multimodal מדגים חוזקות מרשימות בתחומים אחרים. יש לציין שהוא עולה בביצועיו על מספר LLMs פופולריים, כולל Gemini-2.0-Flash Lite ו-Claude-3.5-Sonnet, במשימות הכוללות חשיבה מתמטית ומדעית, זיהוי תווים אופטי (OCR) וחשיבה מדעית חזותית. אלו הן יכולות מכריעות עבור מגוון רחב של יישומים, מתוכנות חינוכיות ועד כלי מחקר מדעיים.

Phi-4-mini: גודל קומפקטי, ביצועים מרשימים

לצד Phi-4-multimodal, מיקרוסופט הציגה גם את Phi-4-mini. מודל זה קומפקטי עוד יותר, ומתהדר ב-3.8 מיליארד פרמטרים. הוא מבוסס על ארכיטקטורת טרנספורמר מפענח בלבד צפופה ותומך ברצפים של עד 128,000 טוקנים מרשימים.

וייז’ו צ’ן, סמנכ”ל AI גנרטיבי במיקרוסופט, מדגיש את הביצועים המדהימים של Phi-4-mini למרות גודלו הקטן. בפוסט בבלוג המפרט את המודלים החדשים, הוא מציין ש-Phi-4-mini “ממשיך לעלות בביצועיו על מודלים גדולים יותר במשימות מבוססות טקסט, כולל חשיבה, מתמטיקה, קידוד, מעקב אחר הוראות וקריאה לפונקציות”. זה מדגיש את הפוטנציאל של מודלים קטנים עוד יותר לספק ערך משמעותי בתחומי יישומים ספציפיים.

עדכוני Granite של IBM: שיפור יכולות החשיבה

ההתקדמות ב-SLMs אינה מוגבלת למיקרוסופט. IBM פרסמה גם עדכון למשפחת מודלי הבסיס שלה Granite, והציגה את מודלי Granite 3.2 2B ו-8B. מודלים חדשים אלה כוללים יכולות “שרשרת מחשבה” משופרות, היבט מכריע בשיפור יכולות החשיבה. שיפור זה מאפשר למודלים להשיג ביצועים מעולים בהשוואה לקודמיהם.

יתר על כן, IBM חשפה מודל שפת חזון (VLM) חדש שתוכנן במיוחד עבור משימות של הבנת מסמכים. VLM זה מדגים ביצועים שמתאימים או עולים על אלה של מודלים גדולים משמעותית, כגון Llama 3.2 11B ו-Pixtral 12B, במדדים כמו DocVQA, ChartQA, AI2D ו-OCRBench1. זה מדגיש את המגמה הגוברת של מודלים קטנים ומתמחים המספקים ביצועים תחרותיים בתחומים ספציפיים.

עתיד ה-AI במכשיר: שינוי פרדיגמה

ההשקה של Phi-4-multimodal ו-Phi-4-mini, יחד עם עדכוני Granite של IBM, מייצגת צעד משמעותי לקראת עתיד שבו יכולות AI רבות עוצמה זמינות בקלות במגוון רחב של מכשירים. לשינוי זה יש השלכות עמוקות על תעשיות ויישומים שונים:

  • דמוקרטיזציה של AI: מודלים קטנים ויעילים יותר הופכים את ה-AI לנגיש למגוון רחב יותר של מפתחים ומשתמשים, לא רק לאלה עם גישה למשאבי מחשוב עצומים.
  • פרטיות ואבטחה משופרות: עיבוד במכשיר מפחית את הצורך לשדר נתונים רגישים לענן, ומשפר את הפרטיות והאבטחה.
  • היענות וזמן אחזור משופרים: עיבוד מקומי מבטל את העיכובים הקשורים ל-AI מבוסס ענן, מה שמוביל לזמני תגובה מהירים יותר ולחוויית משתמש חלקה יותר.
  • פונקציונליות לא מקוונת: AI במכשיר יכול לפעול גם ללא חיבור לאינטרנט, ופותח אפשרויות חדשות ליישומים בסביבות מרוחקות או בעלות קישוריות נמוכה.
  • צריכת אנרגיה מופחתת: מודלים קטנים יותר דורשים פחות אנרגיה כדי לפעול, ותורמים לחיי סוללה ארוכים יותר עבור מכשירים ניידים ולהשפעה סביבתית מופחתת.
  • יישומי מחשוב קצה: זה כולל מגזרים כמו נהיגה אוטונומית, ייצור חכם ושירותי בריאות מרחוק.

ההתקדמות ב-SLMs מניעה שינוי פרדיגמה בנוף ה-AI. בעוד שמודלי שפה גדולים ממשיכים למלא תפקיד חיוני, עלייתם של מודלים קומפקטיים ויעילים כמו אלה במשפחת Phi סוללת את הדרך לעתיד שבו AI נפוץ יותר, נגיש ומשולב בחיי היומיום שלנו. המיקוד עובר מגודל עצום ליעילות, התמחות והיכולת לספק יכולות AI רבות עוצמה ישירות במכשירים שבהם אנו משתמשים מדי יום. מגמה זו צפויה להאיץ, ולהוביל ליישומים חדשניים עוד יותר ולאימוץ רחב יותר של AI במגזרים שונים. היכולת לבצע משימות מורכבות, כמו הבנת קלטים מולטימודאליים, במכשירים מוגבלים במשאבים פותחת פרק חדש באבולוציה של בינה מלאכותית.
המרוץ ליצירת SLM אינטליגנטי ומסוגל יותר ויותר בעיצומו, וההצעה החדשה של מיקרוסופט היא צעד גדול קדימה.