מיקרוסופט רשמה פריצת דרך עם Phi-4, מודל שפה קטן בעל 14 מיליארד פרמטרים, המיועד לקידום ההנמקה המתמטית. המודל, ששוחרר לאחרונה ב-Hugging Face תחת רישיון MIT, מצטיין בהנמקה מתמטית בזכות מספר טכניקות חדשניות.
החידושים של Phi-4 כוללים אימון מוקדם ואמצעי באמצעות נתונים סינתטיים, ניהול קפדני של נתונים אורגניים, ושיטת אימון חדשה. טכניקות אלה מאפשרות ל-Phi-4 לעלות על מודלים אחרים, אפילו גדולים יותר, ביכולות שאלות ותשובות STEM, תוך שהן מוכיחות כי הטכנולוגיות של מיקרוסופט ליצירת נתונים ואימון אינן רק זיקוק ידע.
השימוש בנתונים סינתטיים מאפשר מודל למידה הדרגתי, מהצהרת הבעיה ועד לפתרון הסופי, ובכך הוא מתאים יותר לסביבת ההנמקה. בנוסף, מיקרוסופט השתמשה במיליוני שאלות ופתרונות מתמטיים איכותיים שנאספו ממקורות שונים, כולל מאמרים אקדמיים ופורומים חינוכיים.
בשלב האימון שלאחר מכן, Phi-4 הופך לעוזר AI אמין באמצעות כוונון עדין ושיטות אופטימיזציה של העדפות ישירות (DPO). שלב ה-DPO כולל טכניקה חדשה בשם “חיפוש אסימון מרכזי” ושימוש ב-GPT-4o כשופט.
ההערכה של Phi-4 באמצעות מסגרת SIMPLE-EVALS של OpenAI הראתה כי המודל עולה על Llama-3.1-405B במספר מדדים, כולל GPQA ו-MATH.
הנתונים ששימשו לאימון Phi-4 כללו נתונים סינתטיים שנוצרו באופן הדרגתי ונתונים אמיתיים שנאספו באופן מוקפד. נתונים סינתטיים שימשו כדי להנחות את המודל ללמוד שלב אחר שלב, ונתונים אמיתיים שימשו כדי להבטיח איכות ועקביות.
האימון שלאחר מכן התמקד בהתאמת המודל למשימות שונות, כולל מתמטיקה, קידוד, הנמקה ודיאלוג. שלב ה-DPO נועד ליישר את התנהגות המודל עם העדפות אנושיות.
הביצועים של Phi-4 נבדקו באמצעות מסגרת SIMPLE-EVALS של OpenAI, והראו כי המודל מצטיין בביצועי הנמקה מתמטית, תוך שהוא עולה על מודלים אחרים, כולל מודל המורה שלו, GPT-4o.
לסיכום, Phi-4 של מיקרוסופט מייצג צעד משמעותי קדימה עבור מודלי שפה קטנים בתחום ההנמקה המתמטית, עם פוטנציאל ליישומים רבים בתחומים שונים, כולל חינוך, מחקר, הנדסה ופיננסים.