Mistral Medium 3: שאיפות אירופיות

נקודות עיקריות של Mistral Medium 3

חברת הסטארט-אפ הצרפתית Mistral AI פרסמה לאחרונה את המודל הרב-מודאלי העדכני ביותר שלה, Mistral Medium 3, אשר עורר עניין רב בתעשייה. Mistral טוענת כי ביצועי המודל הזה יכולים להשתוות ואף לעלות על 90% מביצועי Claude Sonnet 3.7, ובו בזמן העלות שלו נמוכה מ-DeepSeek V3, מה שהופך אותו לבחירה משתלמת. עם זאת, תוצאות הבדיקות בפועל מראות פער מסוים בין ההצהרות הרשמיות, מה שמעורר דיון בנוגע לאמיתות הביצועים של המודל.

Mistral פירטה בבלוג הרשמי שלה מספר נקודות עיקריות של Mistral Medium 3:

  • איזון בין ביצועים לעלות: Mistral Medium 3 נועד להשיג ביצועים מובילים תוך הפחתת העלות לשמינית מהעלות המקורית, וגם לפשט את תהליך הפריסה, ובכך להאיץ את יישומי הארגון.
  • ביצועים מצוינים בתרחישי יישום מקצועיים: המודל הזה מצטיין בתרחישי יישום מקצועיים כגון כתיבת קוד והבנה רב-מודאלית.
  • פונקציות ברמה ארגונית: Mistral Medium 3 מספק סדרה של פונקציות ברמה ארגונית, כולל תמיכה בפריסה בענן היברידי, פריסה מקומית ופריסה בתוך VPC, אימון מותאם אישית לאחר מכן, ושילוב בכלי ארגון ומערכות.

Mistral Medium 3 API זמין כעת ב-Mistral La Plateforme וב-Amazon Sagemaker, ובקרוב יושק ב-IBM WatsonX, NVIDIA NIM, Azure AI Foundry ו-Google Cloud Vertex.

פשרות בין ביצועים לעלות

אחד מנקודות המכירה העיקריות של Mistral Medium 3 הוא שהוא מספק ביצועים מתקדמים תוך הפחתת עלויות משמעותית. הנתונים הרשמיים מראים שבמבחני ביצועים שונים, הביצועים של Mistral Medium 3 מגיעים ואף עולים על 90% מביצועי Claude Sonnet 3.7, אך העלות מופחתת משמעותית (עלות קלט של 0.4 דולר למיליון טוקנים ועלות פלט של 2 דולר).

בנוסף, הביצועים של Mistral Medium 3 עולים גם על מודלים מובילים בקוד פתוח כגון Llama 4 Maverick ו-Cohere Command A. בין אם מדובר ב-API או בפריסה עצמאית, העלות של Mistral Medium 3 נמוכה מ-DeepSeek V3.

ניתן לפרוס את Mistral Medium 3 בכל ענן, כולל סביבות אירוח עצמי עם ארבעה GPU ומעלה, מה שמספק לארגונים גמישות רבה יותר.

המרדף אחר ביצועים מובילים

Mistral הצהירה כי המטרה של Mistral Medium 3 היא להפוך למודל עם ביצועים מובילים, במיוחד בתחום הקידוד ומשימות STEM, עם ביצועים הדומים לאלה של מתחרים גדולים ואיטיים יותר.

טבלה שסופקה על ידי Mistral מראה שהביצועים של Mistral Medium 3 כבר עולים במידה רבה על Llama 4 Maverick ו-GPT-4o, ומתקרבים לרמה של Claude Sonnet 3.7 ו-DeepSeek 3.1. עם זאת, נתונים אלה מגיעים בעיקר ממבחני ביצועים אקדמיים, וייתכן שלא ישקפו באופן מלא את ביצועי המודל ביישומים מעשיים.

תוספת של הערכה אנושית

כדי להעריך את הביצועים של Mistral Medium 3 בצורה מקיפה יותר, Mistral פרסמה גם תוצאות הערכה אנושית מצד שלישי. הערכה אנושית יכולה לייצג טוב יותר מקרי שימוש בעולם האמיתי, ויכולה לפצות על החסרונות של מבחני ביצועים אקדמיים.

מתוצאות ההערכה האנושית, Mistral Medium 3 מצטיין בתחום הקידוד, ומספק ביצועים טובים יותר מהמתחרים האחרים בכל ההיבטים. זה מצביע על כך של-Mistral Medium 3 עשוי להיות יתרון מסוים ביישומים מעשיים.

עיצוב המיועד ליישומים ברמה ארגונית

Mistral Medium 3 עדיף על מודלים אחרים מסוג SOTA ביכולתו להסתגל לסביבות ארגוניות. כאשר ארגונים מתמודדים עם בחירה קשה בין כוונון עדין באמצעות API או פריסה עצמית מאפס והתאמה אישית של התנהגות המודל, Mistral Medium 3 מספק דרך לשלב באופן מלא את האינטליגנציה במערכות ארגוניות.

כדי לענות עוד יותר על צורכי הארגון, Mistral השיקה גם את Le Chat Enterprise, שמופעל על ידי מודל Mistral Medium 3, שירות צ’אט בוט המיועד לארגונים. Le Chat Enterprise מספק כלי לבניית סוכני AI אינטליגנטיים, ומשלב את המודלים של Mistral עם שירותי צד שלישי כגון Gmail, Google Drive ו-SharePoint, שמטרתם לפתור אתגרי AI העומדים בפני ארגונים, כגון פיצול כלים, שילוב ידע לא מאובטח, מודלים נוקשים והחזר ROI איטי וכו’, ומספק פלטפורמת AI אחידה לכל עבודת הארגון.

Le Chat Enterprise יתמוך בקרוב בפרוטוקול MCP, שהוא תקן שהוצע על ידי Anthropic לחיבור AI למערכות נתונים ותוכנה.

תחזיות עתידיות של Mistral

Mistral חשפה בבלוג כי למרות ש-Mistral Small ו-Mistral Medium כבר פורסמו, בשבועות הקרובים יש להם תוכנית “גדולה”, כלומר Mistral Large. הם אמרו שהביצועים של Mistral Medium שפורסם זה עתה עולים בהרבה על מודלים מובילים בקוד פתוח כגון Llama 4 Maverick, והביצועים של Mistral Large צפויים עוד יותר.

השקת Mistral Large ללא ספק תשפר עוד יותר את התחרותיות של Mistral בתחום ה-AI, ותספק למשתמשים אפשרויות נוספות.

פער בבדיקות בפועל

למרות ש-Mistral בטוחה בביצועים של Mistral Medium 3, וטוענת שהוא עולה על 90% מביצועי Claude Sonnet 3.7, תוצאות הבדיקות בפועל חשפו כמה בעיות.

אמצעי התקשורת והמשתמשים ברשת ערכו במהירות בדיקות מעשיות של Mistral Medium 3, אך התוצאות היו מאכזבות. בהערכה המבוססת על שאלות סיווג אוצר מילים ממדור Connections של הניו יורק טיימס, Medium 3 היה בתחתית הרשימה, וכמעט לא ניתן היה למצוא אותו. בהערכה חדשה של 100 שאלות, הוא לא דורג בין המודלים המובילים.

משתמשים שבדקו את Medium 3 אמרו שיכולת הכתיבה שלו נשארה כשהייתה, ללא שיפור ניכר. עם זאת, בהערכות LLM, הוא אכן נמצא בחזית פרטו.

תוצאות הבדיקות של Zhu Liang מראות ש-Mistral Medium 3 הציג ביצועים מוצקים בכתיבת קוד וביצירת טקסט, והגיע לחמשת המקומות הראשונים בשתי ההערכות הללו.

במשימות קידוד פשוטות (יישום Next.js TODO):

  • הוא יצר תשובות תמציתיות וברורות
  • הציון היה דומה לזה של Gemini 2.5 Pro ו-Claude 3.5 Sonnet
  • נחות מ-DeepSeek V3 (חדש) ו-GPT-4.1

במשימות קידוד מורכבות (הדמיית מבחני ביצועים):

  • התוצאות הממוצעות שהופקו היו דומות לאלה של Gemini 2.5 Pro ו-DeepSeek V3 (חדש)
  • נחות מ-GPT-4.1, o3 ו-Claude 3.7 Sonnet

בכתיבה:

  • התוכן שלו כיסה את רוב הנקודות העיקריות, אך הפורמט היה שגוי
  • הציון היה קרוב לזה של DeepSeek V3 (חדש) ו-Claude 3.7 Sonnet
  • נחות מ-GPT-4.1 ו-Gemini 2.5 Pro

אחרי בדיקה מעשית של המאסטרו המפורסם “karminski-רופא שיניים”, הוא מצא שהביצועים של Mistral Medium 3 לא היו חזקים כפי שהפרסום הרשמי טען, ואף המליץ למשתמשים לא להוריד אותו, כדי לא לבזבז תעבורת נתונים ומקום בדיסק הקשיח.

מסקנה

Mistral Medium 3, כניסיון חדשני בתחום ה-AI באירופה, שואף לאזן בין ביצועים לעלות, ומבצע אופטימיזציה ליישומים ברמה ארגונית. עם זאת, תוצאות הבדיקות בפועל מראות פער מסוים בין ההצהרות הרשמיות, מה שמצביע על כך שייתכן ש-Mistral הגזימה בפרסום לגבי ביצועי המודל.

למרות זאת, ל-Mistral Medium 3 עדיין יש פוטנציאל מסוים, במיוחד בתחומים כגון קידוד ויצירת טקסט. בעתיד, Mistral צריכה לשפר עוד יותר את ביצועי המודל, ולחזק את בדיקות היישומים המעשיים, כדי לזכות באמון המשתמשים. במקביל, השקת Mistral Large גם ראויה לציפייה, ואולי תוכל לפצות על החסרונות של Mistral Medium 3, ולהביא למשתמשים חוויה טובה יותר.

לסיכום, השקת Mistral Medium 3 משקפת את החקירה והחדשנות הפעילה באירופה בתחום ה-AI. למרות שהביצועים בפועל שונים מהצפוי, עדיין כדאי לשים לב ל-Mistral, וההתפתחות העתידית שלו ראויה לציפייה.