מיסטרל מדיום 3: אתגר הבינה המלאכותית

חברת הסטארט-אפ הצרפתית מיסטרל AI פרסמה לאחרונה את המודל הרב-מודאלי העדכני ביותר שלה, Mistral Medium 3, בטענה שביצועיו משתווים לביצועי Claude Sonnet 3.7 החזק, ובעלות נמוכה יותר מ-DeepSeek V3. הידיעה הזו עוררה מיד תשומת לב רחבה בעולם הטכנולוגיה. עם זאת, לאחר בדיקות בפועל של משתמשים, התגלה כי קיים פער גדול בין ביצועי המודל לבין הפרסומים הרשמיים, ואף היו שהמליצו למשתמשים לא לבזבז זמן ומשאבים על הורדתו.

הפרסום הרשמי של Mistral Medium 3

מיסטרל AI הדגישה בבלוג הרשמי שלה מספר נקודות עיקריות ב-Mistral Medium 3:

  • איזון בין ביצועים לעלות: Mistral Medium 3 נועד לספק ביצועים מובילים תוך הפחתת העלות לשמינית מהעלות המקורית, ובכך להאיץ את יישומי הארגון.
  • יתרונות בתרחישי יישום מקצועיים: מודל זה מצטיין בתחומים מקצועיים כמו כתיבת קוד והבנה רב-מודאלית.
  • פונקציות ארגוניות: Mistral Medium 3 מספק סדרה של פונקציות ארגוניות, כולל תמיכה בפריסה בענן היברידי, פריסה מקומית ופריסה בתוך VPC, כמו גם הדרכה לאחר התאמה אישית ושילוב בכלי וארגון.

Mistral Medium 3 API כבר הושק ב-Mistral La Plateforme וב-Amazon Sagemaker, והוא צפוי לנחות בקרוב ב-IBM WatsonX, NVIDIA NIM, Azure AI Foundry וב-Google Cloud Vertex.

השוואת מדדי ביצועים

מיסטרל AI טענה כי בבדיקות ביצועים שונות, ביצועי Mistral Medium 3 הגיעו ואף עלו על 90% מביצועי Claude Sonnet 3.7, אך העלות פחתה באופן משמעותי. באופן ספציפי, עלות הקלט של Mistral Medium 3 היא 0.4 דולר למיליון טוקנים, ועלות הפלט היא 2 דולר.

בנוסף, ביצועי Mistral Medium 3 עולים על פי הדיווחים על מודלים מובילים בקוד פתוח כגון Llama 4 Maverick ו-Cohere Command A. בין אם באמצעות API או פריסה אוטונומית, העלות של Mistral Medium 3 נמוכה מ-DeepSeek V3. ניתן לפרוס מודל זה בכל ענן, כולל סביבות אירוח עצמי של ארבעה GPU ומעלה.

התמקדות ביישומים ארגוניים

מיסטרל AI הדגישה כי המטרה של Mistral Medium 3 היא להפוך למודל עם ביצועים מובילים, במיוחד בקידוד ובמשימות STEM, עם ביצועים קרובים לאלו של מתחרים גדולים יותר ואיטיים יותר.

הנתונים שפורסמו רשמית מראים שביצועי Mistral Medium 3 חורגים בעצם מביצועי Llama 4 Maverick ו-GPT-4o, ומתקרבים לרמות של Claude Sonnet 3.7 ו-DeepSeek 3.1.

כדי לאמת עוד יותר את ביצועי המודל, מיסטרל AI פרסמה גם את תוצאות ההערכה הידנית של צד שלישי, הערכות אלה מייצגות טוב יותר מקרי שימוש בעולם האמיתי. התוצאות הראו ש-Mistral Medium 3 הצטיין בתחום הקידוד, וסיפק ביצועים טובים יותר מהמתחרים האחרים בכל ההיבטים.

היכולת של Mistral Medium 3 להסתגל לסביבות ארגוניות טובה גם היא ממודלי SOTA אחרים. הוא מספק לארגונים דרך לשלב באופן מלא אינטליגנציה במערכות ארגוניות, ופותר את הבעיות של ארגונים בהתאמה עדינה של API והתאמה אישית של מודלים.

Le Chat Enterprise

מיסטרל AI השיקה גם את Le Chat Enterprise, שמופעל על ידי מודל Mistral Medium 3, שירות צ’אטבוטים המיועד לארגונים. הוא מספק כלי לבניית סוכני AI חכמים ומשלב את המודלים של Mistral עם שירותי צד שלישי כגון Gmail, Google Drive ו-SharePoint.

Le Chat Enterprise נועד לפתור את אתגרי הבינה המלאכותית העומדים בפני ארגונים, כגון פיצול כלים, שילוב ידע לא מאובטח, מודלים נוקשים ותשואה איטית על ההשקעה וכו’, ומספק פלטפורמת AI מאוחדת לכל עבודת הארגון.

Le Chat Enterprise יתמוך בקרוב בפרוטוקול MCP, שהוא תקן המוצע על ידי Anthropic לחיבור AI למערכות נתונים ותוכנה.

תחזיות עבור Mistral Large

מיסטרל AI חשפה גם בבלוג שאמנם Mistral Small ו-Mistral Medium כבר פורסמו, אך בשבועות הקרובים יש להם תוכנית “גדולה”, כלומר Mistral Large. הם אמרו שהביצועים של Mistral Medium שפורסם זה עתה עולים בהרבה על מודלים מובילים בקוד פתוח כגון Llama 4 Maverick, והביצועים של Mistral Large שווים יותר לציפייה.

המצב האמיתי של בדיקות משתמשים בפועל

עם זאת, לאחר שמיסטרל AI פרסמה רבות את הביצועים החזקים של Mistral Medium 3, כלי תקשורת ומשתמשים ביצעו במהירות בדיקות בפועל, והתוצאות היו מאכזבות ביותר.

נפילה בבדיקות ביצועים

בביקורת המבוססת על שאלות סיווג אוצר המילים של מדור Connections של ה”ניו יורק טיימס”, הביצועים של Mistral Medium 3 היו מאכזבים, וכמעט לא ניתן היה למצוא אותו. בביקורת חדשה של 100 שאלות, הוא לא נמצא בין המודלים המובילים בשורה הראשונה.

חלק מהמשתמשים אמרו לאחר בדיקות שאין שיפור ניכר ביכולת הכתיבה של Mistral Medium 3. עם זאת, בביקורת LLM, הוא נמצא בחזית פרטו.

בדיקות של Zhu Liang מצאו ש-Mistral Medium 3 מפגין ביצועים יציבים הן בכתיבת קוד והן ביצירת טקסט, והוא דורג בין חמשת הראשונים בשתי הביקורות.

ביצועי משימת קידוד

במשימת קידוד פשוטה (אפליקציית Next.js TODO), Mistral Medium 3 יצר תגובות תמציתיות וברורות, הניקוד היה דומה לזה של Gemini 2.5 Pro ו-Claude 3.5 Sonnet, אך נמוך מזה של DeepSeek V3 (חדש) ו-GPT-4.1.

במשימת קידוד מורכבת (הדמיית בדיקת ביצועים), התוצאות הממוצעות שהפיק Mistral Medium 3 היו דומות לאלו של Gemini 2.5 Pro ו-DeepSeek V3 (חדש), אך נמוכות מזה של GPT-4.1, o3 ו-Claude 3.7 Sonnet.

הערכת יכולת כתיבה

מבחינת כתיבה, Mistral Medium 3 כיסה את רוב הנקודות העיקריות, אך הפורמט היה שגוי, והניקוד היה דומה לזה של DeepSeek V3 (חדש) ו-Claude 3.7 Sonnet, ונמוך מזה של GPT-4.1 ו-Gemini 2.5 Pro.

הדמות המוכרת “karminski-牙医” הצהירה גם היא לאחר בדיקות בפועל שביצועי Mistral Medium 3 אינם חזקים כפי שהפרסום הרשמי טען, והמליצה למשתמשים לא להוריד אותו כדי להימנע מבזבוז תעבורה ושטח דיסק.

השוואה והרהורים

המקרה של Mistral Medium 3 מזכיר לנו שוב שבהערכת ביצועי מודלי AI, אסור לנו להסתמך רק על פרסומים רשמיים ותוצאות בדיקות ביצועים, אלא עלינו לתת חשיבות רבה יותר לניסיון המעשי של המשתמשים ולהערכות של צד שלישי.

פרסומים רשמיים בוחרים לעתים קרובות להציג באופן סלקטיבי את היתרונות של המודל, תוך התעלמות מחסרונותיו. למרות שבדיקות ביצועים יכולות לספק ערך ייחוס מסוים, הן לא יכולות לשקף באופן מלא את הביצועים של המודל בעולם האמיתי. ניסיון מעשי של משתמשים והערכות של צד שלישי הם אובייקטיביים ומקיפים יותר, ויכולים לעזור לנו להבין בצורה מדויקת יותר את היתרונות והחסרונות של המודל.

בנוסף, ביצועי מודלי AI מושפעים גם ממגוון גורמים, כולל נתוני הדרכה, ארכיטקטורת מודל, אלגוריתמי אופטימיזציה וכו’. מודלים שונים עשויים להפגין יתרונות וחסרונות שונים במשימות שונות. לכן, בבחירת מודלי AI, יש צורך בשיקול מקיף בהתאם לתסריטי יישום וצרכים ספציפיים.

הניגוד העצום בין ההשקה של Mistral Medium 3 ותוצאות בדיקות המשתמשים בפועל, עורר גם דיון על סטנדרטים להערכת מודלי AI. כיצד להקים מערכת הערכת מודלי AI מדעית, אובייקטיבית ומקיפה יותר הוא נושא שראוי לחקור לעומק.

השפעה על התעשייה

לאירוע של Mistral Medium 3 הייתה גם השפעה מסוימת על כל תעשיית ה-AI. מצד אחד, הוא מזכיר לחברות AI לתת יותר תשומת לב לחוויית המשתמש, ולהימנע מפרסום יתר ופרסום שקרי. מצד שני, הוא גם מדרבן אנשי מקצוע בתחום ה-AI לשים לב יותר לניסוח ושיפור של סטנדרטים להערכת מודלי AI.

בעתיד, עם ההתפתחות המתמשכת של טכנולוגיית ה-AI, הביצועים של מודלי AI ישתפרו ללא הרף, ותסריטי היישום יתרחבו גם הם ללא הרף. עלינו להתייחס לטכנולוגיית ה-AI בגישה רציונלית ואובייקטיבית יותר, לא רק לראות את הפוטנציאל העצום שלה, אלא גם להכיר במגבלותיה. רק כך נוכל להשתמש טוב יותר בטכנולוגיית ה-AI כדי ליצור ערך עבור החברה האנושית.

לסיכום, המקרה של Mistral Medium 3 הוא אזהרה, שמזכירה לנו לשמור על חשיבה ביקורתית בהערכת מודלי AI, לא להאמין באופן עיוור לפרסומים רשמיים, אלא לשלב ניסיון מעשי והערכות של צד שלישי כדי לקבל שיפוט רציונלי.