האם xAI שיקרה במדדי גרוק 3

מבט מקרוב על המחלוקת

לאחרונה, עובד ב-OpenAI הטיח האשמה ב-xAI, המיזם של אילון מאסק בתחום הבינה המלאכותית. הטענה? ש-xAI הציגה תוצאות מטעות של מדדי ביצועים עבור מודל הבינה המלאכותית העדכני ביותר שלה, Grok 3. זה הצית ויכוח, כאשר אחד ממייסדי xAI, איגור בבושקין, הגן בתוקף על עמדת החברה.

המציאות של המצב, כפי שקורה לעתים קרובות, נמצאת באמצע הדרך, מורכבת יותר.

בפוסט בבלוג, xAI הציגה גרף המתאר את הביצועים של Grok 3 ב-AIME 2025. זוהי קבוצה של בעיות מתמטיות תובעניות שמקורן בבחינת מתמטיקה עדכנית. בעוד שמומחים מסוימים הטילו ספק בתוקפו של AIME כמדד ביצועים סופי של בינה מלאכותית, הוא, יחד עם גרסאות ישנות יותר של המבחן, נותר כלי נפוץ להערכת היכולת המתמטית של מודל.

פענוח הגרף של xAI

הגרף שהוצג על ידי xAI הציג שתי גרסאות של Grok 3 – Grok 3 Reasoning Beta ו-Grok 3 mini Reasoning – שלכאורה עולות בביצועיהן על המודל הזמין בעל הביצועים הטובים ביותר של OpenAI, o3-mini-high, ב-AIME 2025. עם זאת, עובדי OpenAI הגיבו במהירות ברשתות החברתיות, וציינו השמטה בולטת: הגרף של xAI לא כלל את הציון של o3-mini-high ב-AIME 2025 ב-“cons@64”.

מה זה בדיוק “cons@64”? זהו קיצור של “consensus@64”, שיטה שלמעשה נותנת למודל 64 ניסיונות לפתור כל בעיה במדד הביצועים. התשובות שנוצרות בתדירות הגבוהה ביותר נבחרות לאחר מכן כתשובות הסופיות. כפי שניתן לצפות, cons@64 לעתים קרובות משפר משמעותית את ציוני הביצועים של מודל. השמטת נתון זה מגרף השוואה עלולה ליצור אשליה שמודל אחד עולה על אחר, כאשר, למעשה, זה לא בהכרח המצב.

הטענה “הבינה המלאכותית החכמה בעולם”

כאשר בוחנים את הציונים של AIME 2025 ב-“@1” – המציין את הציון הראשון שהמודלים השיגו במדד הביצועים – גם Grok 3 Reasoning Beta וגם Grok 3 mini Reasoning נופלים מהציון של o3-mini-high. יתרה מכך, Grok 3 Reasoning Beta מפגר רק במעט אחרי מודל o1 של OpenAI שהוגדר לחישוב “בינוני”. למרות תוצאות אלו, xAI מקדמת באופן פעיל את Grok 3 כ”בינה המלאכותית החכמה בעולם”.

בבושקין, בפוסט ברשתות החברתיות, טען כי OpenAI פרסמה בעבר טבלאות מדדי ביצועים מטעות באופן דומה. עם זאת, טבלאות אלו שימשו להשוואת הביצועים של המודלים של OpenAI עצמה. משקיף אובייקטיבי יותר בדיון יצר גרף “מדויק” יותר, המציג את הביצועים של כמעט כל מודל ב-cons@64.

המדד החסר: עלות חישובית

החוקר בתחום הבינה המלאכותית, נתן למברט, הדגיש נקודה קריטית: המדד החשוב ביותר נותר אפוף מסתורין. זוהי העלות החישובית (והכספית) שנגרמה על ידי כל מודל כדי להשיג את הציון הטוב ביותר שלו. זה מדגיש בעיה בסיסית ברוב מדדי הביצועים של בינה מלאכותית – הם חושפים מעט מאוד על מגבלותיו של מודל, או לצורך העניין, על חוזקותיו.

הוויכוח על מדדי הביצועים של Grok 3 מדגיש סוגיה רחבה יותר בקהילת הבינה המלאכותית: הצורך בשקיפות רבה יותר ובסטנדרטיזציה באופן שבו מודלים של בינה מלאכותית מוערכים ומושווים.

העמקה במדדי ביצועים של בינה מלאכותית

המחלוקת סביב הצגת הביצועים של Grok 3 על ידי xAI מעלה מספר שאלות חשובות לגבי עצם טבעם של מדדי ביצועים של בינה מלאכותית. מהו מדד ביצועים טוב? כיצד יש להציג תוצאות כדי למנוע פרשנויות שגויות? ומהן המגבלות של הסתמכות אך ורק על ציוני מדדי ביצועים כדי להעריך את היכולות של מודלים של בינה מלאכותית?

מטרת מדדי הביצועים:

מדדי ביצועים, בתיאוריה, משמשים כדרך סטנדרטית למדוד ולהשוות את הביצועים של מודלים שונים של בינה מלאכותית במשימות ספציפיות. הם מספקים אמת מידה משותפת, המאפשרת לחוקרים ולמפתחים לעקוב אחר התקדמות, לזהות חוזקות וחולשות, ובסופו של דבר להניע חדשנות. עם זאת, האפקטיביות של מדד ביצועים תלויה במספר גורמים:

  • רלוונטיות: האם מדד הביצועים משקף במדויק משימות ואתגרים בעולם האמיתי?
  • מקיפות: האם מדד הביצועים מכסה מגוון רחב של יכולות הרלוונטיות לשימוש המיועד של מודל הבינה המלאכותית?
  • אובייקטיביות: האם מדד הביצועים מתוכנן ומנוהל באופן שממזער הטיה ומבטיח השוואה הוגנת?
  • יכולת שחזור: האם ניתן לשחזר באופן עקבי את תוצאות מדד הביצועים על ידי חוקרים עצמאיים?

האתגרים של מדדי ביצועים של בינה מלאכותית:

למרות מטרתם המיועדת, מדדי ביצועים של בינה מלאכותית רצופים לעתים קרובות באתגרים:

  • התאמת יתר: ניתן לאמן מודלים באופן ספציפי להצטיין במדדי ביצועים מסוימים, מבלי בהכרח לרכוש אינטליגנציה אמיתית או יכולות הניתנות להכללה. תופעה זו, המכונה “התאמת יתר”, עלולה להוביל לציונים מנופחים שאינם משקפים ביצועים בעולם האמיתי.
  • היעדר סטנדרטיזציה: ריבוי מדדי ביצועים שונים, שלכל אחד מהם מתודולוגיה ומערכת ניקוד משלו, מקשה על השוואת תוצאות בין מודלים ומעבדות מחקר.
  • משחק במערכת: כפי שממחישה המחלוקת עם xAI, יש פיתוי לחברות להציג באופן סלקטיבי תוצאות של מדדי ביצועים באופן שמטובב את המודלים שלהן, מה שעלול להטעות את הציבור ולפגוע בהערכה אובייקטיבית.
  • היקף מוגבל: מדדי ביצועים מתמקדים לעתים קרובות במשימות צרות ומוגדרות היטב, ואינם מצליחים לתפוס את המורכבות והניואנסים המלאים של האינטליגנציה האנושית. הם עשויים שלא להעריך כראוי היבטים כמו יצירתיות, חשיבה הגיונית או הסתגלות למצבים חדשים.

הצורך בשקיפות ובהערכה הוליסטית

תקרית Grok 3 מדגישה את הצורך הקריטי בשקיפות רבה יותר ובגישה הוליסטית יותר להערכת מודלים של בינה מלאכותית. הסתמכות פשוטה על ציון מדד ביצועים יחיד, במיוחד כזה המוצג ללא הקשר מלא, עלולה להיות מטעה ביותר.

מעבר למדדי ביצועים:

בעוד שמדדי ביצועים יכולים להיות כלי שימושי, הם לא צריכים להיות הגורם היחיד הקובע את היכולות של מודל בינה מלאכותית. הערכה מקיפה יותר צריכה לשקול:

  • ביצועים בעולם האמיתי: כיצד המודל מתפקד ביישומים ובתרחישים מעשיים?
  • ניתוח איכותני: הערכה מומחית של התפוקות של המודל, תוך הערכת גורמים כמו קוהרנטיות, יצירתיות ויכולת חשיבה.
  • שיקולים אתיים: האם המודל מציג הטיות או מייצר תוכן מזיק?
  • יכולת הסבר: האם ניתן להבין ולפרש את תהליך קבלת ההחלטות של המודל?
  • חוסן: עד כמה המודל מתמודד עם קלטים רועשים או בלתי צפויים?

קידום שקיפות:

מעבדות בינה מלאכותית צריכות לשאוף לשקיפות רבה יותר בפרקטיקות מדדי הביצועים שלהן. זה כולל:

  • הגדרה ברורה של מתודולוגיה: מתן מידע מפורט על הגדרת מדד הביצועים, כולל מערך הנתונים הספציפי שבו נעשה שימוש, מדדי ההערכה וכל שלבי העיבוד המקדים.
  • דיווח על תוצאות מלאות: הצגת כל הציונים הרלוונטיים, כולל אלה שהושגו באמצעות תצורות או שיטות שונות (כמו cons@64).
  • חשיפת עלות חישובית: חשיפת המשאבים החישוביים הנדרשים להשגת התוצאות המדווחות.
  • קוד פתוח למדדי ביצועים: הפיכת מערכי נתונים של מדדי ביצועים וכלי הערכה לזמינים לציבור כדי לאפשר אימות והשוואה עצמאיים.

המרדף אחר בינה מלאכותית הוא תחום מורכב ומתפתח במהירות. מדדי ביצועים, למרות שהם אינם מושלמים, ממלאים תפקיד במדידת ההתקדמות. עם זאת, חיוני להכיר במגבלותיהם ולשאוף לגישה מגוונת ושקופה יותר להערכת מודלים של בינה מלאכותית. המטרה הסופית צריכה להיות פיתוח מערכות בינה מלאכותית שהן לא רק חזקות אלא גם אמינות, אתיות ומועילות לחברה. המיקוד חייב לעבור ממרדף פשוט אחר ציוני מדדי ביצועים גבוהים יותר לבניית בינה מלאכותית שמבינה באמת ומתקשרת עם העולם בצורה משמעותית.