מחשבה מחודשת על מדדי בינה מלאכותית

המרדף אחר בינה מלאכותית (AI) מעולה מונע לעתים קרובות על ידי ציוני ביצועים, אך האם ציונים אלה באמת מעידים על יכולות בעולם האמיתי? קהילת הבינה המלאכותית נאבקת בשאלה זו כאשר מדדי ביצועים מסורתיים עומדים בפני ביקורת גוברת.

SWE-Bench, שהוצג בנובמבר 2024, צבר במהירות תאוצה ככלי פופולרי להערכת יכולת הקידוד של מודל בינה מלאכותית. הוא ממנף למעלה מ-2,000 אתגרי תכנות אותנטיים שחולצו ממאגרי GitHub ציבוריים על פני תריסר פרויקטים מבוססי Python. ציון SWE-Bench חזק הפך לתג נחשק, המוצג באופן בולט במהדורות מודלים מרכזיות ממפתחי AI מובילים כגון OpenAI, Anthropic ו-Google. מעבר לענקיות אלו, חברות AI המתמחות בכוונון עדין מתחרות כל הזמן על עליונות בטבלת המובילות של SWE-Bench.

עם זאת, ההתלהבות סביב מדדי ביצועים אלה עלולה להטעות. ג’ון יאנג, חוקר מאוניברסיטת פרינסטון המעורב בפיתוח SWE-Bench, מציין כי התחרות העזה על המקום הראשון הובילה ל"גיימינג" של המערכת. זה מעלה חששות לגבי האם מדדי ביצועים אלה משקפים במדויק הישגי AI אמיתיים.

הבעיה היא לא בהכרח רמאות גלויה, אלא פיתוח אסטרטגיות המותאמות במיוחד לניצול מגבלות מדד הביצועים. לדוגמה, SWE-Bench הראשוני התמקד אך ורק בקוד Python, ודחף מפתחים לאמן את המודלים שלהם באופן בלעדי על Python. יאנג ציין כי מודלים בעלי ניקוד גבוה אלה כשלו לעתים קרובות כאשר התמודדו עם שפות תכנות שונות, וחשפו הבנה שטחית שהוא מתאר כ"מוזהבת".

"זה נראה נחמד ומבריק במבט ראשון, אבל אז אתה מנסה להריץ אותו בשפה אחרת והכל פשוט מתפרק", מסביר יאנג. "בשלב זה, אתה לא מעצב סוכן הנדסת תוכנה. אתה מעצב כדי ליצור סוכן SWE-Bench, וזה הרבה פחות מעניין."

"בעיית SWE-Bench" זו משקפת אתגר רחב יותר בהערכת AI. מדדי ביצועים, שנחשבו פעם כמדדים מהימנים להתקדמות, מנותקים יותר ויותר מיכולות בעולם האמיתי. כדי להחמיר את הבעיה, עלו חששות לגבי שקיפות, מה ששחק עוד יותר את האמון במדדים אלה. למרות בעיות אלה, מדדי ביצועים ממשיכים למלא תפקיד מרכזי בפיתוח מודלים, למרות שמומחים רבים מטילים ספק בערכם הטבוע. מייסד שותף של OpenAI, אנדריי קרפתי, אף כינה את המצב הנוכחי "משבר הערכה", כשהוא מתאונן על היעדר שיטות מהימנות למדידת יכולות AI והיעדר דרך ברורה קדימה.

ונסה פרלי, מנהלת מחקר במכון לבינה מלאכותית ממוקדת אנוש של אוניברסיטת סטנפורד, שואלת, "היסטורית, מדדי ביצועים היו הדרך בה הערכנו מערכות AI. האם זו הדרך בה אנו רוצים להעריך מערכות בעתיד? ואם לא, מה הדרך?"

מחלוקת גוברת של אקדמאים וחוקרי AI תומכת בגישה ממוקדת יותר, תוך שאיבת השראה ממדעי החברה. הם מציעים לתעדף "תוקף", מושג מרכזי במדעי החברה הכמותיים, המעריך עד כמה כלי מדידה לוכד במדויק את המבנה המיועד. דגש זה על תוקף יכול לאתגר מדדי ביצועים המעריכים מושגים מוגדרים באופן מעורפל כגון "חשיבה" או "ידע מדעי". למרות שהוא עשוי לרסן את המרדף אחר בינה מלאכותית כללית (AGI), הוא יספק בסיס מוצק יותר להערכת מודלים בודדים.

אביגיל ג’ייקובס, פרופסור באוניברסיטת מישיגן וקול מוביל בדחיפה לתוקף, טוענת, "להתייחס ברצינות לתוקף פירושו לבקש מאנשים באקדמיה, בתעשייה או בכל מקום אחר להראות שהמערכת שלהם עושה את מה שהם אומרים שהיא עושה. אני חושבת שזה מצביע על חולשה בעולם ה-AI אם הם רוצים לסגת מלהראות שהם יכולים לתמוך בטענתם."

הגבלות של בדיקות מסורתיות

ההסתמכות של תעשיית ה-AI על מדדי ביצועים נובעת מההצלחות שלה בעבר, במיוחד באתגרים כמו ImageNet.

ImageNet, שהושק בשנת 2010, הציג לחוקרים מסד נתונים של למעלה מ-3 מיליון תמונות המסווגות ל-1,000 מחלקות שונות. האתגר היה אגנוסטי לשיטה, ומאפשר לכל אלגוריתם מוצלח לזכות לאמינות ללא קשר לגישה הבסיסית שלו. הפריצה של AlexNet בשנת 2012, שהשתמשה בצורה לא שגרתית של אימון GPU, הפכה לאבן יסוד של ה-AI המודרני. למרות שמעטים יכלו לחזות שרשתות עצביות קונבולוציוניות של AlexNet יפתחו זיהוי תמונות, הציון הגבוה שלה השתיק כל ספק. (יש לציין שאחד ממפתחי AlexNet המשיך להקים את OpenAI.)

היעילות של ImageNet נבעה מההתאמה הקרובה בין האתגר למשימות זיהוי תמונות בעולם האמיתי. אפילו עם דיונים על שיטות, המודל בעל הניקוד הגבוה ביותר הפגין באופן קבוע ביצועים מעולים ביישומים מעשיים.

עם זאת, בשנים שחלפו מאז, חוקרי AI יישמו את אותה גישה אגנוסטית לשיטה למשימות כלליות יותר ויותר. SWE-Bench, למשל, משמש לעתים קרובות כפרוקסי ליכולת קידוד רחבה יותר, בעוד שמדדי ביצועים אחרים בסגנון בחינות משמשים כדי לאמוד יכולת חשיבה. היקף רחב זה מקשה על הגדרה קפדנית של מה שמדד ביצועים ספציפי מודד, מה שמפריע לפרשנות אחראית של הממצאים.

היכן הדברים מתקלקלים

אנקא רוול, סטודנטית לדוקטורט בסטנפורד, טוענת כי הדחיפה לכיוון הכלליות היא השורש של בעיית ההערכה. "עברנו ממודלים ספציפיים למשימות למודלים לשימוש כללי", אומר רוול. "זה כבר לא עניין של משימה בודדת אלא חבורה של משימות, אז ההערכה הופכת לקשה יותר."

כמו ג’ייקובס, רוול מאמינה כי "הבעיה העיקרית במדדי ביצועים היא תוקף, אפילו יותר מהיישום המעשי", ומציינת: "שם הרבה דברים מתקלקלים." עבור משימות מורכבות כמו קידוד, כמעט בלתי אפשרי להקיף כל תרחיש אפשרי בסט בעיות. כתוצאה מכך, קשה להבחין האם הציון הגבוה יותר של מודל משקף מיומנות קידוד אמיתית או פשוט מניפולציה חכמה של סט הבעיות. הלחץ העז להשיג ציוני שיא ממריץ עוד יותר קיצורי דרך.

מפתחים מקווים שהצלחה על פני ריבוי של מדדי ביצועים ספציפיים תתורגם למודל בעל יכולת כללית. עם זאת, עליית ה-AI האגנטי, שבו מערכת בודדת יכולה לשלב מערך מורכב של מודלים, מקשה על הערכת האם שיפורים במשימות ספציפיות יתאמצו. "יש פשוט הרבה יותר כפתורים שאתה יכול לסובב", אומר סייאש קאפור, מדען מחשב בפרינסטון ומבקר של שיטות עבודה רשלניות בתעשיית ה-AI. "כשמדובר בסוכנים, הם סוג של ויתרו על שיטות העבודה המומלצות להערכה."

במאמר שפורסם ביולי האחרון, הדגיש קאפור בעיות ספציפיות באופן שבו מודלים של AI ניגשו למדד הביצועים WebArena בשנת 2024, אשר בודק את יכולתו של סוכן AI לנווט באינטרנט. מדד הביצועים מורכב מיותר מ-800 משימות המבוצעות באתרי אינטרנט משובטים המחקים את Reddit, Wikipedia ואחרים. קאפור וצוותו גילו כי המודל המנצח, STeP, ניצל את המבנה של כתובות אתרי Reddit כדי לגשת ישירות לדפי הפרופיל של המשתמשים, דרישה תכופה במשימות WebArena.

למרות שאינו רמאות מוחלטת, קאפור רואה בכך "ייצוג שגוי חמור של כמה טוב הסוכן היה עובד אם הוא היה רואה את המשימות ב-WebArena בפעם הראשונה." למרות זאת, הסוכן האינטרנטי של OpenAI, Operator, אימץ מאז מדיניות דומה.

כדי להמחיש עוד יותר את הבעיות במדדי ביצועים של AI, קאפור וצוות של חוקרים פרסמו לאחרונה מאמר שחשף בעיות משמעותיות ב-Chatbot Arena, מערכת הערכה פופולרית במיקור המונים. הממצאים שלהם הצביעו על כך שלוח המובילים עבר מניפולציה, כאשר חלק ממודלי הבסיס המובילים עסקו בבדיקות פרטיות שלא פורסמו ובשחרור סלקטיבי של הציונים שלהם.

אפילו ImageNet, מדד הביצועים שהתחיל הכל, עומד כעת בפני בעיות תוקף. מחקר שנערך בשנת 2023 על ידי חוקרים מאוניברסיטת וושינגטון ומ-Google Research מצא כי אלגוריתמים מנצחים של ImageNet הראו "התקדמות מועטה עד לא קיימת" כאשר הוחלו על שישה מערכי נתונים בעולם האמיתי, מה שמצביע על כך שהתוקף החיצוני של הבדיקה הגיע לגבול שלו.

הולכים לקטן יותר

כדי לטפל בבעיית התוקף, חלק מהחוקרים מציעים לחבר מחדש מדדי ביצועים למשימות ספציפיות. כפי שמנסחת זאת רוול, מפתחי AI "צריכים לפנות למדדי הביצועים ברמה גבוהה שהם כמעט חסרי משמעות עבור צרכני המשנה, מכיוון שמפתחי מדדי הביצועים כבר לא יכולים לצפות את משימת המשנה."

בנובמבר 2024, השיקה רוול את BetterBench, פרויקט דירוג ציבורי המעריך מדדי ביצועים על בסיס קריטריונים שונים, כולל הבהירות של תיעוד הקוד, ובאופן מכריע, תוקף מדד הביצועים במדידת היכולת המוצהרת שלו. BetterBench מאתגרת מעצבים להגדיר בבירור את מה שמדד הביצועים שלהם בודק וכיצד הוא מתייחס למשימות המרכיבות את מדד הביצועים.

"אתה צריך שיהיה לך פירוק מבני של היכולות", אומר רוול. "מהן הכישורים האמיתיים שאכפת לך מהם, ואיך אתה מתפעל אותם למשהו שאנחנו יכולים למדוד?"

התוצאות מגלה. סביבת הלמידה של ארקייד (ALE), שהוקמה בשנת 2013 כדי לבדוק את יכולתם של מודלים ללמוד כיצד לשחק משחקי Atari 2600, מתגלה כאחד ממדדי הביצועים בעלי הניקוד הגבוה ביותר. לעומת זאת, מדד הביצועים Massive Multitask Language Understanding (MMLU), מבחן בשימוש נרחב עבור כישורי שפה כלליים, מקבל אחד מהציונים הנמוכים ביותר עקב קשר מוגדר בצורה גרועה בין השאלות לבין המיומנות הבסיסית.

למרות של-BetterBench עדיין לא הייתה השפעה משמעותית על המוניטין של מדדי ביצועים ספציפיים, היא הצליחה להביא תוקף לחזית הדיונים על איך לשפר את מדדי הביצועים של AI. רוול הצטרפה לקבוצת מחקר חדשה שאירחה Hugging Face, אוניברסיטת אדינבורו ו-EleutherAI, שם היא תפתח עוד יותר את הרעיונות שלה על תוקף והערכת מודלים של AI.

אירן סולימאן, ראש מדיניות גלובלית של Hugging Face, אומרת שהקבוצה תתמקד בבניית מדדי ביצועים תקפים החורגים ממדידת יכולות פשוטות. "יש פשוט כל כך הרבה רעב למדד ביצועים טוב מהמדף שכבר עובד", אומר סולימאן. "הרבה הערכות מנסות לעשות יותר מדי."

נראה כי התעשייה הרחבה יותר מתכנסת לתפיסה זו. במאמר שפורסם במרץ, חוקרים מ-Google, Microsoft, Anthropic ואחרים הציגו מסגרת חדשה לשיפור הערכות, כאשר תוקף הוא אבן הפינה.

"מדע הערכת AI חייב", טוענים החוקרים, "לעבור מעבר לטענות גסות של ‘אינטליגנציה כללית’ לכיוון מדדים רלוונטיים יותר למשימות ספציפיות ולעולם האמיתי של התקדמות."

מדידת הדברים ה"דביקים"

כדי להקל על שינוי זה, חלק מהחוקרים פונים לכלי מדעי החברה. מאמר עמדה בפברואר טען כי "הערכת מערכות GenAI היא אתגר מדידה במדעי החברה", תוך חקירה ספציפית של האופן שבו ניתן ליישם מערכות תוקף של מדעי החברה על מדדי ביצועים של AI.

המחברים, בעיקר מענף המחקר של מיקרוסופט אך גם כוללים אקדמאים מסטנפורד ומאוניברסיטת מישיגן, מצביעים על הסטנדרטים שבהם משתמשים מדעי החברה כדי למדוד מושגים שנויים במחלוקת כמו אידיאולוגיה, דמוקרטיה והטיה תקשורתית. מיושמים על מדדי ביצועים של AI, אותם הליכים יכולים לספק דרך למדוד מושגים כמו "חשיבה" ו-"בקיאות במתמטיקה" מבלי לפנות להכללות מעורפלות.

ספרות מדעי החברה מדגישה את החשיבות של הגדרה קפדנית של המושג הנמדד. לדוגמה, מבחן שנועד למדוד את רמת הדמוקרטיה בחברה חייב תחילה לבסס הגדרה ברורה של "חברה דמוקרטית" ולאחר מכן לנסח שאלות הרלוונטיות להגדרה זו.

כדי ליישם זאת על מדד ביצועים כמו SWE-Bench, מעצבים יצטרכו לנטוש את הגישה המסורתית של למידת מכונה לאיסוף בעיות תכנות מ-GitHub ויצירת תוכנית לאימות תשובות. במקום זאת, הם יגדירו תחילה את מה שמדד הביצועים שואף למדוד (לדוגמה, "יכולת לפתור בעיות מסומנות בתוכנה"), יפרקו זאת למיומנויות משנה (לדוגמה, סוגים שונים של בעיות או מבני תוכנה) ולאחר מכן יבנו שאלות המכסות במדויק מיומנויות משנה אלה.

עבור חוקרים כמו ג’ייקובס, השינוי העמוק הזה מאיך שחוקרי AI ניגשים בדרך כלל למדדי ביצועים הוא בדיוק העניין. "יש חוסר התאמה בין מה שקורה בתעשיית הטכנולוגיה לבין הכלים האלה ממדעי החברה", היא אומרת. "יש לנו עשרות שנים של מחשבה על איך אנחנו רוצים למדוד את הדברים הדביקים האלה על בני האדם."

למרות ההשפעה הגוברת של רעיונות אלה בקהילת המחקר, ההשפעה שלהם על האופן שבו חברות AI משתמשות בפועל במדדי ביצועים הייתה איטית.

מהדורות מודלים אחרונות מ-OpenAI, Anthropic, Google ו-Meta ממשיכות להסתמך במידה רבה על מדדי ביצועים של ידע מרובה ברירות כמו MMLU, בדיוק הגישה שחוקרי תוקף מנסים להתקדם מעבר לה. מהדורות מודלים, ברובן, עדיין מתמקדות בהדגמת עליות באינטליגנציה כללית, ומדדי ביצועים רחבים משמשים לתמיכה בטענות אלה.

חלק מהצופים מוצאים את זה משביע רצון. פרופסור וורטון איתן מוליק מציע שמדדי ביצועים, למרות שהם "מדדים גרועים של דברים, הם גם מה שיש לנו." הוא מוסיף, "במקביל, המודלים משתפרים. חטאים רבים נסלחים על ידי התקדמות מהירה."

לעת עתה, ההתמקדות ארוכת השנים של התעשייה באינטליגנציה מלאכותית כללית נראית כמסתירה גישה ממוקדת יותר, מבוססת תוקף. כל עוד מודלים של AI ממשיכים להתקדם באינטליגנציה כללית, יישומים ספציפיים נראים פחות משכנעים, גם אם מתרגלים משתמשים בכלים שהם כבר לא בוטחים בהם באופן מלא.

"זה החבל הדק שאנחנו הולכים עליו", אומר סולימאן מ-Hugging Face. "קל מדי לזרוק את המערכת החוצה, אבל הערכות באמת מועילות בהבנת המודלים שלנו, אפילו עם המגבלות האלה."