בוחנים את הגבולות: מבחני AI

מבחני ביצועים תחומיים ותעשייתיים

הופעתם של מודלי שפה גדולים (LLMs) כמו GPT-4 של OpenAI ו- Llama-3 של Meta, יחד עם מודלי חשיבה עדכניים יותר כמו o1 ו- DeepSeek-R1, ללא ספק דחפה את גבולות היכולת של בינה מלאכותית. עם זאת, גם עם ההתקדמות הללו, נותרו מכשולים משמעותיים, במיוחד בכל הנוגע לטיפול בתחומי ידע מיוחדים. מודלים אלה, מרשימים ככל שיהיו בהיבטים רבים, לעיתים קרובות נתקלים בקשיים כאשר הם מתמודדים עם המורכבויות והניואנסים של תחומים ספציפיים. מגבלה זו מדגישה צורך קריטי בהערכה זהירה וספציפית להקשר של מערכות AI, במיוחד כאשר הן עוברות מ-LLMs בסיסיים למערכות אוטונומיות יותר, דמויות סוכן.

Benchmarking ממלא תפקיד חיוני בהערכת LLMs, ומספק שיטה מובנית להערכת חוזקות וחולשות ביישומים מגוונים. מבחני ביצועים (Benchmarks) מובנים היטב מספקים למפתחים אמצעי יעיל וחסכוני למעקב אחר התקדמות המודל, זיהוי תחומים לשיפור והשוואת ביצועים מול מודלים אחרים. בעוד שהתחום ראה התקדמות משמעותית ביצירת מבחני ביצועים ליכולות LLM כלליות, נותר פער ניכר בתחומים מיוחדים. תחומים אלה, הכוללים תחומים כמו חשבונאות, פיננסים, רפואה, משפטים, פיזיקה, מדעי הטבע ופיתוח תוכנה, דורשים רמה של ידע מעמיק ושיטות הערכה חזקות שלעיתים קרובות חורגות מההיקף של מבחני ביצועים לשימוש כללי.

לדוגמה, אפילו מתמטיקה ברמה אוניברסיטאית, תחום בסיסי לכאורה, אינה מוערכת כראוי על ידי מבחני ביצועים כלליים קיימים. אלה מתמקדים לעתים קרובות בבעיות בסיסיות או במשימות מאתגרות במיוחד, כגון אלה שנמצאות בתחרויות ברמת אולימפיאדה. זה משאיר חלל בהערכת מתמטיקה יישומית הרלוונטית לתכניות לימודים אוניברסיטאיות וליישומים בעולם האמיתי.

כדי לטפל בפער זה, פותח מבחן ביצועים ייעודי, U-MATH, כדי לספק הערכה מקיפה של יכולות מתמטיקה ברמה אוניברסיטאית. בדיקות שנערכו באמצעות מבחן ביצועים זה על LLMs מובילים, כולל o1 ו- R1, הניבו תובנות מעניינות. התוצאות הראו בבירור שמערכות חשיבה תופסות קטגוריה נפרדת. o1 של OpenAI הוביל את החבורה, ופתר בהצלחה 77.2% מהמשימות, ואחריו DeepSeek R1 ב-73.7%. יש לציין, הביצועים של R1 ב- U-MATH היו נמוכים מאלה של o1, בניגוד לציונים הגבוהים יותר שלו במבחני ביצועים מתמטיים אחרים כמו AIME ו- MATH-500. מודלים אחרים בעלי ביצועים גבוהים הציגו פער ביצועים משמעותי, כאשר Gemini 1.5 Pro פתר 60% מהמשימות ו- GPT-4 השיג 43%. מעניין לציין שגם מודל קטן יותר, המתמחה במתמטיקה, ממשפחת Qwen 2.5 Math, הציג תוצאות תחרותיות.

לממצאים אלה יש השלכות מעשיות משמעותיות על קבלת החלטות. מבחני ביצועים ספציפיים לתחום מאפשרים למהנדסים להבין כיצד מודלים שונים מתפקדים בהקשרים הספציפיים שלהם. עבור תחומי נישה שחסרים מבחני ביצועים אמינים, צוותי פיתוח יכולים לבצע הערכות משלהם או לשתף פעולה עם שותפי נתונים כדי ליצור מבחני ביצועים מותאמים אישית. לאחר מכן ניתן להשתמש במבחני ביצועים מותאמים אישית אלה כדי להשוות את המודל שלהם לאחרים וכדי להעריך ללא הרף גרסאות מודל חדשות בעקבות איטרציות של כוונון עדין. גישה מותאמת זו מבטיחה שתהליך ההערכה רלוונטי ישירות ליישום המיועד, ומספק תובנות משמעותיות יותר מאשר מבחני ביצועים גנריים.

מבחני ביצועים לבטיחות

אי אפשר להפריז בחשיבות הבטיחות במערכות AI, וגל חדש של מבחני ביצועים מופיע כדי לטפל בהיבט קריטי זה. מבחני ביצועים אלה שואפים להפוך את הערכת הבטיחות לנגישה וסטנדרטית יותר. דוגמה אחת היא AILuminate, כלי שנועד להעריך את סיכוני הבטיחות של LLMs לשימוש כללי. AILuminate מעריך את הנטייה של מודל לתמוך בהתנהגויות מזיקות על פני ספקטרום של 12 קטגוריות, הכוללות פשעים אלימים, הפרות פרטיות ותחומים אחרים המעוררים דאגה. הכלי מקצה ציון של 5 נקודות, הנע בין ‘גרוע’ ל’מצוין’, עבור כל קטגוריה. ציונים אלה מאפשרים למקבלי החלטות להשוות בין מודלים ולהבין טוב יותר את סיכוני הבטיחות היחסיים שלהם.

בעוד ש- AILuminate מייצג צעד משמעותי קדימה כאחד ממבחני הבטיחות הכלליים המקיפים ביותר הקיימים, הוא אינו מתעמק בסיכונים האינדיבידואליים הקשורים לתחומים או תעשיות ספציפיים. ככל שפתרונות AI משולבים יותר ויותר במגזרים שונים, חברות מכירות בצורך בהערכות בטיחות ממוקדות יותר. ישנה דרישה גוברת למומחיות חיצונית בהערכות בטיחות המספקות הבנה מעמיקה יותר של האופן שבו LLMs מתפקדים בהקשרים מיוחדים. זה מבטיח שמערכות AI עומדות בדרישות הבטיחות הייחודיות של קהלים ומקרי שימוש מסוימים, מפחיתות סיכונים פוטנציאליים ומטפחות אמון.

מבחני ביצועים לסוכני AI

הצמיחה הצפויה של סוכני AI בשנים הקרובות מניעה את הפיתוח של מבחני ביצועים מיוחדים המותאמים ליכולותיהם הייחודיות. סוכני AI הם מערכות אוטונומיות שיכולות לפרש את סביבתן, לקבל החלטות מושכלות ולבצע פעולות כדי להשיג מטרות ספציפיות. דוגמאות לכך כוללות עוזרים וירטואליים בסמארטפונים המעבדים פקודות קוליות, עונים על שאילתות ומבצעים משימות כמו תזמון תזכורות או שליחת הודעות.

מבחני ביצועים עבור סוכני AI חייבים לחרוג מעבר להערכה פשוטה של יכולות ה- LLM הבסיסיות. הם צריכים למדוד עד כמה טוב סוכנים אלה פועלים בתרחישים מעשיים בעולם האמיתי, המותאמים לתחום וליישום המיועדים להם. קריטריוני הביצועים עבור עוזר משאבי אנוש, למשל, יהיו שונים באופן משמעותי מאלה של סוכן בריאות המאבחן מצבים רפואיים, ומשקפים את רמות הסיכון המשתנות הקשורות לכל יישום.

מסגרות Benchmarking חזקות יהיו חיוניות במתן אלטרנטיבה מהירה וניתנת להרחבה יותר להערכה אנושית. מסגרות אלה יאפשרו למקבלי החלטות לבדוק ביעילות מערכות סוכני AI ברגע שמבחני ביצועים יבוססו עבור מקרי שימוש ספציפיים. יכולת הרחבה זו חיונית כדי לעמוד בקצב ההתקדמות המהירה בטכנולוגיית סוכני AI.

Benchmarking הוא תהליך מסתגל

Benchmarking משמש כאבן יסוד בהבנת הביצועים בעולם האמיתי של מודלי שפה גדולים. במהלך השנתיים האחרונות, המיקוד של benchmarking התפתח מבדיקת יכולות כלליות להערכת ביצועים בתחומים ספציפיים, כולל ידע בתעשייה נישתית, בטיחות ויכולות סוכן.

ככל שמערכות AI ממשיכות להתקדם, מתודולוגיות benchmarking חייבות להסתגל כדי להישאר רלוונטיות ויעילות. מבחני ביצועים מורכבים במיוחד, כגון Humanity’s Last Exam ו- FrontierMath, זכו לתשומת לב משמעותית בתעשייה, והדגישו את העובדה ש- LLMs עדיין נופלים ממומחיות אנושית בשאלות מאתגרות. עם זאת, מבחני ביצועים אלה אינם מספקים תמונה מלאה.

הצלחה בבעיות מורכבות במיוחד אינה מתורגמת בהכרח לביצועים גבוהים ביישומים מעשיים. מבחן הביצועים GAIA עבור עוזרי AI כלליים מדגים שמערכות AI מתקדמות עשויות להצטיין בשאלות מאתגרות בעודן נאבקות במשימות פשוטות יותר. לכן, בעת הערכת מערכות AI לפריסה בעולם האמיתי, חיוני לבחור בקפידה מבחני ביצועים המתאימים להקשר הספציפי של היישום. זה מבטיח שתהליך ההערכה משקף במדויק את היכולות והמגבלות של המערכת בסביבה המיועדת. הפיתוח והשיפור המתמשכים של מבחני ביצועים חיוניים להבטחת שמערכות AI יהיו אמינות, בטוחות ומועילות בתעשיות ויישומים מגוונים.