מכון וקטור בקנדה פרסם לאחרונה את ממצאי ההערכה העצמאית שלו למודלי שפה גדולים (LLM) בולטים, ומספק פרספקטיבה חסרת פניות על האופן שבו מודלי AI חדשניים אלה עומדים מול מערך מקיף של מדדי ביצועים. מחקר זה בוחן בקפידה את היכולות של מודלים אלה באמצעות מבחנים מאתגרים יותר ויותר המכסים ידע כללי, מיומנות קידוד, חוסן סייבר ותחומים חיוניים אחרים. התוצאות מציעות תובנות חיוניות לגבי החוזקות והמגבלות של סוכני AI מובילים אלה.
התפשטות מודלי AI והצורך במדדי ביצועים
נוף ה-AI עדים לעלייה חסרת תקדים בפיתוח ושחרור של LLM חדשים וחזקים יותר ויותר. כל מודל חדש מבטיח יכולות משופרות, החל מיצירת טקסט דמוי אדם ועד ליכולות מתוחכמות לפתרון בעיות וקבלת החלטות. התקדמות מהירה זו מדגישה את הצורך הקריטי במדדי ביצועים מאומצים ומהימנים כדי להבטיח בטיחות AI. מדדי ביצועים אלה משמשים ככלים חיוניים עבור חוקרים, מפתחים ומשתמשים, ומאפשרים להם להבין היטב את מאפייני הביצועים של מודלים אלה מבחינת דיוק, אמינות והוגנות. הבנה כזו היא בעלת חשיבות עליונה לפריסה אחראית של טכנולוגיות AI.
מחקר הערכת המצב של מכון וקטור
במחקר המקיף שלו ‘מצב ההערכה’, צוות הנדסת ה-AI של וקטור לקח על עצמו את המשימה להעריך 11 LLM מובילים מחלקים שונים בעולם. הבחירה כללה מודלים נגישים לציבור (‘פתוחים’), כגון DeepSeek-R1 ו-Command R+ של Cohere, ומודלים זמינים מסחרית (‘סגורים’), כולל GPT-4o של OpenAI ו-Gemini 1.5 מבית Google. כל סוכן AI עבר תהליך בדיקה קפדני הכולל 16 מדדי ביצועים נפרדים, מה שהופך זאת לאחד מההערכות הממצות והעצמאיות ביותר שנערכו עד כה.
מדדי ביצועים מרכזיים וקריטריוני הערכה
16 מדדי הביצועים ששימשו במחקר נבחרו בקפידה כדי להעריך מגוון רחב של יכולות חיוניות לפריסה יעילה ואחראית של מודלי AI. מדדי ביצועים אלה כללו:
- ידע כללי: מבחנים שנועדו להעריך את יכולתו של המודל לגשת ולהשתמש במידע עובדתי בתחומים שונים.
- מיומנות קידוד: הערכות המודדות את יכולתו של המודל להבין, ליצור ולנפות קוד בשפות תכנות שונות.
- חוסן סייבר: הערכות המתמקדות בזיהוי פגיעויות והערכת החוסן של המודל מפני איומי סייבר פוטנציאליים.
- חשיבה ופתרון בעיות: מדדי ביצועים הבוחנים את יכולתו של המודל לנתח תרחישים מורכבים, להסיק מסקנות הגיוניות ולפתח פתרונות יעילים.
- הבנת שפה טבעית: הערכות המודדות את יכולתו של המודל להבין ולפרש שפה אנושית, כולל ביטויים ניואנסים ורמזים הקשריים.
- הטיה והוגנות: הערכות שנועדו לזהות ולצמצם הטיות פוטנציאליות בתפוקות של המודל, ולהבטיח תוצאות הוגנות ושוויוניות עבור אוכלוסיות מגוונות.
על ידי העמדת כל מודל לחבילת מדדי ביצועים מקיפה זו, מכון וקטור שאף לספק הבנה הוליסטית ומדויקת של היכולות והמגבלות שלהם.
החשיבות של הערכה עצמאית ואובייקטיבית
דוואל פנדיה, סגן נשיא להנדסת AI של וקטור, מדגיש את התפקיד הקריטי של הערכה עצמאית ואובייקטיבית בהבנת היכולות האמיתיות של מודלי AI. הוא מציין שהערכות כאלה ‘חיוניות להבנת האופן שבו מודלים מתפקדים מבחינת דיוק, אמינות והוגנות’. הזמינות של מדדי ביצועים חזקים והערכות נגישות מעצימה חוקרים, ארגונים וקובעי מדיניות להשיג הבנה מעמיקה יותר של החוזקות, החולשות וההשפעה האמיתית של מודלי ומערכות AI המתפתחים במהירות. בסופו של דבר, זה מטפח אמון רב יותר בטכנולוגיות AI ומקדם את הפיתוח והפריסה האחראית שלהן.
קוד פתוח של התוצאות לשקיפות וחדשנות
במהלך פורץ דרך, מכון וקטור הפך את תוצאות המחקר שלו, את מדדי הביצועים שבהם נעשה שימוש ואת קוד הבסיס לזמינים באופן פתוח באמצעות טבלת הישגים אינטראקטיבית. יוזמה זו נועדה לקדם שקיפות ולטפח התקדמות בחדשנות AI. על ידי פתיחת קוד המידע החשוב הזה, מכון וקטור מאפשר לחוקרים, מפתחים, רגולטורים ומשתמשי קצה לאמת באופן עצמאי את התוצאות, להשוות את ביצועי המודל ולפתח מדדי ביצועים והערכות משלהם. גישה שיתופית זו צפויה להניע שיפורים במודלי AI ולשפר את האחריות בתחום.
ג’ון ווילס, מנהל תשתית AI והנדסת מחקר של וקטור, שהוביל את הפרויקט, מדגיש את היתרונות של גישת קוד פתוח זו. הוא מציין שהיא מאפשרת לבעלי עניין ‘לאמת תוצאות באופן עצמאי, להשוות את ביצועי המודל ולבנות מדדי ביצועים והערכות משלהם כדי להניע שיפורים ואחריות’.
טבלת ההישגים האינטראקטיבית
טבלת ההישגים האינטראקטיבית מספקת פלטפורמה ידידותית למשתמש לחקר תוצאות המחקר. משתמשים יכולים:
- להשוות את ביצועי המודל: להציג השוואות זו לצד זו של ביצועי מודלי AI שונים על פני מדדי ביצועים שונים.
- לנתח תוצאות מדדי ביצועים: לצלול לתוך תוצאות מדדי ביצועים בודדים כדי לקבל הבנה מפורטת יותר של יכולות המודל.
- להוריד נתונים וקוד: לגשת לנתונים ולקוד הבסיסיים ששימשו במחקר כדי לבצע ניתוחים וניסויים משלהם.
- לתרום מדדי ביצועים חדשים: לשלוח מדדי ביצועים משלהם להכללה בהערכות עתידיות.
על ידי מתן משאבים אלה, מכון וקטור מטפח מערכת אקולוגית שיתופית שמאיצה את ההתקדמות של טכנולוגיות AI ומקדמת חדשנות אחראית.
בנייה על מנהיגות וקטור בבטיחות AI
פרויקט זה הוא הרחבה טבעית של המנהיגות המבוססת של וקטור בפיתוח מדדי ביצועים הנמצאים בשימוש נרחב בקהילת בטיחות ה-AI העולמית. מדדי ביצועים אלה כוללים את MMLU-Pro, MMMU ו-OS-World, אשר פותחו על ידי חברי סגל מכון וקטור ויו’ר Canada CIFAR AI וונהו צ’ן וויקטור ז’ונג. המחקר גם מתבסס על עבודה אחרונה של צוות הנדסת ה-AI של וקטור לפיתוח Inspect Evals, פלטפורמת בדיקות בטיחות AI בקוד פתוח שנוצרה בשיתוף עם המכון הבריטי לאבטחת AI. פלטפורמה זו נועדה לתקנן הערכות בטיחות גלובליות ולהקל על שיתוף פעולה בין חוקרים ומפתחים.
MMLU-Pro, MMMU ו-OS-World
מדדי ביצועים אלה הפכו לכלי חיוני להערכת היכולות והמגבלות של מודלי AI בתחומים שונים:
- MMLU-Pro: מדד ביצועים שנועד להעריך את יכולתם של מודלי AI לענות על שאלות במגוון רחב של נושאים, כולל מדעי הרוח, מדעי החברה ותחומי STEM.
- MMMU: מדד ביצועים המתמקד בהערכת יכולתם של מודלי AI להבין ולנמק לגבי נתונים מרובי מודלים, כגון תמונות וטקסט.
- OS-World: מדד ביצועים הבוחן את יכולתם של מודלי AI לפעול בסביבות מורכבות ופתוחות, הדורשות מהם ללמוד ולהסתגל למצבים חדשים.
על ידי תרומת מדדי ביצועים אלה לקהילת בטיחות ה-AI, מכון וקטור מילא תפקיד משמעותי בקידום ההבנה והפיתוח האחראי של טכנולוגיות AI.
Inspect Evals: פלטפורמה שיתופית לבדיקות בטיחות AI
Inspect Evals היא פלטפורמת קוד פתוח שנועדה לתקנן הערכות בטיחות AI ולהקל על שיתוף פעולה בין חוקרים ומפתחים. הפלטפורמה מספקת מסגרת ליצירה, הפעלה ושיתוף של בדיקות בטיחות AI, ומאפשרת לחוקרים:
- לפתח הערכות מתוקננות: ליצור הערכות קפדניות ומתוקננות שניתן להשתמש בהן כדי להשוות את הבטיחות של מודלי AI שונים.
- לשתף הערכות ותוצאות: לשתף את ההערכות והתוצאות שלהם עם קהילת ה-AI הרחבה יותר, ולטפח שיתוף פעולה ושקיפות.
- לזהות ולצמצם סיכונים: לזהות ולצמצם סיכונים פוטנציאליים הקשורים לטכנולוגיות AI, ולקדם פיתוח ופריסה אחראיים.
על ידי טיפוח שיתוף פעולה ותקינה, Inspect Evals שואפת להאיץ את הפיתוח של מערכות AI בטוחות ואמינות יותר.
תפקיד וקטור בהפעלת אימוץ AI בטוח ואחראי
כאשר ארגונים מחפשים יותר ויותר לפתוח את היתרונות הטרנספורמטיביים של AI, וקטור נמצא בעמדה ייחודית לספק מומחיות עצמאית ומהימנה המאפשרת להם לעשות זאת בצורה בטוחה ואחראית. פנדיה מדגיש את תוכניות המכון שבהן שותפיו בתעשייה משתפים פעולה עם חוקרים מומחים בחזית הבטיחות והיישום של AI. תוכניות אלה מספקות סביבת ארגז חול יקרת ערך שבה שותפים יכולים להתנסות ולבדוק מודלים וטכניקות כדי לתת מענה לאתגרי העסקים הספציפיים שלהם הקשורים ל-AI.
תוכניות שותפות בתעשייה
תוכניות השותפות של וקטור בתעשייה מציעות מגוון יתרונות, כולל:
- גישה לחוקרים מומחים: שיתוף פעולה עם חוקרי AI מובילים שיכולים לספק הדרכה ותמיכה בנושא בטיחות ויישום של AI.
- סביבת ארגז חול: גישה לסביבה מאובטחת ומבוקרת להתנסות במודלים וטכניקות AI.
- פתרונות מותאמים אישית: פיתוח פתרונות AI מותאמים אישית המותאמים לצרכים ולאתגרים הספציפיים של כל שותף.
- העברת ידע: הזדמנויות להעברת ידע ובניית יכולות, המאפשרות לשותפים לפתח מומחיות AI משלהם.
על ידי מתן משאבים אלה, וקטור עוזר לארגונים לרתום את הכוח של AI תוך צמצום סיכונים פוטנציאליים והבטחת פריסה אחראית.
התמודדות עם אתגרים עסקיים ספציפיים
השותפים של וקטור בתעשייה מגיעים ממגוון רחב של מגזרים, כולל שירותים פיננסיים, חדשנות טכנולוגית ושירותי בריאות. שותפים אלה ממנפים את המומחיות של וקטור כדי לטפל במגוון אתגרים עסקיים הקשורים ל-AI, כגון:
- זיהוי הונאות: פיתוח מודלי AI לזיהוי ומניעת פעילויות הונאה בעסקאות פיננסיות.
- רפואה מותאמת אישית: שימוש ב-AI להתאמה אישית של תוכניות טיפול ולשיפור תוצאות המטופלים בשירותי בריאות.
- אופטימיזציה של שרשרת אספקה: אופטימיזציה של פעולות שרשרת אספקה באמצעות ניהול תחזיות ולוגיסטיקה המופעל באמצעות AI.
- זיהוי איומי סייבר: פיתוח מערכות AI לזיהוי ותגובה לאיומי סייבר בזמן אמת.
על ידי עבודה צמודה עם שותפיו בתעשייה, וקטור עוזר להניע חדשנות ולפתוח את הפוטנציאל הטרנספורמטיבי של AI בתעשיות שונות.