מודלי AI בעייתיים: סכנות והטיות

מחקר בנצ’מרק חדש של הסטארטאפ הצרפתי Giskard שופך אור על הליקויים המשמעותיים של כמה ממודלי השפה (LLMs) הנפוצים ביותר בתחום הבינה המלאכותית. מחקר זה מעריך בקפידה את הנטייה של מודלים אלה ליצור תוכן מזיק, להזות מידע ולהציג הטיות שונות בתגובותיהם.

זיהוי מודלי ה-LLM המסוכנים ביותר: הערכה מקיפה

בנצ’מרק של Giskard, שפורסם באפריל, מתעמק בסיכונים הפוטנציאליים הקשורים ל-LLMs, ומספק הערכה מהימנה של הנטייה שלהם לבדות מידע, לייצר פלטים רעילים ולהציג נקודות מבט משוחדות או סטריאוטיפיות. ממצאי המחקר מציעים תובנות חשובות למפתחים, חוקרים וארגונים המבקשים לפרוס מודלים של AI באחריות.

הבנצ’מרק בוחן בקפידה מספר היבטים קריטיים של ביצועי LLM, כולל:

  • הזיה (Hallucination): הנטייה של המודל ליצור מידע שקרי או חסר משמעות.
  • נזק (Harmfulness): הנטייה של המודל לייצר תוכן מסוכן, פוגעני או לא הולם.
  • הטיה וסטריאוטיפים (Bias and Stereotypes): הנטייה של המודל להנציח נקודות מבט לא הוגנות או מפלות.

על ידי הערכת גורמים אלה, הבנצ’מרק של Giskard מספק הערכה מקיפה של הסיכון הכולל הקשור ל-LLMs שונים.

דירוג מודלי ה-LLM עם הפגמים המשמעותיים ביותר

ממצאי המחקר חושפים דירוג של LLMs המבוסס על ביצועיהם על פני מדדים מרכזיים אלה. ככל שהציון נמוך יותר, כך המודל נחשב לבעייתי יותר. הטבלה שלהלן מסכמת את התוצאות:

מודל ממוצע כולל הזיה נזק הטיה וסטריאוטיפים מפתח
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

הבנצ’מרק כלל 17 מודלים בשימוש נרחב, שנבחרו בקפידה כדי לייצג את נוף הבינה המלאכותית הנוכחי. Giskard העדיפה הערכה של מודלים יציבים ומאומצים באופן נרחב על פני גרסאות ניסיוניות או לא סופיות, מה שמבטיח את הרלוונטיות והמהימנות של התוצאות. גישה זו אינה כוללת מודלים המיועדים בעיקר למשימות הסקה, מכיוון שהם אינם המוקד העיקרי של בנצ’מרק זה.

זיהוי הביצועים הגרועים ביותר בכל הקטגוריות

הממצאים הראשוניים של בנצ’מרק Phare תואמים במידה רבה לתפיסות ולמשוב הקיימים בקהילה. חמשת המודלים בעלי הביצועים ה”גרועים” ביותר (מתוך 17 שנבדקו) כוללים GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B ו-Llama 3.3 70B. לעומת זאת, המודלים שהדגימו את הביצועים הטובים ביותר כוללים את Gemini 1.5 Pro, Claude 3.5 Haiku ו-Llama 3.1 405B.

נקודות חמות של הזיות: מודלים הנוטים לבדות מידע

כאשר בוחנים רק את מדד ההזיה, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B ו-Llama 4 Maverick מתגלים כמודלים המועדים ביותר ליצור מידע שקרי או מטעה. לעומת זאת, Anthropic מפגינה חוזק בתחום זה, כאשר שלושה מהמודלים שלה מציגים את שיעורי ההזיה הנמוכים ביותר: Claude 3.5 Sonnet, Claude 3.7 Sonnet ו-Claude 3.5 Haiku, יחד עם Gemini 1.5 Pro ו-GPT-4o.

יצירת תוכן מסוכן: מודלים עם אמצעי הגנה חלשים

בנוגע ליצירת תוכן מסוכן או מזיק (הערכת היכולת של המודל לזהות תשומות בעייתיות ולהגיב כראוי), GPT-4o mini מציג את הביצועים הגרועים ביותר, ואחריו Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 ו-Llama 4 Maverick. מצד שני, Gemini 1.5 Pro מדגים באופן עקבי את הביצועים הטובים ביותר, ואחריו בצמוד שלושת המודלים של Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet ו-Claude 3.5 Haiku) ו-Gemini 2.0 Flash.

הטיות וסטריאוטיפים: אתגר מתמשך

הנוכחות של הטיות וסטריאוטיפים ב-LLMs נותרה תחום משמעותי הדורש שיפור. תוצאות בנצ’מרק Phare מצביעות על כך ש-LLMs עדיין מציגים הטיות וסטריאוטיפים בולטים בפלטים שלהם. Grok 2 מקבל את הציון הגרוע ביותר בקטגוריה זו, ואחריו Mistral Large, Mistral Small 3.1 24B, GPT-4o mini ו-Claude 3.5 Sonnet. לעומת זאת, Gemini 1.5 Pro משיג את הציונים הטובים ביותר, ואחריו Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B ו-Llama 4 Maverick.

בעוד שגודל המודל יכול להשפיע על יצירת תוכן רעיל (מודלים קטנים יותר נוטים לייצר יותר פלטים “מזיקים”), מספר הפרמטרים אינו הגורם המכריע היחיד. לדברי מטאו דורה, סמנכ”ל הטכנולוגיה של Giskard, “הניתוחים שלנו מדגימים שהרגישות לניסוח המשתמש משתנה במידה ניכרת בין ספקים שונים. לדוגמה, נראה שהמודלים של Anthropic מושפעים פחות מהאופן שבו שאלות מנוסחות בהשוואה למתחרים שלהם, ללא קשר לגודלם. לאופן שבו השאלה נשאלת (בקשת תשובה תמציתית או מפורטת) יש גם השפעות משתנות. זה מוביל אותנו להאמין ששיטות הכשרה ספציפיות, כמו למידת חיזוק ממשוב אנושי (RLHF), משמעותיות יותר מגודל.”

מתודולוגיה חזקה להערכת LLMs

Phare משתמשת במתודולוגיה קפדנית להערכת LLMs, תוך שימוש במערך נתונים פרטי של כ-6,000 שיחות. כדי להבטיח שקיפות תוך מניעת מניפולציה של אימון המודל, תת-קבוצה של כ-1,600 דוגמאות הועמדה לרשות הציבור ב-Hugging Face. החוקרים אספו נתונים במספר שפות (צרפתית, אנגלית, ספרדית) ותכננו בדיקות המשקפות תרחישים מהעולם האמיתי.

הבנצ’מרק מעריך משימות משנה שונות עבור כל מדד:

הזיה

  • עובדתיות (Factuality): היכולת של המודל ליצור תגובות עובדתיות לשאלות ידע כללי.
  • דיוק עם מידע שגוי (Accuracy with False Information): היכולת של המודל לספק מידע מדויק בתגובה להנחיות המכילות אלמנטים שקריים.
  • טיפול בטענות מפוקפקות (Handling Dubious Claims): היכולת של המודל לעבד טענות מפוקפקות (פסאודו-מדע, תיאוריות קונספירציה).
  • שימוש בכלי עבודה ללא הזיה (Tool Usage without Hallucination): היכולת של המודל להשתמש בכלי עבודה מבלי ליצור מידע שקרי.

נזק

החוקרים העריכו את היכולת של המודל לזהות מצבים שעלולים להיות מסוכנים ולספק אזהרות מתאימות.

הטיה והוגנות

הבנצ’מרק מתמקד ביכולת של המודל לזהות הטיות וסטריאוטיפים שנוצרו בפלטים שלו.

שיתוף פעולה עם ארגוני AI מובילים

המשמעות של Phare מתחזקת עוד יותר על ידי התמקדותה הישירה במדדים חיוניים לארגונים המבקשים להשתמש ב-LLMs. התוצאות המפורטות עבור כל מודל זמינות לציבור באתר Giskard, כולל פירוט לפי משימת משנה. הבנצ’מרק נתמך כלכלית על ידי ה-BPI (בנק ההשקעות הציבורי הצרפתי) והנציבות האירופית. Giskard גם שיתפה פעולה עם Mistral AI ו-DeepMind בהיבטים הטכניים של הפרויקט. מסגרת LMEval לשימוש פותחה בשיתוף פעולה ישיר עם צוות Gemma ב-DeepMind, מה שמבטיח פרטיות ואבטחת נתונים.

במבט קדימה, צוות Giskard מתכנן להוסיף שני מאפיינים מרכזיים ל-Phare: “ככל הנראה ביוני, נוסיף מודול להערכת עמידות בפני פריצות מהכלא והזרקת הנחיות”, אומר מטאו דורה. בנוסף, החוקרים ימשיכו לעדכן את טבלת המובילים עם המודלים היציבים העדכניים ביותר, כאשר Grok 3, Qwen 3 ואולי GPT-4.1 נמצאים באופק.