אומנם מודלי בינה מלאכותית (AI) עם היכולת שלהם לעבד שפה טבעית, לפתור בעיות ולהבין תשומות רב-מודליות, מייצגים חששות אבטחה מובנים. ניתן לנצל את החוזקות הללו על ידי גורמים זדוניים, מה שמוביל ליצירת תוכן מזיק. מחקר שנערך לאחרונה על ידי Enkrypt AI שופך אור על הנושא הקריטי הזה, ומדגיש כיצד ניתן לעשות שימוש לרעה במודלים מתוחכמים כמו Pixtral של מיסטרל אם הם לא נשמרים באמצעי בטיחות רציפים.
Pixtral של מיסטרל: מקרה מבחן בפגיעות בינה מלאכותית
הדוח של Enkrypt AI מדגיש את הדיכוטומיה הקיימת תמיד: מודלים מתוחכמים כמו Pixtral של מיסטרל הם גם כלים רבי עוצמה וגם וקטורים פוטנציאליים לשימוש לרעה. המחקר חשף נקודות תורפה משמעותיות באבטחה במודלי שפה גדולים (LLM) של Pixtral של מיסטרל. החוקרים הדגימו עד כמה ניתן לתפעל בקלות את המודלים הללו כדי ליצור תוכן מזיק הקשור לחומרי ניצול מיני של ילדים (CSEM) ולאיומים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN). מדאיגה העובדה ששיעור הפלט המזיק עלה על זה של מתחרים מובילים כמו GPT4o של OpenAI וקלודי 3 סונטה של אנתרופיק בשוליים משמעותיים.
החקירה התמקדה בשתי גרסאות של מודל Pixtral: PixtralLarge 25.02, שנגישה דרך AWS Bedrock, ו-Pixtral12B, שנגישה ישירות דרך פלטפורמת מיסטרל.
Red Teaming: גילוי סיכונים נסתרים
כדי לנהל את המחקר שלהם, Enkrypt AI העסיקה מתודולוגיית red teaming מתוחכמת. הם השתמשו במערכות נתונים יריבות שנועדו לחקות טקטיקות בעולם האמיתי המשמשות לעקוף מסנני תוכן, כולל הנחיות “פריצה מהכלא” - בקשות שנוסחו בחוכמה שנועדו לעקוף פרוטוקולי בטיחות. מניפולציה רב-מודלית, המשלבת טקסט עם תמונות, שימשה גם לבדיקת תגובות המודלים בהגדרות מורכבות. מעריכים אנושיים סקרו בקפידה את כל הפלט שנוצר כדי להבטיח דיוק ופיקוח אתי.
נטיות מסוכנות: הממצאים המדאיגים
תוצאות תרגיל ה-red teaming היו מטרידות. בממוצע, 68% מההנחיות הצליחו לחלץ תוכן מזיק ממודלי Pixtral. הדו”ח הצביע על כך ש-PixtralLarge רגיש פי 60 בערך ליצירת תוכן CSEM מאשר GPT4o או Claude 3.7 Sonnet. המודלים גם הדגימו סבירות גבוהה משמעותית ליצירת פלטי CBRN מסוכנים - עם שיעורים שנעו בין פי 18 לפי 40 גדולים יותר בהשוואה למתחרים מובילים.
בדיקות ה-CBRN כללו הנחיות שנועדו לחלץ מידע הקשור לסוכני לוחמה כימית (CWAs), ידע על נשק ביולוגי, חומרים רדיולוגיים המסוגלים לגרום לשיבוש המוני, ואפילו תשתית נשק גרעיני. פרטים ספציפיים של ההנחיות המוצלחות הושמטו מהדוח הציבורי בהתחשב בפוטנציאל לשימוש לרעה. עם זאת, דוגמה אחת כללה הנחיה שניסתה ליצור תסריט לשכנע קטין להיפגש באופן אישי לפעילות מינית - אינדיקציה ברורה לפגיעות של המודל לניצול הקשור לטיפוח.
תהליך ה-red teaming גם חשף שהמודלים יכולים לספק תגובות מפורטות לגבי הסינתזה והטיפול בכימיקלים רעילים, שיטות לפיזור חומרים רדיולוגיים, ואפילו טכניקות לשינוי כימי של VX, גז עצבים מסוכן ביותר. תובנות אלה מדגישות את הפוטנציאל של שחקנים זדוניים לנצל את המודלים הללו למטרות מרושעות.
נכון לעכשיו, מיסטרל לא התייחסה בפומבי לממצאי הדו”ח. עם זאת, Enkrypt AI הצהירה שהם מתקשרים עם החברה בנוגע לסוגיות שזוהו. התקרית מדגישה את האתגרים הבסיסיים של פיתוח בינה מלאכותית בטוחה ואחראית ואת הצורך באמצעים יזומים למניעת שימוש לרעה ולהגנה על אוכלוסיות פגיעות. הדו”ח צפוי לעורר דיון רב יותר על הרגולציה של מודלים מתקדמים של בינה מלאכותית והאחריות האתית של מפתחים.
Red Teaming בפועל: אמצעי אבטחה יזום
חברות מסתמכות יותר ויותר על צוותי red teaming כדי להעריך סיכונים פוטנציאליים במערכות הבינה המלאכותית שלהן. בבטיחות בינה מלאכותית, red teaming משקף בדיקות חדירה באבטחת סייבר. תהליך זה מדמה התקפות יריבות נגד מודל בינה מלאכותית כדי לזהות נקודות תורפה לפני שניתן לנצל אותן על ידי גורמים זדוניים.
ככל שהחששות לגבי השימוש לרעה הפוטנציאלי בבינה מלאכותית גנרטיבית גברו, הנוהג של red teaming צבר תאוצה בתוך קהילת פיתוח הבינה המלאכותית. חברות בולטות כמו OpenAI, גוגל ואנתרופיק עסקו בצוותי red teaming כדי לחשוף נקודות תורפה במודלים שלהן, מה שהוביל להתאמות בנתוני האימון, מסנני הבטיחות וטכניקות היישור.
לדוגמה, OpenAI משתמשת בצוותי red teaming פנימיים וחיצוניים כאחד כדי לבדוק את החולשות במודלי הבינה המלאכותית שלה. על פי כרטיס המערכת GPT4.5, למודל יש יכולות מוגבלות בניצול נקודות תורפה באבטחת סייבר בעולם האמיתי. למרות שהוא הצליח לבצע משימות הקשורות לזיהוי וניצול נקודות תורפה, היכולות שלו לא היו מתקדמות מספיק כדי להיחשב כסיכון בינוני בתחום זה, והמודל התקשה באתגרי אבטחת סייבר מורכבים.
הערכת היכולות של GPT4.5 כללה הפעלת מערך בדיקות של למעלה מ-100 אתגרים שנאספו הזמינים לציבור של Capture The Flag (CTF) המסווגים לשלוש רמות קושי: CTF של תיכון, CTF של מכללות ו-CTF מקצועיים.
הביצועים של GPT4.5 נמדדו באחוז האתגרים שהוא יכול היה לפתור בהצלחה בתוך 12 ניסיונות, וכתוצאה מכך שיעור השלמה של 53% עבור CTF של תיכון, 16% עבור CTF של מכללות ו-2% עבור CTF מקצועיים. צוין כי הערכות אלה ייצגו ככל הנראה גבולות תחתונים ליכולת למרות הציון ה”נמוך”.
לכן, מכאן שעוד שהנחיות משופרות, פיגומים או כוונון עדין יכולים להגביר משמעותית את הביצועים. יתר על כן, הפוטנציאל לניצול מחייב ניטור.
דוגמה ממחישה נוספת הנוגעת לאופן שבו נעשה שימוש ב-red teaming כדי לייעץ למפתחים סובבת סביב מודל Gemini של גוגל. חוקרים עצמאיים פרסמו ממצאים מהערכת צוות red teaming, והדגישו את רגישות המודל ליצירת תוכן מוטה או מזיק כאשר הוצגו לו תשומות יריבות מסוימות. הערכות אלה תרמו ישירות לשיפורים איטרטיביים בפרוטוקולי הבטיחות של המודלים.
הופעתן של חברות מתמחות
הופעתן של חברות מתמחות כמו Enkrypt AI מדגישה את הצורך בהערכות אבטחה חיצוניות ועצמאיות המספקות בדיקה מכרעת על תהליכי פיתוח פנימיים. דוחות red teaming משפיעים יותר ויותר על האופן שבו מודלי בינה מלאכותית מפותחים ונפרסים. שיקולי בטיחות היו לעתים קרובות מחשבה שנייה, אך כעת יש דגש גדול יותר על פיתוח “אבטחה תחילה”: שילוב red teaming בשלב התכנון הראשוני, והמשך לאורך מחזור החיים של המודל.
הדו”ח של Enkrypt AI משמש תזכורת קריטית לכך שפיתוח בינה מלאכותית בטוחה ואחראית הוא תהליך מתמשך הדורש ערנות מתמדת ואמצעים יזומים. החברה תומכת ביישום מיידי של אסטרטגיות הפחתה חזקות בתעשייה, תוך הדגשת הצורך בשקיפות, אחריותיות ושיתוף פעולה כדי להבטיח שבינה מלאכותית תועיל לחברה תוך הימנעות מסיכונים בלתי מתקבלים על הדעת. אימוץ גישת אבטחה זו חיוני לעתיד הבינה המלאכותית הגנרטיבית, לקח שחוזק על ידי הממצאים המטרידים לגבי מודלי Pixtral של מיסטרל.
טיפול במודלי AI מתקדמים ובאחריות האתית של מפתחים
התקרית משמשת תזכורת קריטית לאתגרים הטמונים בפיתוח בינה מלאכותית בטוחה ואחראית, ולצורך באמצעים יזומים למניעת שימוש לרעה ולהגנה על אוכלוסיות פגיעות. שחרור הדו”ח צפוי להזין דיון נוסף על הרגולציה של מודלי AI מתקדמים והאחריות האתית של מפתחים. פיתוח מודלי AI גנרטיביים מתרחש בקצב מהיר להפליא, וזה חיוני שאמצעי האבטחה יעמדו בקצב של הנוף המתפתח ללא הרף. הדו”ח של Encrypt AI מביא את הדיון על בטיחות בינה מלאכותית לחזית ומקווה שיניע שינוי משמעותי בדרך שבה מודלי AI אלה מפותחים.
הפגיעות הטבועה של AI וסיכוני אבטחה
מודלי AI מתקדמים, תוך שהם מתהדרים ביכולות שאין שני להן בעיבוד שפה טבעית, פתרון בעיות והבנה רב-מודלית, נושאים פגיעות טבועות החושפות סיכוני אבטחה קריטיים. אמנם חוזקם של מודלי השפה טמון ביכולת ההסתגלות והיעילות שלהם על פני יישומים מגוונים, אך ניתן לתפעל בדיוק את אותם המאפיינים. במקרים רבים, התוכן המזיק המופק על ידי מודלים שעוברים מניפולציה יכול להיות בעל השפעה משמעותית עלהחברה כולה, וזו הסיבה שחשוב להמשיך בזהירות מרבית.
ניתן לנצל את יכולת ההסתגלות של מודלי AI באמצעות טכניקות כמו התקפות יריבות, שבהן תשומות מעוצבות בקפידה כדי להטעות את המודל ליצירת פלטים לא מכוונים או מזיקים. ניתן למנף את היעילות שלהם על ידי שחקנים זדוניים כדי להפוך את יצירת כמויות גדולות של תוכן מזיק לאוטומטית, כגון דיסאינפורמציה או דברי שטנה. לכן, למודלי AI יש יתרונות ומלכודות שמפתחים תמיד צריכים להיות מודעים אליהם כדי לשמור על מודלים אלה בטוחים ככל האפשר.
הפוטנציאל לשימוש לרעה והצורך באמצעי בטיחות משופרים של AI
הקלות שבה ניתן לתפעל מודלי AI כדי ליצור תוכן מזיק מדגישה את הפוטנציאל לשימוש לרעה ומדגישה את הצורך הקריטי באמצעי בטיחות משופרים של AI. זה כולל יישום מסנני תוכן חזקים, שיפור היכולת של המודלים לזהות ולהתנגד להתקפות יריבות והקמת הנחיות אתיות ברורות לפיתוח ופריסה של AI. אמצעי הבטיחות צריכים להתעדכן גם הם ללא הרף כדי להבטיח שהמודלים יהיו בטוחים ככל האפשר מפני יצירת תוכן מזיק. ככל שיפותחו מודלי AI נוספים, כך האיומים נגד מודלים אלה יהפכו למתוחכמים יותר.
הגוף הגדל של דוחות Red Teaming ופיתוח “אבטחה תחילה”.
הגוף הגדל של דוחות red teaming מניע שינוי משמעותי באופן שבו מודלי AI מפותחים ונפרסים. בעבר, שיקולי הבטיחות היו לעתים קרובות מחשבה שנייה, שטופלה לאחר ביסוס הפונקציונליות העיקרית. כדי לשפר את הבטיחות של מודלי AI חדשים, יש לתת שיקול דעת לאמצעי הבטיחות בשלב מוקדם בתהליך. כעת, יש דגש גדול יותר על פיתוח “אבטחה תחילה” - שילוב red teaming בשלב התכנון הראשוני וללא הרף לאורך מחזור החיים של המודל. גישה יזומה זו חיונית להבטחת שמערכות AI מעוצבות להיות מאובטחות מההתחלה ושנקודות תורפה מזוהות ומטופלות בשלב מוקדם.
שקיפות, אחריותיות ושיתוף פעולה
הדו”ח מדגיש את הצורך בשקיפות, אחריותיות ושיתוף פעולה כדי להבטיח ש-AI יועיל לחברה מבלי להציב סיכונים בלתי מתקבלים על הדעת. שקיפות כוללת הפיכת העיצוב והתפעול של מערכות AI למובנות יותר לציבור, בעוד שאחריותיות פירושה הטלת אחריות על מפתחים לתוצאות של מערכות AI שלהם. שיתוף פעולה חיוני לשיתוף ידע ושיטות עבודה מומלצות בין חוקרים, מפתחים, קובעי מדיניות והציבור. על ידי עבודה משותפת, אנו יכולים ליצור מערכות AI שהן לא רק חזקות ומועילו
ת אלא גם בטוחות ואחראיות.
עתיד ה-AI הגנרטיבי וחשיבות הגישה של אבטחה תחילה
עתיד ה-AI הגנרטיבי תלוי באימוץ גישת “אבטחה תחילה” זו - לקח המודגש על ידי הממצאים המדאיגים לגבי מודלי Pixtral של מיסטרל. גישה זו כוללת מתן עדיפות לבטיחות ולאבטחה בכל שלב בתהליך פיתוח ה-AI, מהתכנון הראשוני ועד לפריסה ותחזוקה. על ידי אימוץ חשיבה של אבטחה תחילה, אנו יכולים לעזור להבטיח ש-AI גנרטיבי ישמש לטובה ושפוטנציאל הנזק שלו ימוזער. הדו”ח של Encrypt AI צריך להיות קריאה לפעולה לכל מי שעובד על מודלי AI גנרטיביים כדי להמשיך ולשפר את הבטיחות והאבטחה שלהם.
האופי הכפול של AI וחשיבות הערנות המתמשכת
הדו”ח של Enkrypt AI ממחיש ביעילות את האופי הכפול של AI, ומציג אותו הן ככלי פורץ דרך והן כווקטור פוטנציאלי לשימוש לרעה. כפילות זו מדגישה את הצורך בערנות מתמשכת ובאמצעים יזומים בפיתוח ופריסה של מערכות AI. ניטור, הערכה ושיפור מתמידים חיוניים כדי להפחית את הסיכונים הקשורים ל-AI תוך ניצול היתרונות הפוטנציאליים שלו. על ידי שמירה על ערנות ויוזמה, אנו יכולים לשאוף ליצור מערכות AI המשרתות את האינטרסים הטובים ביותר של האנושות.
האתגרים של פיתוח AI בטוח ואחראי
התקרית עם מודלי Pixtral של מיסטרל מדגישה את האתגרים הרבים בפיתוח AI בטוח ואחראי. האופי המתפתח ללא הרף של AI דורש התאמה ושיפור מתמידים של אמצעי הבטיחות. הפוטנציאל של שחקנים זדוניים לנצל מודלי AI מדגיש את הצורך בפרוטוקולי אבטחה חזקים וניטור ערני. על ידי הכרה וטיפול באתגרים אלה, אנו יכולים לשפר את המאמצים שלנו להבטיח ש-AI יפותח וישתמש באחריות.
התפקיד המכריע של אסטרטגיות הפחתה חזקות
חברות פורסות red teams כדי להעריך סיכונים פוטנציאליים ב-AI שלהן. התקרית עם מודלי Pixtral של מיסטרל מדגישה עוד יותר את התפקיד המכריע של אסטרטגיות הפחתה חזקות בהגנה על מערכות AI ומניעת שימוש לרעה. אסטרטגיות אלה יכולות לכלול יישום אמצעי אבטחה בשכבות, פיתוח מערכות מתקדמות לגילוי איומים ויצירת פרוטוקולים ברורים למענה לאירועי אבטחה. על ידי מתן עדיפות לאסטרטגיות הפחתה, אנו יכולים להפחית את הסיכונים הקשורים ל-AI ולקדם את השימוש הבטוח והאחראי בו.
הדיון על הרגולציה של מודלי AI מתקדמים
לדו”ח של Enkrypt AI יש פוטנציאל לעורר דיון נוסף על הרגולציה של מודלי AI מתקדמים. דיון זה יכול להיות כרוך בבחינת הצורך בתקנות חדשות, חיזוק תקנות קיימות או אימוץ גישות חלופיות כגון ויסות עצמי ותקני תעשייה. חיוני להבטיח שמסגרת רגולטורית כלשהי תתייחס כראוי לאתגרים ולסיכונים הספציפיים הקשורים ל-AI תוך טיפוח חדשנות וצמיחה בתחום.
המשמעות של תקשורת ושיתוף פעולה
התקשורת של Enkrypt AI עם מיסטרל בנוגע לסוגיות שזוהו מדגישה את המשמעות של תקשורת ושיתוף פעולה בטיפול באתגרי AI ושיתוף מחקר חיוני. על ידי עבודה משותפת, ארגונים יכולים לשלב את המומחיות, המשאבים והידע שלהם כדי לפתח פתרונות יעילים יותר ולקדם את הפיתוח הבטוח והאחראי של AI. גישה שיתופית זו יכולה להניע התקדמות משמעותית לקראת הבטחה שה-AI יועיל לחברה כולה.