אסטרטגיות למניעת Deepfakes של בינה מלאכותית

טכנולוגיית ה-deepfake מתפתחת במהירות, ומציבה אתגרים חסרי תקדים לאמון החברתי ולאבטחת המידע. מכיוון שהיכולת למנוע התפשטות של deepfakes תלויה בהבנה מקיפה של טכנולוגיית ה-deepfake, מאמר זה יבחן כיצד למנוע טכנולוגיות deepfake של בינה מלאכותית.

המנועים של Deepfake: ניתוח טכני

בבסיס ה-deepfakes נמצאים מודלים גנרטיביים, בינה מלאכותית המסוגלת ללמוד ממערכי נתונים עצומים וליצור תמונות, סרטונים ואודיו מציאותיים. בשנים האחרונות, רשתות יריבות גנרטיביות (GAN) התפתחו למודלי דיפוזיה, שהם בעלי יכולות חזקות עוד יותר. לכן, הכרחי לבצע ניתוח טכני של מנועים גנרטיביים אלה על מנת לבנות מסגרת מניעה חזקה.

משחק יריבות: רשתות יריבות גנרטיביות (GAN)

GAN מורכב משתי רשתות עצביות: מחולל ומבחין. המשימה של המחולל היא ליצור נתונים סינתטיים המחקים נתוני עולם אמיתי. הוא מתחיל עם קלט אקראי (המכונה לעתים קרובות וקטור סמוי) ומנסה להפוך אותו לפלט קוהרנטי. המבחין, לעומת זאת, פועל כמסווג, המעריך את הנתונים כדי לקבוע אם הם אמיתיים (מתוך מערך נתונים של אימונים אמיתיים) או מזויפים (שנוצרו על ידי המחולל).

תהליך האימון כולל לולאת משוב מתמשכת בין שתי הרשתות, בדומה למשחק סכום אפס. המחולל יוצר תמונה מזויפת ומעביר אותה למבחין, שמקבל גם תמונות אמיתיות ממערך הנתונים של האימונים. לאחר מכן, המבחין מנבא את אמיתותה של כל תמונה. אם המבחין מזהה נכון את הפלט של המחולל כמזויף, הוא מספק משוב. המחולל משתמש במשוב זה באמצעות הפצה לאחור כדי להתאים את הפרמטרים הפנימיים שלו, על מנת ליצור תמונה משכנעת יותר באיטרציה הבאה. במקביל, המבחין מתאים את הפרמטרים שלו כדי לזהות טוב יותר זיופים. תחרות יריבות זו נמשכת עד שהמערכת מגיעה לנקודת שיווי משקל, המכונה לעתים שיווי משקל נאש, שבו הפלט של המחולל מציאותי כל כך שהמבחין אינו יכול עוד להבחין בינו לבין נתונים אמיתיים באופן מהימן ומנחש בדיוק של כ-50%.

GAN הוכיחו את עצמן כיעילות ביצירת מדיה סינתטית ויצרו את הבסיס למספר מודלים משפיעים של deepfake. ארכיטקטורות כמו Deep Convolutional GAN (DCGAN) הציגו שיפורים מרכזיים על ידי החלפת שכבות איגום ושימוש בנרמול אצוות כדי לשפר את היציבות. StyleGAN של NVIDIA ויורשיו StyleGAN2 ו-StyleGAN3 השיגו ריאליזם צילומי חסר תקדים ביצירת פנים על ידי תיקון חפצי אומנות וקידום ארכיטקטורות מודלים. וריאציות אחרות כמו CycleGAN אפשרו משימות העברת סגנון וכתוצאה מכך שימשו באופן נרחב ביישומים כמו Face App לשינוי גיל ההופעה של האדם.

למרות עוצמתם, ידוע שקשה לאמן GAN. האיזון העדין בין המחולל למבחין יכול להישבר בקלות, ולגרום לחוסר יציבות באימונים, להתכנסות איטית, או למצב כשל קריטי המכונה “קריסת מצבים”. קריסת מצבים מתרחשת כאשר המחולל מגלה חולשה במבחין ומנצל אותה על ידי יצירת מגוון מוגבל בלבד של פלטים שהוא יודע שיכולים להטעות את המבחין, מה שמונע ממנו ללכוד את המגוון האמיתי של נתוני האימונים. אתגרים מובנים אלה, יחד עם חפצי האומנות העדינים שהם יוצרים לעתים קרובות, הפכו למטרות עיקריות עבור מערכות זיהוי deepfake מוקדמות.

היפוך הכאוס: מודלי דיפוזיה

בחזית הבינה המלאכותית הגנרטיבית, הטכנולוגיה העדכנית ביותר עברה באופן מכריע לקבוצה חדשה של מודלים: מודלי דיפוזיה. מודלי דיפוזיה, בהשראת מושגים מתרמודינמיקה שאינה בשיווי משקל, פועלים על פי עקרונות שונים באופן בסיסי מאלה של תחרות יריבה של GAN. הם מודלים גנרטיביים הסתברותיים היוצרים נתונים באיכות ומגוון יוצאי דופן על ידי למידה כיצד להפוך תהליך של קלקול הדרגתי.

המנגנון של מודלי דיפוזיה הוא תהליך דו-פאזי:

  1. תהליך דיפוזיה קדימה: שלב זה מוסיף באופן שיטתי ובהדרגה כמויות קטנות של רעש גאוסי לתמונה לאורך פרק זמן (למשל, T שלבים). זהו תהליך שרשרת מרקוב שבו כל שלב מותנה בקודמו, ומפחית בהדרגה את איכות התמונה עד שבשלב הזמן הסופי T היא הופכת לבלתי ניתנת להבחנה מרעש לא מובנה טהור.

  2. תהליך הסרת רעשים הפוך: המפתח למודל הוא רשת עצבית (שנלקחת לעתים קרובות מארכיטקטורת U-Net) שאומנה להפוך את התהליך הזה. היא לומדת לחזות את הרעש שנוסף בכל שלב זמן בתהליך קדימה ולהחסיר אותו. לאחר האימון, המודל יכול ליצור תמונות חדשות ואיכותיות על ידי עיבוד שבבים שלבים לאחור החל מדגימה אקראית של רעש, והחלה באופן איטרטיבי את ה”הסרת רעשים” הנלמדת הזו כדי להפוך כאוס לדגימות קוהרנטיות מהתפלגות נתוני המקור.

תהליך עידון איטרטיבי זה מאפשר למודלי דיפוזיה להשיג רמות של ריאליזם צילומי ומגוון טובות יותר אפילו מאלה של ה-GAN הטובים ביותר. הם גם יציבים יותר לאימון מאשר GAN, ונמנעים מבעיות כגון קריסת מצבים ומייצרים פלטים אמינים ומגוונים יותר. היתרון הטכני הזה הפך את מודלי הדיפוזיה לבסיס לכלי הבינה המלאכותית הגנרטיבית הבולטים והחזקים ביותר כיום, כולל מודלים להמרת טקסט לתמונה כגון DALL-E 2 של OpenAI, Imagen של Google ו-Stable Diffusion של Stability AI, כמו גם מודלים להמרת טקסט לסרטון כגון Sora של OpenAI. הזמינות הנרחבת ואיכות הפלט היוצאת דופן של מודלים אלה שדרגו באופן דרמטי את איום ה-deepfake.

מודוס אופרנדי

בין אם מדובר ב-GAN או במודל דיפוזיה, המנועים הגנרטיביים הבסיסיים מיושמים באמצעות מספר טכניקות ספציפיות ליצירת סרטוני deepfake. שיטות אלה מתמרנות היבטים שונים של סרטון יעד כדי להשיג את האפקט ההטעיה הרצוי.

  • Reenactment: טכניקה זו מעבירה הבעות פנים, תנועות ראש ופונמות הקשורות לדיבור של דמות מקורית ליעד בסרטון. התהליך כולל בדרך כלל שלושה שלבים עיקריים: ראשית, מעקב אחר תווי פנים בסרטוני המקור והיעד; שנית, יישור תכונות אלה עם מודל פנים תלת-ממדי משותף באמצעות מדדי עקביות; ושלישית, העברת הבעות מהמקור ליעד ואחריה עידון כדי לשפר את הריאליזם והעקביות.

  • סינכרון שפתיים (Lip Syncing): טכניקות deepfake של סינכרון שפתיים מתמקדות במיוחד בדיבור, ומשתמשות בעיקר בקלט שמע ליצירת תנועות שפתיים מציאותיות. אודיו מומר לצורות ומרקמים דינמיים של הפה, ולאחר מכן מותאם ומעורבב בקפידה לסרטון היעד כדי ליצור את האשליה של האדם אומר את האודיו המקורי.

  • סינתזה מבוססת טקסט: גישה מעודנת במיוחד זו משנה סרטונים על סמך תסריט טקסט. היא עובדת על ידי ניתוח הטקסט לפונמות המרכיבות אותו (יחידות קוליות) וויזמות (ייצוגים חזותיים של צלילי דיבור). אלה מותאמים לאחר מכן לרצפים המתאימים בסרטון המקור, ומשתמשים בפרמטרים ממודלי ראש תלת-ממדיים כדי ליצור ולהחליק תנועות שפתיים כך שיתאימו לטקסט החדש, ולאפשר עריכה בין אם נראה שאדם אומר.

ההתקדמות הטכנולוגית מ-GAN למודלי דיפוזיה היא יותר משיפור מצטבר; זהו שינוי פרדיגמה המשנה באופן בסיסי את הנוף של אסטרטגיית המניעה של deepfake. ל-GAN, למרות עוצמתם, היו חולשות ארכיטקטוניות ידועות כגון חוסר יציבות באימונים וקריסת מצבים, שלעתים קרובות הובילו לחפצי אומנות צפויים וניתנים לזיהוי בתחום התדרים של התמונה. כתוצאה מכך, דור שלם של כלי זיהוי נבנו במיוחד כדי לזהות את טביעות האצבע הספציפיות ל-GAN הללו. מודלי דיפוזיה, לעומת זאת, יציבים יותר לאימון, ומפיקים פלטים מגוונים ומציאותיים יותר, קרובים יותר מבחינה סטטיסטית לתמונות אמיתיות ואינם סובלים מרבות מהחולשות הברורות של קודמיהם.

כתוצאה מכך, חלק ניכר מהתשתית הקיימת לזיהוי deepfake מתיישנת במהירות. מחקרים הראו כי גלאים שאומנו על תמונות שנוצרו על ידי GAN חווים “ירידה חמורה בביצועים” כאשר הם מיושמים על תוכן ממודלי דיפוזיה. עם זאת, ראוי לציין כי גלאים שאומנו על תמונות של מודלי דיפוזיה יכולים לזהות בהצלחה תוכן שנוצר על ידי GAN, אך לא להפך, מה שמצביע על כך שמודלי דיפוזיה מייצגים מחלקה מורכבת ומאתגרת יותר של זיופים. למעשה, הדבר איפס ביעילות את מרוץ החימוש הטכנולוגי, והצריך עיצוב מחדש של אסטרטגיות הגנה כדי להתמודד עם המאפיינים הייחודיים והמדויקים יותר של מדיה שנוצרה באמצעות דיפוזיה.

יתר על כן, האופי של “קופסה שחורה” של הדורות המודלים הללו מסבך מאמצי מניעה ממקור. גם GAN וגם מודלי דיפוזיה פועלים בצורה לא מפוקחת או חצי מפוקחת, ולומדים לחקות את ההתפלגות הסטטיסטית של מערכי נתונים מבלי להזדקק לתוויות סמנטיות מפורשות. הם לא לומדים “מה זה פנים” בדרך שאדם יכול להבין, אלא “אילו דפוסי פיקסלים אפשריים במערך נתונים של פנים”. הדבר מקשה ביותר על תכנות ישיר של אילוצים לתוך תהליך היצירה (למשל, “אל תיצור תמונות מזיקות”). המודל פשוט ממטב פונקציה מתמטית: או להטעות את המבחין או להפוך תהליך רעש. משמעות הדבר היא שמניעה אינה יכולה להסתמך על רשויות פיקוח על האלגוריתם הליבתי מבפנים. ההתערבויות הכדאיות ביותר חייבות להתרחש לפני היצירה (באמצעות שליטה בנתוני האימונים) או אחריה (באמצעות זיהוי, סימון מים ומקור), מכיוון שהמעשה עצמו של יצירה הוא מטבעו עמיד בפני ממשל ישיר.

ניתוח השוואתי של מנועים גנרטיביים

הבנת ההבדלים האסטרטגיים בין GAN למודלי דיפוזיה היא חיונית עבור כל בעל עניין, החל ממקבלי מדיניות ועד גורמי ביטחון ארגוניים. המעבר משליטה טכנולוגית מהראשון לאחרון השפיע עמוקות על קושי הזיהוי, פוטנציאל ההטעיה ונוף האיומים הכולל.

תכונה רשתות יריבות גנרטיביות (GAN) מודלי דיפוזיה השלכות אסטרטגיות
מנגנון ליבה מחולל ומבחין מתחרים במשחק סכום אפס. רשת עצבית לומדת להפוך תהליך “הרעשה” הדרגתי. תהליך העידון האיטרטיבי של דיפוזיה מיישב רמות גבוהות יותר של דיוק ופחות שגיאות מבניות.
תהליך אימון ידוע לשמצה בחוסר היציבות שלו; רגיש לקריסת “מצבים” והתכנסות איטית. יציבים ומהימנים יותר לאימון, אם כי עתירי חישוב. סף כניסה נמוך יותר להשגת תוצאות איכותיות באמצעות מודלי דיפוזיה מדמוקרט את האיום.
איכות פלט יכול ליצור תמונות איכותיות אך עשוי להכיל חפצי אמנות עדינים. רמות השיא הנוכחיות של ריאליזם צילומי ומגוון; לעתים קרובות אי אפשר להבדיל מתמונות אמיתיות. זיופים הופכים משכנעים יותר ויותר, ומכשיד את ההיוריסטיקה של “לראות זה להאמין” ומאתרים זיהוי אנושי.
ניתנות לזיהוי שיטות זיהוי ישנות יותר מותאמות לעתים קרובות למציאת חפצי אמנות ספציפיים ל-GAN (למשל, חוסר איזון בתדר). מיישן גלאים רבים מבוססי GAN. תמונות מכילות פחות חפצי אמנות, ותואמות טוב יותר מבחינה סטטיסטית לנתונים אמיתיים. “מרוץ החימוש” של deepfake אופס. מו”פ של זיהוי חייב לעבור להתמקדות בספציפי ספציפי לדיפוזיה.
דגמים בולטים StyleGAN, CycleGAN DALL-E, Stable Diffusion, Imagen, Sora הכלים החזקים והשימושיים ביותר כיום מבוססים על דיפוזיה, ומאיצים את האיום.

מערכת חיסון דיגיטלית: ניתוח השוואתי של גישות זיהוי

בתגובה לריבוי המדיה הסינתטית, הופיע שדה מגוון של גישות זיהוי, המהוות “מערכת חיסון דיגיטלית” מתפתחת. טכניקות אלה נעות בין ניתוח משפטי של חפצי אומנות דיגיטליים לגישה לשיטות חדשות לגילוי אותות ביולוגיים סמויים. עם זאת, יעילותה של מערכת חיסון זו מותנית כל הזמן בהתפתחויות המהירות של מודלים גנרטיביים ובהתקפות יריבות שנועדו להתחמק מזיהוי. המאבק המתמשך בין יצירה לגילוי הוא פרדוקס “מלכת אדום”, שבו על המגינים לחדש ללא הרף רק כדי לשמור על המצב הקיים.

ניתוח משפטי של חפצי אומנות דיגיטליים

הקטגוריה המבוססת ביותר של זיהוי deepfake כרוכה בניתוח משפטי של חפצי אומנות דיגיטליים, שהם פגמים וחוסר עקביות עדינים שנותרו מאחור בתהליך היצירה. פגמים וחוסר עקביות אלה הם לעתים קרובות קשים לזיהוי ובלתי ניתנים לזיהוי בעין בלתי מזוינת, אך ניתן לזהותם באמצעות אלגוריתמים מיוחדים.

  • חוסר עקביות חזותית ואנטומית: גם חלק מהמודלים הגנרטיביים המוקדמים וגם הנוכחיים נאבקים לשכפל בצורה מושלמת את המורכבות של האנטומיה האנושית ואת הפיזיקה המציאותית של העולם האמיתי. שיטות זיהוי מנצלות פגמים אלה על ידי ניתוח חריגות ספציפיות במדיה. אלה כוללים דפוסי מצמוץ לא טבעיים, בין אם יותר מדי מצמוצים, מעט מדי ובין אם בכלל לא (הנובעים לעתים קרובות מהיעדר תמונות עיניים עצומות בנתוני האימונים), תנועות עיניים רובוטיות או לא עקביות, ושפתיים או צורות פה מאולצות שלעילות לא מראות שיניים תחתונות. אינדיקטורים אחרים הם היעדר שינויים עדינים בנחיריים במהלך דיבור, תאורה וצללים לא עקביים שאינם תואמים לסביבה המקיפה, ושגיאות או השמטות בהשתקפויות על משקפיים או משטחים מחזירי אור אחרים.

  • ניתוח פיקסלים ודחיסה: טכניקות אלה פועלות ברמה נמוכה יותר, ובודקות את המבנה הדיגיטלי של תמונה או סרטון. ניתוח רמת שגיאה (ELA) היא שיטה המזהה אזורים בתמונה שיש להם רמות דחיסה שונות. מכיוון שאזורים שעברו מניפולציה נשמרים או נדחסים מחדש לעתים קרובות, הם עשויים להציג רמות שגיאה השונות משאר חלקי התמונה המקוריים, ובכך להדגיש זיופים. קרוב לכך הוא ניתוח קצוות ומיזוג, הבודק בקפידה את הגבולות והמתארים בין אלמנטים סינתטיים (למשל, פנים מוחלפים) לרקע אמיתי. אזורים אלה עשויים לחשוף מניפולציה באמצעות סימנים כגון פיקסליזציה לא תואמת, חדות או טשטוש לא טבעיים והבדלים עדינים בצבע ובמרקם.

  • ניתוח תחום תדרים: במקום לנתח ישירות פיקסלים, שיטות אלה ממירות תמונות לרכיבי התדר שלהן כדי למ