מעבר לרשת: TokenSet והמהפכה הסמנטית ב-AI חזותי

המסע להקנות למכונות את היכולת להבין וליצור מידע חזותי התמודד זמן רב עם אתגר יסודי: כיצד לייצג ביעילות את מארג הפיקסלים העשיר המרכיב תמונה. במשך שנים, האסטרטגיה הדומיננטית שיקפה מחזה בשתי מערכות. ראשית, דחיסת נתוני הראייה הנרחבים לצורה ניתנת לניהול וקומפקטית יותר – הייצוג הסמוי (latent representation). שנית, בניית מודלים מתוחכמים ללמוד ולשכפל את הדפוסים בתוך המרחב הדחוס הזה. עם זאת, מגבלה מתמדת העיבה על מאמצים אלה: הנטייה של טכניקות טוקניזציה קונבנציונליות להתייחס לכל חלקי התמונה בשוויון דמוקרטי, ללא קשר לחשיבותם האינפורמטיבית.

הצוואר בקבוק במכונות רואות: מגבלות האחידות

דמיינו שאתם מזמינים אמן אך מתעקשים שישתמש באותו גודל משיכת מכחול ורמת פירוט בדיוק עבור כל סנטימטר רבוע של הבד. ההבעות המורכבות על פנים אנושיות לא יקבלו יותר תשומת לב מאשר המרחב האחיד של שמיים כחולים בהירים או קיר חסר מאפיינים. אנלוגיה זו לוכדת את מהות הבעיה הפוקדת שיטות ייצוג חזותי מסורתיות רבות. טכניקות הנובעות מ-Variational Autoencoders (VAEs), שהיו חלוצות במיפוי תמונות למרחבים סמויים רציפים, ויורשיהן כמו VQVAE ו-VQGAN, שהפכו מרחבים אלה לרצפים בדידים של טוקנים, כופות לעתים קרובות יחס דחיסה מרחבי אחיד.

משמעות הדבר היא שאזור השופע אובייקטים מורכבים, טקסטורות ואינטראקציות – אולי החזית של סצנת רחוב שוקקת – מקבל את אותו “תקציב” ייצוגי כמו אזור רקע פשוט והומוגני. חוסר יעילות מובנה זה מבזבז קיבולת ייצוגית על אזורים פחות קריטיים, בעוד שהוא עלול להרעיב אזורים מורכבים יותר מהפירוט הדרוש לשחזור או יצירה באיכות גבוהה.

התקדמויות מאוחרות יותר ניסו להקל על בעיות אלה, אך לעתים קרובות הציגו מורכבויות משלהן:

  • גישות היררכיות: מודלים כמו VQVAE-2, RQVAE ו-MoVQ הציגו ייצוגים רב-שכבתיים, בניסיון ללכוד מידע בקני מידה שונים באמצעות קוונטיזציה שאריתית (residual quantization). בעוד שהם הוסיפו שכבות של הפשטה, הבעיה הבסיסית של טיפול אחיד פוטנציאלי בתוך השכבות עלולה להימשך.
  • אתגרי קנה מידה של ספר קודים (Codebook): מאמצים כמו FSQ, SimVQ ו-VQGAN-LC התמקדו בטיפול ב”קריסת הייצוג” (representation collapse) שיכולה להתרחש בניסיון להגדיל את גודל אוצר המילים (ספר הקודים) של הטוקנים, צעד הכרחי ללכידת פרטים עדינים יותר. עם זאת, ניהול יעיל של אוצר מילים בדיד גדול זה נותר משוכה.
  • אסטרטגיות איגום (Pooling): שיטות מסוימות מסתמכות על פעולות איגום כדי לחלץ תכונות בממדים נמוכים יותר. בעוד שהן יעילות למשימות מסוימות כמו סיווג, פעולות איגום מטבען צוברות מידע, ולעתים קרובות מאבדות פרטים עדינים. באופן מכריע, גישות אלה בדרך כלל חסרות אותות פיקוח ישירים על האלמנטים הבודדים התורמים לתכונה המאוגדת, מה שמקשה על אופטימיזציה של הייצוג למשימות יצירתיות שבהן הפירוט הוא בעל חשיבות עליונה. התכונות המתקבלות יכולות להיות תת-אופטימליות לשחזור או יצירה מדויקת של תוכן חזותי מורכב.
  • התאמה מבוססת התאמה (Correspondence-Based Matching): טכניקות השואבות השראה ממידול קבוצות (set modeling), שהתפתחו ממושגים פשוטים יותר של Bag-of-Words, משתמשות לעתים באלגוריתמי התאמה דו-צדדיים (כמו האלגוריתם ההונגרי המשמש ב-DETR או TSPN) כדי ליצור התאמות בין אלמנטים חזויים לאמת המידה (ground truth). עם זאת, תהליך ההתאמה עצמו יכול להכניס חוסר יציבות. אות הפיקוח המוקצה לאלמנט חזוי ספציפי יכול להשתנות מאיטרציית אימון אחת לאחרת בהתאם לתוצאת ההתאמה, מה שמוביל לגרדיאנטים לא עקביים ועלול להפריע להתכנסות יעילה. המודל עלול להתקשות ללמוד ייצוגים יציבים כאשר המטרות שלו משתנות כל הזמן.

הנושא הבסיסי המשותף לגישות מגוונות אלה הוא מאבק נגד המגבלות המוטלות על ידי ייצוגים נוקשים, לרוב מבוססי רצף, והקושי בהקצאה דינמית של משאבי ייצוג היכן שהם נחוצים ביותר – בהתאם למשמעות הסמנטית הטבועה באזורי התמונה עצמם.

חשיבה מחדש על פיקסלים: שחר הראייה מבוססת הקבוצות

מתוסכלים ממגבלות הייצוגים הרציפים והדחוסים באופן אחיד, חוקרים מאוניברסיטת המדע והטכנולוגיה של סין (University of Science and Technology of China) ומ-Tencent Hunyuan Research פנו לדרך אחרת. הם הטילו ספק בהנחה הבסיסית שתמונות חייבות להיות מעובדות כרצפים מסודרים של טוקנים, בדומה למילים במשפט. התשובה החדשנית שלהם היא TokenSet, מסגרת המייצגת שינוי פרדיגמה לעבר גישה גמישה ומודעת יותר לסמנטיקה.

בבסיסה, TokenSet נוטשת את המבנה הנוקשה של רצפי טוקנים לטובת ייצוג תמונה כקבוצה לא סדורה של טוקנים. לשינוי פשוט לכאורה זה יש השלכות עמוקות:

  1. קיבולת ייצוגית דינמית: בניגוד לשיטות המחילות יחס דחיסה קבוע בכל מקום, TokenSet נועד להקצות באופן דינמי קיבולת קידוד. הוא מבין באופן אינטואיטיבי שאזורים שונים בתמונה נושאים כמויות שונות של משקל סמנטי. אזורים מורכבים, עשירים בפרטים ובמשמעות, יכולים לדרוש נתח גדול יותר ממשאבי הייצוג, בעוד שאזורי רקע פשוטים יותר דורשים פחות. זה משקף את התפיסה החזותית האנושית, שבה אנו ממקדים באופן טבעי יותר משאבים קוגניטיביים באובייקטים ופרטים בולטים.
  2. הקשר גלובלי משופר: על ידי התייחסות לטוקנים כחברים בקבוצה ולא כחוליות בשרשרת, TokenSet מנתק מטבעו את יחסי המיקום הבין-טוקניים הנכפים לעתים קרובות על ידי מודלים רציפים (כמו טרנספורמרים הפועלים על רצפי טלאים). כל טוקן בקבוצה יכול, באופן עקרוני, לשים לב או לשלב מידע מכל הטוקנים האחרים מבלי להיות מוטה על ידי סדר מרחבי שנקבע מראש. זה מאפשר צבירה מעולה של מידע הקשרי גלובלי, ומאפשר לייצוג ללכוד תלויות ארוכות טווח וקומפוזיציה כוללת של הסצנה בצורה יעילה יותר. שדה הקליטה התיאורטי של כל טוקן יכול להקיף את כל מרחב התכונות של התמונה.
  3. חוסן משופר: האופי הלא מסודר של ייצוג הקבוצה תורם לחוסן רב יותר מפני הפרעות מקומיות או שינויים מרחביים קלים. מכיוון שהמשמעות נגזרת מאוסף הטוקנים ולא מהרצף המדויק שלהם, סביר פחות ששינויים קלים או עיוותים בתמונת הקלט ישנו באופן דרסטי את הייצוג הכולל.

מעבר זה מרצף מרחבי נוקשה לקבוצה גמישה ולא מסודרת מאפשר ייצוג המותאם מטבעו יותר לתוכן התמונה, וסולל את הדרך להבנה ויצירה חזותית יעילה ומשמעותית יותר.

לכידת המהות: הקצאה דינמית ב-TokenSet

ההבטחה להקצאה דינמית של כוח ייצוגי בהתבסס על מורכבות סמנטית היא מרכזית למשיכה של TokenSet. כיצד הוא משיג הישג זה? בעוד שהמנגנונים הספציפיים כוללים ארכיטקטורות רשת עצביות מתוחכמות ומטרות אימון, העיקרון הבסיסי הוא חריגה מרשתות קבועות ועיבוד אחיד.

דמיינו שהתמונה מנותחת לא דרך תבנית לוח שחמט קבועה, אלא דרך תהליך מסתגל יותר. אזורים המזוהים כעשירים סמנטית – אולי מכילים אובייקטים מובחנים, טקסטורות מורכבות או אזורים חיוניים לנרטיב של התמונה – מפעילים הקצאה של טוקנים תיאוריים יותר או טוקנים בעלי קיבולת מידע גבוהה יותר. לעומת זאת, אזורים הנחשבים דלילים סמנטית, כמו רקעים אחידים או גרדיאנטים פשוטים, מיוצגים בצורה תמציתית יותר.

זה מנוגד באופן חד לשיטות מסורתיות שבהן, למשל, רשת של 16x16 טלאים מופקת, וכל טלאי מומר לטוקן, ללא קשר אם הוא מכיל אובייקט מורכב או רק חלל ריק. TokenSet, הפועל על עיקרון ייצוג הקבוצה, משתחרר מנוקשות מרחבית זו.

קחו לדוגמה את תמונת החוף:

  • גישה מסורתית: השמיים, האוקיינוס, החול והאנשים בחזית עשויים להיות מחולקים כל אחד לטלאים, וכל טלאי מקבל בערך משקל ייצוגי שווה. קיבולת רבה מושקעת בתיאור השמיים הכחולים ההומוגניים.
  • גישת TokenSet: המערכת תקצה באופן אידיאלי יותר משאבי ייצוג (אולי יותר טוקנים, או טוקנים מורכבים יותר) לדמויות ולאובייקטים המפורטים בחזית, תוך שימוש בפחות טוקנים או בטוקנים פשוטים יותר כדי ללכוד את מהות אזורי השמיים והים הרחבים והאחידים יחסית.

הקצאה מסתגלת זו מבטיחה ש”תשומת הלב” והנאמנות הייצוגית של המודל מרוכזות היכן שהן חשובות ביותר, מה שמוביל לקידוד יעיל ואפקטיבי יותר של הסצנה החזותית. זה דומה למתן תקציב גדול יותר לתיאור הדמויות הראשיות בסיפור בהשוואה לנופי הרקע.

מידול הלא-מסודר: פריצת הדרך של Fixed-Sum Discrete Diffusion

ייצוג תמונה כקבוצה לא סדורה של טוקנים הוא רק חצי מהקרב. החלק המכריע השני הוא להבין כיצד למדל את ההתפלגות של קבוצות אלה. כיצד מודל יצירתי יכול ללמוד את הדפוסים וההסתברויות המורכבים הקשורים לקבוצות תקפות של טוקנים המתאימות לתמונות ריאליסטיות, במיוחד כאשר הסדר אינו משנה? מודלים מסורתיים מבוססי רצף (כמו טרנספורמרים אוטורגרסיביים או מודלי דיפוזיה סטנדרטיים הפועלים על רצפים) אינם מתאימים למשימה זו.

כאן נכנסת לתמונה החדשנות הגדולה השנייה של מסגרת TokenSet: Fixed-Sum Discrete Diffusion (FSDD). החוקרים פיתחו את FSDD כמסגרת הדיפוזיה הראשונה שתוכננה במיוחד כדי להתמודד בו-זמנית עם האילוצים הייחודיים המוטלים על ידי ייצוג מבוסס הקבוצות שלהם:

  1. ערכים בדידים: הטוקנים עצמם הם ישויות בדידות הלקוחות מספר קודים (אוצר מילים) מוגדר מראש, ולא ערכים רציפים. FSDD פועל ישירות בתחום בדיד זה.
  2. אורך רצף קבוע (הבסיס לקבוצה): בעוד שהקבוצה אינה מסודרת, החוקרים קובעים בחוכמה מיפוי ביאקטיבי (התאמה חד-חד ערכית) בין קבוצות לא מסודרות אלה לרצפים שלמים מובנים באורך קבוע. מיפוי זה מאפשר להם למנף את כוחם של מודלי דיפוזיה, שבדרך כלל פועלים על קלטים בגודל קבוע. FSDD מותאם לעבודה עם רצפים מובנים אלה המייצגים את הקבוצות הלא מסודרות.
  3. אי-שונות סכום (Summation Invariance): תכונה זו, הספציפית לאופן שבו קבוצות ממופות לרצפים, קשורה ככל הנראה להבטחה שתכונות או אילוצים כוללים מסוימים של קבוצת הטוקנים נשמרים לאורך תהליך הדיפוזיה (הוספת רעש) וההיפוך (יצירה). FSDD מהונדס באופן ייחודי לכבד אי-שונות זו, שהיא חיונית למידול נכון של התפלגות הקבוצה.

מודלי דיפוזיה פועלים בדרך כלל על ידי הוספה הדרגתית של רעש לנתונים עד שהם הופכים לרעש טהור, ולאחר מכן אימון מודל להפוך תהליך זה, החל מרעש והסרת רעש הדרגתית ליצירת נתונים. FSDD מתאים פרדיגמה יצירתית חזקה זו למאפיינים הספציפיים של רצפי המספרים השלמים המובנים המייצגים את קבוצות הטוקנים הלא מסודרות.

על ידי התמודדות מוצלחת עם שלוש התכונות הללו בו-זמנית, FSDD מספק מנגנון עקרוני ויעיל ללימוד ההתפלגות של TokenSets. הוא מאפשר למודל היצירתי להבין מה מהווה קבוצה תקפה וסבירה של טוקנים לתמונה ריאליסטית וליצור קבוצות חדשות (ולכן תמונות חדשות) על ידי דגימה מהתפלגות נלמדת זו. גישת מידול מותאמת אישית זו היא קריטית למיצוי הפוטנציאל שלהייצוג מבוסס הקבוצות.

מהתיאוריה למעשה: אימות וביצועים

קונספט פורץ דרך דורש אימות קפדני. יעילותם של TokenSet ו-FSDD נבדקה על מערך הנתונים המאתגר ImageNet, אמת מידה סטנדרטית למשימות הבנה ויצירה של תמונות, תוך שימוש בתמונות שהוקטנו לרזולוציה של 256x256. הביצועים נמדדו בעיקר באמצעות ציון Frechet Inception Distance (FID) על קבוצת האימות של 50,000 תמונות. ציון FID נמוך יותר מצביע על כך שהתמונות שנוצרו דומות יותר סטטיסטית לתמונות אמיתיות במונחים של תכונות שחולצו על ידי רשת Inception שאומנה מראש, מה שמסמל איכות וריאליזם גבוהים יותר.

משטר האימון פעל לפי שיטות עבודה מומלצות, תוך התאמת אסטרטגיות מעבודות קודמות כמו TiTok ו-MaskGIT. היבטים מרכזיים כללו:

  • הגברת נתונים (Data Augmentation): טכניקות סטנדרטיות כמו חיתוך אקראי והיפוך אופקי שימשו לשיפור חוסן המודל.
  • אימון מקיף: רכיב הטוקנייזר אומן במשך מיליון צעדים עם גודל אצווה גדול, מה שהבטיח למידה יסודית של המיפוי מתמונה לטוקן.
  • אופטימיזציה: לוח זמנים מכוונן בקפידה של קצב למידה (חימום ואחריו דעיכה קוסינוס), חיתוך גרדיאנט (gradient clipping) וממוצע נע אקספוננציאלי (Exponential Moving Average - EMA) שימשו לאופטימיזציה יציבה ויעילה.
  • הנחיית מפלה (Discriminator Guidance): רשת מפלה שולבה במהלך האימון, וסיפקה אות אדוורסריאלי לשיפור נוסף של האיכות החזותית של התמונות שנוצרו ולייצוב תהליך האימון.

התוצאות הניסיוניות הדגישו מספר נקודות חוזק מרכזיות של גישת TokenSet:

  • אישור אי-שונות תמורה (Permutation Invariance): זה היה מבחן קריטי לקונספט מבוסס הקבוצות. מבחינה ויזואלית, תמונות ששוחזרו מאותה קבוצת טוקנים נראו זהות ללא קשר לסדר שבו הטוקנים עובדו על ידי המפענח. מבחינה כמותית, המדדים נותרו עקביים על פני תמורות שונות. זה מספק עדות חזקה לכך שהרשת למדה בהצלחה להתייחס לטוקנים כקבוצה לא מסודרת, ובכך מילאה את עקרון התכנון המרכזי, למרות שככל הנראה אומנה רק על תת-קבוצה של כל התמורות האפשריות במהלך תהליך המיפוי.
  • שילוב הקשר גלובלי מעולה: כפי שחזתה התיאוריה, הניתוק מסדר רציף קפדני אפשר לטוקנים בודדים לשלב מידע בצורה יעילה יותר על פני התמונה כולה. היעדר הטיות מרחביות הנגרמות על ידי רצף אפשר הבנה וייצוג הוליסטיים יותר של הסצנה, ותרם לשיפור איכות היצירה.
  • ביצועים מתקדמים (State-of-the-Art): הודות לייצוג המודע לסמנטיקה ולמידול המותאם של FSDD, מסגרת TokenSet הדגימה מדדי ביצועים מעולים בהשוואה לשיטות קודמות על אמת המידה ImageNet, מה שמצביע על יכולתה ליצור תמונות באיכות גבוהה וריאליסטיות יותר. היכולת הייחודית של FSDD לספק בו-זמנית את תכונות הבדידות, האורך הקבוע ואי-שונות הסכום התבררה כקריטית להצלחתה.

תוצאות אלה מאמתות באופן קולקטיבי את TokenSet לא רק כחידוש תיאורטי, אלא כמסגרת מעשית וחזקה לקידום חזית הטכנולוגיה בייצוג ויצירה חזותית.

השלכות ואופקים עתידיים

הצגת TokenSet והפילוסופיה מבוססת הקבוצות שלה מייצגת יותר מסתם שיפור הדרגתי; היא מסמנת שינוי פוטנציאלי באופן שבו אנו תופסים ומהנדסים מודלים יצירתיים עבור נתונים חזותיים. על ידי התרחקות ממגבלות הטוקנים המסודרים ואימוץ ייצוג המסתגל באופן דינמי לתוכן סמנטי, עבודה זו פותחת אפשרויות מסקרנות:

  • עריכת תמונות אינטואיטיבית יותר: אם תמונות מיוצגות על ידי קבוצות של טוקנים המתאימות לאלמנטים סמנטיים, האם ממשקים עתידיים יוכלו לאפשר למשתמשים לתפעל תמונות על ידי הוספה, הסרה או שינוי ישיר של טוקנים הקשורים לאובייקטים או אזורים ספציפיים? זה יכול להוביל לכלי עריכה אינטואיטיביים ומודעים יותר לתוכן.
  • יצירה קומפוזיציונית: האופי מבוסס הקבוצות עשוי להתאים טוב יותר להכללה קומפוזיציונית – היכולת ליצור שילובים חדשים של אובייקטים וסצנות שמעולם לא נראו במפורש במהלך האימון. הבנת תמונות כאוספים של אלמנטים יכולה להיות המפתח.
  • יעילות ומדרגיות: בעוד שנדרש מידול מתוחכם כמו FSDD, ההקצאה הדינמית של משאבים המבוססת על סמנטיקה עשויה להוביל לייצוגים יעילים יותר בסך הכל, במיוחד עבור תמונות ברזולוציה גבוהה שבהן אזורים נרחבים עשויים להיות פשוטים מבחינה סמנטית.
  • גישור בין ראייה לשפה: ייצוגי קבוצות נפוצים בעיבוד שפה טבעית (למשל, שקי מילים - bags of words). חקירת גישות מבוססות קבוצות בראייה עשויה להציע אפיקים חדשים למודלים רב-מודאליים המגשרים בין הבנה חזותית וטקסטואלית.

מסגרת TokenSet, הנתמכת על ידי טכניקת המידול החדשנית FSDD, מספקת הדגמה משכנעת לכוחה של חשיבה מחודשת על בחירות ייצוגיות בסיסיות. היא מאתגרת את ההסתמכות ארוכת השנים על מבנים רציפים עבור נתונים חזותיים ומדגישה את היתרונות של ייצוגים המודעים למשמעות הטבועה בפיקסלים. בעוד שמחקר זה מסמן צעד משמעותי, הוא משמש גם כנקודת מוצא. נדרשת חקירה נוספת כדי להבין ולנצל באופן מלא את הפוטנציאל של ייצוגים חזותיים מבוססי קבוצות, מה שעשוי להוביל לדור הבא של מודלים יצירתיים בעלי יכולות גבוהות ויעילים הרואים את העולם פחות כרצף ויותר כאוסף משמעותי של אלמנטים.