עלייתם של מודלים סיניים גנרטיביים של וידאו
אם שנת 2022 סימנה את השנה שבה AI גנרטיבי כבש את דמיונו של הציבור, שנת 2025 מתגבשת כשנה שבה גל חדש של מסגרות וידאו גנרטיביות מסין תופס את מרכז הבמה.
Hunyuan Video של Tencent כבר עשה גלים משמעותיים בקהילת חובבי ה-AI. שחרור הקוד הפתוח שלו של מודל דיפוזיית וידאו בעולם מלא מאפשר למשתמשים להתאים את הטכנולוגיה לצרכים הספציפיים שלהם.
בעקבותיו מגיע Wan 2.1 של Alibaba, ששוחרר לאחרונה. מודל זה בולט כאחד מפתרונות התוכנה החינמיים והפתוחים (FOSS) החזקים ביותר להמרת תמונה לווידאו הקיימים כיום, והוא תומך כעת בהתאמה אישית באמצעות Wan LoRAs.
בנוסף להתפתחויות אלו, אנו מצפים גם לשחרור חבילת יצירת ועריכת הווידאו המקיפה VACE של Alibaba, לצד הזמינות של מודל הבסיס האחרון המתמקד באדם, SkyReels.
סצנת המחקר של AI וידאו גנרטיבי מתפוצצת באותה מידה. זה עדיין תחילת מרץ, ובכל זאת ההגשות של יום שלישי למדור Computer Vision של Arxiv (מרכז מרכזי למאמרי AI גנרטיביים) הסתכמו בכמעט 350 ערכים - מספר שנראה בדרך כלל בשיא עונת הכנסים.
שנתיים מאז השקת Stable Diffusion בקיץ 2022 (והפיתוח שלאחר מכן של שיטות התאמה אישית של Dreambooth ו-LoRA) התאפיינו במחסור יחסי בפריצות דרך גדולות. עם זאת, השבועות האחרונים היו עדים לגל של מהדורות וחידושים חדשים, המגיעים בקצב כה מהיר עד שכמעט בלתי אפשרי להישאר מעודכן באופן מלא, שלא לדבר על כיסוי מקיף של הכל.
פתרון עקביות זמנית, אך אתגרים חדשים צצים
מודלים של דיפוזיית וידאו כמו Hunyuan ו-Wan 2.1 התייחסו, סוף סוף, לנושא העקביות הזמנית. לאחר שנים של ניסיונות לא מוצלחים ממאות יוזמות מחקר, מודלים אלה פתרו במידה רבה את האתגרים הקשורים ליצירת בני אדם, סביבות ואובייקטים עקביים לאורך זמן.
אין ספק שאולפני VFX מקדישים באופן פעיל צוות ומשאבים כדי להתאים את מודלי הווידאו הסיניים החדשים הללו. המטרה המיידית שלהם היא להתמודד עם אתגרים דחופים כמו החלפת פנים, למרות היעדרם הנוכחי של מנגנונים נלווים בסגנון ControlNet עבור מערכות אלה.
זו בטח הקלה עצומה שמכשול כה משמעותי עשוי להיפתר, גם אם זה לא היה דרך הערוצים הצפויים.
עם זאת, בין הבעיות שנותרו, אחת בולטת במיוחד:
לכל מערכות הטקסט לווידאו והתמונה לווידאו הזמינות כעת, כולל מודלים מסחריים בקוד סגור, יש נטייה לייצר טעויות המנוגדות לחוקי הפיזיקה. הדוגמה לעיל מציגה סלע מתגלגל במעלה הגבעה, שנוצר מההנחיה: ‘סלע קטן מתגלגל במורד גבעה תלולה וסלעית, ועוקר אדמה ואבנים קטנות’.
מדוע סרטוני AI טועים בפיזיקה?
תיאוריה אחת, שהוצעה לאחרונה בשיתוף פעולה אקדמי בין Alibaba ואיחוד האמירויות הערביות, מציעה שמודלים עשויים ללמוד בצורה שמעכבת את הבנתם את הסדר הזמני. גם כאשר מתאמנים על סרטונים (שמפורקים לרצפי פריימים בודדים לצורך אימון), מודלים עשויים שלא לתפוס באופן טבעי את הרצף הנכון של תמונות “לפני” ו”אחרי”.
עם זאת, ההסבר הסביר ביותר הוא שהמודלים המדוברים השתמשו בשגרות הגדלת נתונים. שגרות אלה כוללות חשיפת המודל לקליפ אימון מקור הן קדימה והן אחורה, מה שמכפיל למעשה את נתוני האימון.
ידוע מזה זמן מה שאין לעשות זאת ללא הבחנה. בעוד שתנועות מסוימות פועלות לאחור, רבות אינן. מחקר משנת 2019 מאוניברסיטת בריסטול בבריטניה נועד לפתח שיטה להבחנה בין קטעי וידאו של נתוני מקור אקוויוריאנטיים, אינוריאנטיים ובלתי הפיכים בתוך מערך נתונים יחיד. המטרה הייתה לסנן קליפים לא מתאימים משגרות הגדלת נתונים.
מחברי העבודה הזו ניסחו בבירור את הבעיה:
‘אנו מוצאים שהריאליזם של סרטונים הפוכים נבגד על ידי ארטיפקטים של היפוך, היבטים של הסצנה שלא היו אפשריים בעולם טבעי. חלק מהארטיפקטים עדינים, בעוד שאחרים קלים לזיהוי, כמו פעולת ‘זריקה’ הפוכה שבה האובייקט הנזרק עולה באופן ספונטני מהרצפה.
‘אנו מבחינים בשני סוגים של ארטיפקטים של היפוך, פיזיקליים, אלה המציגים הפרות של חוקי הטבע, ובלתי סבירים, אלה המתארים תרחיש אפשרי אך לא סביר. אלה אינם בלעדיים, ופעולות הפוכות רבות סובלות משני סוגי הארטיפקטים, כמו בעת פרימת פיסת נייר.
‘דוגמאות לארטיפקטים פיזיקליים כוללות: כוח משיכה הפוך (למשל ‘הפלת משהו’), דחפים ספונטניים על אובייקטים (למשל ‘סיבוב עט’), ושינויי מצב בלתי הפיכים (למשל ‘שריפת נר’). דוגמה לארטיפקט בלתי סביר: לקיחת צלחת מהארון, ייבושה והנחתה על מתקן הייבוש.
‘סוג זה של שימוש חוזר בנתונים נפוץ מאוד בזמן האימון, ויכול להועיל - למשל, כדי לוודא שהמודל לא לומד רק תצוגה אחת של תמונה או אובייקט שניתן להפוך או לסובב מבלי לאבד את הקוהרנטיות וההיגיון המרכזיים שלו.
‘זה עובד רק עבור אובייקטים שהם באמת סימטריים, כמובן; ולמידת פיזיקה מסרטון ‘הפוך’ עובדת רק אם הגרסה ההפוכה הגיונית באותה מידה כמו הגרסה הקדמית.’
אין לנו ראיות קונקרטיות לכך שמערכות כמו Hunyuan Video ו-Wan 2.1 אפשרו קליפים “הפוכים” שרירותיים במהלך האימון (אף קבוצת מחקר לא הייתה ספציפית לגבי שגרות הגדלת הנתונים שלהן).
עם זאת, בהתחשב בדיווחים הרבים (ובניסיון המעשי שלי), ההסבר הסביר היחיד הוא שמערכי הנתונים העצומים המניעים את המודלים הללו עשויים להכיל קליפים שמציגים באמת תנועות המתרחשות לאחור.
הסלע בסרטון הדוגמה המוטמע קודם לכן נוצר באמצעות Wan 2.1. הוא מוצג במחקר חדש שחוקר עד כמה מודלים של דיפוזיית וידאו מתמודדים עם פיזיקה.
בבדיקות עבור פרויקט זה, Wan 2.1 השיג ציון של 22% בלבד ביכולתו לדבוק בעקביות בחוקי הפיזיקה.
באופן מפתיע, זהו הציון הטוב ביותר מבין כל המערכות שנבדקו, מה שמרמז שאולי זיהינו את המכשול הגדול הבא עבור AI וידאו:
היכרות עם VideoPhy-2: מדד חדש להיגיון בריא פיזיקלי
מחברי העבודה החדשה פיתחו מערכת benchmarking, כעת באיטרציה השנייה שלה, הנקראת VideoPhy. הקוד זמין ב-GitHub.
בעוד שהיקף העבודה רחב מכדי לכסות כאן באופן מקיף, הבה נבחן את המתודולוגיה שלה ואת הפוטנציאל שלה לבסס מדד שיכול להנחות את מפגשי האימון העתידיים של המודל הרחק מהמקרים המוזרים הללו של היפוך.
המחקר, שנערך על ידי שישה חוקרים מ-UCLA ו-Google Research, נקרא VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. אתר פרויקט מקיף נלווה זמין גם הוא, יחד עם קוד ומערכי נתונים ב-GitHub, ומציג מערכי נתונים ב-Hugging Face.
המחברים מתארים את הגרסה העדכנית ביותר, VideoPhy-2, כ”מערך נתונים מאתגר להערכת היגיון בריא לפעולות בעולם האמיתי”. האוסף כולל 197 פעולות במגוון פעילויות פיזיות מגוונות, כולל חישוק, התעמלות וטניס, כמו גם אינטראקציות עם אובייקטים כמו כיפוף חפץ עד שהוא נשבר.
מודל שפה גדול (LLM) משמש ליצירת 3840 הנחיות מפעולות זרע אלו. הנחיות אלו משמשות לאחר מכן לסינתזה של סרטונים באמצעות המסגרות השונות הנבדקות.
לאורך התהליך, המחברים ערכו רשימה של כללים וחוקים פיזיקליים “מועמדים” שסרטוני AI שנוצרו צריכים לדבוק בהם, תוך שימוש במודלים של ראייה-שפה להערכה.
המחברים מציינים:
‘לדוגמה, בסרטון של ספורטאי משחק טניס, כלל פיזיקלי יהיה שכדור טניס צריך לעקוב אחר מסלול פרבולי תחת כוח המשיכה. עבור שיפוטים בתקן הזהב, אנו מבקשים ממעריכים אנושיים לדרג כל סרטון על סמך דבקות סמנטית כוללת והיגיון בריא פיזיקלי, ולסמן את תאימותו לכללים פיזיקליים שונים.’
אצירת פעולות ויצירת הנחיות
בתחילה, החוקרים אצרו קבוצה של פעולות כדי להעריך היגיון בריא פיזיקלי בסרטוני AI שנוצרו. הם התחילו עם למעלה מ-600 פעולות שמקורן במערכי הנתונים Kinetics, UCF-101 ו-SSv2, תוך התמקדות בפעילויות הכוללות ספורט, אינטראקציותעם אובייקטים ופיזיקה בעולם האמיתי.
שתי קבוצות עצמאיות של מעריכים סטודנטים בעלי הכשרה ב-STEM (עם הסמכה מינימלית לתואר ראשון) סקרו וסיננו את הרשימה. הם בחרו פעולות שבדקו עקרונות כמו כוח משיכה, מומנטום ואלסטיות, תוך הסרת משימות בתנועה נמוכה כמו הקלדה, ליטוף חתול או לעיסה.
לאחר עידון נוסף עם Gemini-2.0-Flash-Exp כדי למנוע כפילויות, מערך הנתונים הסופי כלל 197 פעולות. 54 כללו אינטראקציות עם אובייקטים, ו-143 התמקדו בפעילויות פיזיות וספורטיביות:
בשלב השני, החוקרים השתמשו ב-Gemini-2.0-Flash-Exp כדי ליצור 20 הנחיות עבור כל פעולה במערך הנתונים, וכתוצאה מכך נוצרו 3,940 הנחיות. תהליך היצירה התמקד באינטראקציות פיזיות גלויות שניתן לייצג בבירור בסרטון שנוצר. זה לא כלל אלמנטים לא חזותיים כגון רגשות, פרטים חושיים ושפה מופשטת, אך שילב דמויות ואובייקטים מגוונים.
לדוגמה, במקום הנחיה פשוטה כמו ‘קשת משחרר את החץ’, המודל הודרך לייצר גרסה מפורטת יותר כגון ‘קשת מותח את מיתר הקשת לאחור למתח מלא, ואז משחרר את החץ, שעף ישר ופוגע במטרה על נייר’.
מכיוון שמודלים מודרניים של וידאו יכולים לפרש תיאורים ארוכים יותר, החוקרים עידנו עוד יותר את הכיתובים באמצעות משפר ההנחיות Mistral-NeMo-12B-Instruct. זה הוסיף פרטים חזותיים מבלי לשנות את המשמעות המקורית.
גזירת כללים פיזיקליים וזיהוי פעולות מאתגרות
בשלב השלישי, כללים פיזיקליים נגזרו לא מהנחיות טקסט אלא מסרטונים שנוצרו. הסיבה לכך היא שמודלים גנרטיביים יכולים להתקשות לדבוק בהנחיות טקסט מותנות.
סרטונים נוצרו תחילה באמצעות הנחיות VideoPhy-2, ולאחר מכן “הועלו” עם Gemini-2.0-Flash-Exp כדי לחלץ פרטים מרכזיים. המודל הציע שלושה כללים פיזיקליים צפויים לכל סרטון. מעריכים אנושיים סקרו והרחיבו אותם על ידי זיהוי הפרות פוטנציאליות נוספות.
לאחר מכן, כדי לזהות את הפעולות המאתגרות ביותר, החוקרים יצרו סרטונים באמצעות CogVideoX-5B עם הנחיות ממערך הנתונים VideoPhy-2. לאחר מכן הם בחרו 60 מתוך 197 פעולות שבהן המודל נכשל בעקביות לעקוב הן אחר ההנחיות והן אחר היגיון בריא פיזיקלי בסיסי.
פעולות אלו כללו אינטראקציות עשירות בפיזיקה כגון העברת מומנטום בזריקת דיסקוס, שינויי מצב כמו כיפוף חפץ עד שהוא נשבר, משימות איזון כמו הליכה על חבל, ותנועות מורכבות שכללו סלטות לאחור, קפיצה במוט וזריקת פיצה, בין היתר. בסך הכל, נבחרו 1,200 הנחיות כדי להגביר את הקושי של תת-מערך הנתונים.
מערך הנתונים VideoPhy-2: משאב הערכה מקיף
מערך הנתונים שהתקבל כלל 3,940 כיתובים - פי 5.72 יותר מהגרסה הקודמת של VideoPhy. האורך הממוצע של הכיתובים המקוריים הוא 16 טוקנים, בעוד שכיתובים משופרים מגיעים ל-138 טוקנים - פי 1.88 ופי 16.2 ארוכים יותר, בהתאמה.
מערך הנתונים כולל גם 102,000 הערות אנושיות המכסות דבקות סמנטית, היגיון בריא פיזיקלי והפרות כללים על פני מודלים מרובים ליצירת וידאו.
הגדרת קריטריוני הערכה והערות אנושיות
לאחר מכן, החוקרים הגדירו קריטריונים ברורים להערכת הסרטונים. המטרה העיקרית הייתה להעריך עד כמה כל סרטון תאם את הנחיית הקלט שלו ופעל על פי עקרונות פיזיקליים בסיסיים.
במקום פשוט לדרג סרטונים לפי העדפה, הם השתמשו במשוב מבוסס דירוג כדי ללכוד הצלחות וכישלונות ספציפיים. מעריכים אנושיים דירגו סרטונים בסולם של חמש נקודות, מה שמאפשר שיפוטים מפורטים יותר. ההערכה בדקה גם האם סרטונים פעלו על פי כללים וחוקים פיזיקליים שונים.
להערכה אנושית, קבוצה של 12 מעריכים נבחרה מניסויים ב-Amazon Mechanical Turk (AMT) וסיפקה דירוגים לאחר קבלת הוראות מפורטות מרחוק. למען ההגינות, דבקות סמנטית והיגיון בריא פיזיקלי הוערכו בנפרד (במחקר VideoPhy המקורי, הם הוערכו במשותף).
המעריכים דירגו תחילה עד כמה סרטונים תאמו את הנחיות הקלט שלהם, ולאחר מכן העריכו בנפרד את הסבירות הפיזיקלית, דירגו הפרות כללים וריאליזם כללי בסולם של חמש נקודות. רק ההנחיות המקוריות הוצגו, כדי לשמור על השוואה הוגנת בין המודלים.
הערכה אוטומטית: לקראת הערכת מודל ניתנת להרחבה
למרות ששיפוט אנושי נותר תקן הזהב, הוא יקר ומגיע עם מספר הסתייגויות. לכן, הערכה אוטומטית חיונית להערכות מודל מהירות וניתנות להרחבה יותר.
מחברי המאמר בדקו מספר מודלים של וידאו-שפה, כולל Gemini-2.0-Flash-Exp ו-VideoScore, על יכולתם לדרג סרטונים עבור דיוק סמנטי ועבור “היגיון בריא פיזיקלי”.
המודלים שוב דירגו כל סרטון בסולם של חמש נקודות. משימת סיווג נפרדת קבעה האם כללים פיזיקליים נשמרו, הופרו או לא ברורים.
ניסויים הראו שמודלים קיימים של וידאו-שפה התקשו להתאים לשיפוטים אנושיים, בעיקר בשל חשיבה פיזיקלית חלשה ומורכבות ההנחיות. כדי לשפר את ההערכה האוטומטית, החוקרים פיתחו את VideoPhy-2-Autoeval, מודל בעל 7B פרמטרים שנועד לספק תחזיות מדויקות יותר על פני שלוש קטגוריות: דבקות סמנטית; היגיון בריא פיזיקלי; ותאימות לכללים. הוא כוונן על מודל VideoCon-Physics באמצעות 50,000 הערות אנושיות*.
בדיקת מערכות וידאו גנרטיביות: ניתוח השוואתי
עם כלים אלה במקום, המחברים בדקו מספר מערכות וידאו גנרטיביות, הן באמצעות התקנות מקומיות והן, במידת הצורך, באמצעות ממשקי API מסחריים: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; ו-Luma Ray.
המודלים הונחו עם כיתובים משופרים במידת האפשר, למעט Hunyuan Video ו-VideoCrafter2 הפועלים תחת מגבלות CLIP של 77 טוקנים ואינם יכולים לקבל הנחיות מעל אורך מסוים.
סרטונים שנוצרו נשמרו מתחת ל-6 שניות, מכיוון שפלט קצר יותר קל יותר להערכה.
הנתונים המניעים היו ממערך הנתונים VideoPhy-2, שחולק למדד ולערכת אימון. 590 סרטונים נוצרו לכל מודל, למעט Sora ו-Ray2; בשל גורם העלות, מספרים נמוכים יותר של סרטונים נוצרו עבור אלה.
ההערכה הראשונית עסקה בפעילויות פיזיות/ספורט (PA) ואינטראקציות עם אובייקטים (OI) ובדקה הן את מערך הנתונים הכללי והן את תת-הקבוצה ה”קשה” יותר שהוזכרה לעיל:
כאן המחברים מעירים:
‘אפילו המודל בעל הביצועים הטובים ביותר, Wan2.1-14B, משיג רק 32.6% ו-21.9% בחלוקות המלאות והקשות של מערך הנתונים שלנו, בהתאמה. ניתן לייחס את הביצועים החזקים יחסית שלו בהשוואה למודלים אחרים למגוון נתוני האימון הרב-מודאליים שלו, יחד עם סינון תנועה חזק ששומר על סרטונים באיכות גבוהה במגוון רחב של פעולות.
‘יתר על כן, אנו מבחינים שמודלים סגורים, כגון Ray2, מציגים ביצועים גרועים יותר ממודלים פתוחים כמו Wan2.1-14B ו-CogVideoX-5B. זה מצביע על כך שמודלים סגורים אינם בהכרח עדיפים על מודלים פתוחים בלכידת היגיון בריא פיזיקלי.
‘יש לציין, Cosmos-Diffusion-7B משיג את הציון השני הטוב ביותר בחלוקה הקשה, אפילו עולה על מודל HunyuanVideo-13B הגדול בהרבה. זה עשוי להיות בשל הייצוג הגבוה של פעולות אנושיות בנתוני האימון שלו, יחד עם סימולציות שנוצרו באופן סינתטי.’
התוצאות הראו שמודלים של וידאו התקשו יותר עם פעילויות פיזיות כמו ספורט מאשר עם אינטראקציות פשוטות יותר עם אובייקטים. זה מצביע על כך ששיפור סרטוני AI שנוצרו בתחום זה ידרוש מערכי נתונים טובים יותר - במיוחד צילומים באיכות גבוהה של ענפי ספורט כגון טניס, דיסקוס, בייסבול וקריקט.
המחקר בחן גם האם הסבירות הפיזיקלית של מודל מתואמת עם מדדי איכות וידאו אחרים, כגון אסתטיקה וחלקות תנועה. הממצאים לא גילו מתאם חזק, כלומר מודל אינו יכול לשפר את ביצועיו ב-VideoPhy-2 רק על ידי יצירת תנועה מושכת מבחינה ויזואלית או זורמת - הוא זקוק להבנה עמוקה יותר של היגיון בריא פיזיקלי.
דוגמאות איכותיות: הדגשת האתגרים
למרות שהמאמר מספק דוגמאות איכותיות רבות, נראה שמעט מהדוגמאות הסטטיות המסופקות ב-PDF קשורות לדוגמאות הווידאו הנרחבות שהמחברים מספקים באתר הפרויקט. לכן, נבחן מבחר קטן של הדוגמאות הסטטיות ולאחר מכן עוד כמה מסרטוני הפרויקט בפועל.
לגבי המבחן האיכותי לעיל, המחברים מעירים:
‘[אנו] מבחינים בהפרות של היגיון בריא פיזיקלי, כגון אופנועי ים הנעים באופן לא טבעי לאחור ועיוות של פטיש מוצק, המנוגדים לעקרונות האלסטיות. עם זאת, אפילו Wan סובל מהיעדר היגיון בריא פיזיקלי, כפי שמוצג [בסרטון המוטמע בתחילת מאמר זה].
‘במקרה זה, אנו מדגישים שסלע מתחיל להתגלגל ולהאיץ במעלה הגבעה, תוך הפרת חוק הכבידה הפיזיקלי.’
כפי שהוזכר בתחילת הדרך, נפח החומר הקשור לפרויקט זה עולה בהרבה על מה שניתן לכסות כאן. לכן, אנא עיין במאמר המקור, באתר הפרויקט ובאתרים הקשורים שהוזכרו קודם לכן לקבלת תיאור ממצה באמת של הנהלים של המחברים, ודוגמאות בדיקה ופרטים פרוצדורליים רבים יותר.
* באשר למקור ההערות, המאמר מציין רק ‘נרכשו עבור משימות אלה’ - נראה שזה הרבה מכדי שנוצר על ידי 12 עובדי AMT.