עליבאבא חושפת מודלי וידאו AI בקוד פתוח

צלילה לתוך I2VGen-XL: ערכת כלים רב-תכליתית

חבילת I2VGen-XL, שפותחה על ידי צוות Ema הייעודי של Alibaba, כוללת מספר גרסאות, שכל אחת מהן מותאמת לדרישות ביצועים ולמקרי שימוש ספציפיים. המודלים, שהוצגו לראשונה בינואר, נועדו ליצור סרטונים מציאותיים להפליא, תוך פריצת הגבולות של מה שניתן להשיג כיום ביצירת וידאו מונעת בינה מלאכותית. כלים חדישים אלה נגישים כעת ב-Hugging Face, מרכז בולט למשאבי AI ו-ML (למידת מכונה).

דף Hugging Face המוקדש לצוות Ema של Alibaba מציג את ארבעת המודלים המרכזיים בחבילת I2VGen-XL:

  • T2V-1.3B: מודל טקסט לווידאו עם 1.3 מיליארד פרמטרים.
  • T2V-14B: מודל טקסט לווידאו חזק יותר המתגאה ב-14 מיליארד פרמטרים.
  • I2V-14B-720P: מודל תמונה לווידאו עם 14 מיליארד פרמטרים, מותאם לרזולוציה של 720p.
  • I2V-14B-480P: מודל תמונה לווידאו עם 14 מיליארד פרמטרים, המותאם לרזולוציה של 480p.

המינוח מבחין בבירור בין פונקציות טקסט לווידאו (T2V) לבין תמונה לווידאו (I2V), ומאפשר למשתמשים לבחור את המודל המתאים ביותר לנתוני הקלט שלהם.

נגישות וביצועים: דמוקרטיזציה של יצירת וידאו

אחד ההיבטים הבולטים ביותר של מהדורת I2VGen-XL הוא הנגישות שלה. החוקרים שמאחורי הפרויקט הדגישו את היכולת להפעיל אפילו את הגרסה הקטנה ביותר, I2VGen-XL T2V-1.3B, על GPUs ברמת הצרכן. באופן ספציפי, GPU עם vRAM של 8.19GB בלבד מספיק. כדי לשים את זה בפרספקטיבה, הצוות מדווח שיצירת סרטון וידאו באורך חמש שניות ברזולוציה של 480p באמצעות Nvidia RTX 4090 אורכת כארבע דקות. רמת נגישות זו פותחת אפשרויות מרגשות עבור חוקרים, מפתחים ואפילו חובבים להתנסות ולתרום לקידום יצירת וידאו באמצעות AI.

מעבר לווידאו: חבילת AI רבת פנים

בעוד שההתמקדות העיקרית של חבילת I2VGen-XL היא יצירת וידאו, היכולות שלה חורגות מעבר לפונקציה המרכזית הזו. הארכיטקטורה הבסיסית נועדה לטפל במשימות שונות, כולל:

  • יצירת תמונה: יצירת תמונות סטטיות מהנחיות טקסטואליות או חזותיות.
  • יצירת וידאו לאודיו: סינתזה של אודיו המשלים את תוכן הווידאו שנוצר.
  • עריכת וידאו: שינוי ושיפור של צילומי וידאו קיימים.

עם זאת, חשוב לציין שהמודלים הנוכחיים בקוד פתוח עדיין אינם מצוידים במלואם לביצוע משימות מתקדמות אלה. המהדורה הראשונית מתרכזת ביכולות יצירת הווידאו המרכזיות, ומקבלת הן הנחיות טקסט (בסינית ובאנגלית) והן קלטי תמונה.

חידושים ארכיטקטוניים: פריצת גבולות

מודלי I2VGen-XL בנויים על ארכיטקטורת שנאי דיפוזיה (diffusion transformer), מסגרת רבת עוצמה עבור AI גנרטיבי. עם זאת, צוות Alibaba הציג מספר חידושים מרכזיים לארכיטקטורת בסיס זו, תוך שיפור הביצועים והיעילות שלה. התקדמות זו כוללת:

  • Novel Variational Autoencoders (VAEs): VAEs ממלאים תפקיד מכריע בקידוד ופענוח נתונים, ו-Alibaba פיתחה VAEs חדשים המותאמים במיוחד ליצירת וידאו.
  • אסטרטגיות אימון ממוטבות: הצוות יישם אסטרטגיות אימון מעודנות כדי לשפר את תהליך הלמידה של המודלים ואת הביצועים הכוללים.
  • I2VGen-XL-VAE: ארכיטקטורת VAE סיבתית תלת-ממדית פורצת דרך.

I2VGen-XL-VAE ראוי לציון במיוחד. הוא משפר משמעותית את הדחיסה המרחבית-זמנית, מפחית את השימוש בזיכרון תוך שמירה על נאמנות גבוהה. מקודד אוטומטי חדשני זה יכול לעבד סרטוני וידאו באורך בלתי מוגבל ברזולוציה של 1080p מבלי לאבד מידע זמני חיוני. יכולת זו חיונית ליצירת רצפי וידאו עקביים וקוהרנטיים.

השוואת ביצועים: התעלות על המתחרים

Alibaba ערכה בדיקות פנימיות כדי להעריך את הביצועים של מודלי I2VGen-XL, תוך השוואתם לפתרונות חדישים קיימים. התוצאות מרשימות, כאשר מודלי I2VGen-XL עולים על פי הדיווחים על מודל Sora AI של OpenAI במספר תחומים מרכזיים:

  • עקביות: שמירה על קוהרנטיות ויציבות לאורך הסרטון שנוצר.
  • איכות יצירת סצנה: הפקת סצנות מושכות ויזואלית ומציאותיות.
  • דיוק אובייקט בודד: עיבוד מדויק של אובייקטים בודדים בתוך הסרטון.
  • מיקום מרחבי: הבטחת יחסים מרחביים נכונים בין אובייקטים.

מדדים אלה מדגישים את ההתקדמות המשמעותית שעשתה Alibaba בקידום תחום יצירת הווידאו באמצעות AI.

רישוי ושימוש: איזון בין פתיחות לאחריות

מודלי I2VGen-XL משוחררים תחת רישיון Apache 2.0, רישיון קוד פתוח מתירני המעודד אימוץ ושיתוף פעולה נרחבים. רישיון זה מאפשר שימוש בלתי מוגבל למטרות אקדמיות ומחקריות, ומטפח חדשנות בקהילת ה-AI.

עם זאת, שימוש מסחרי כפוף למגבלות מסוימות. חיוני עבור אלה שמתכוונים להשתמש במודלים אלה למטרות מסחריות לבדוק בקפידה את התנאים וההגבלות הספציפיים המפורטים בהסכם הרישיון. גישה זו משקפת גישה אחראית ל-AI בקוד פתוח, המאזנת בין היתרונות של גישה פתוחה לבין הצורך לטפל בהשלכות אתיות וחברתיות פוטנציאליות.

התעמקות בהיבטים הטכניים

מודלי I2VGen-XL ממנפים שילוב מתוחכם של טכניקות כדי להשיג את יכולות יצירת הווידאו המרשימות שלהם. בואו נחקור כמה מההיבטים הטכניים הללו ביתר פירוט:

מודלי דיפוזיה: בלב I2VGen-XL טמון הרעיון של מודלי דיפוזיה. מודלים אלה פועלים על ידי הוספת רעש בהדרגה לנתונים (כמו תמונה או וידאו) עד שהוא הופך לרעש אקראי טהור. לאחר מכן, הם לומדים להפוך את התהליך הזה, ויוצרים נתונים חדשים על ידי התחלה מרעש והסרתו בהדרגה. תהליך חידוד איטרטיבי זה מאפשר למודלים ליצור פלטים מציאותיים ומפורטים במיוחד.

ארכיטקטורת שנאים: רכיב ה”שנאי” של הארכיטקטורה מתייחס לתכנון רשת עצבית רבת עוצמה המצטיינת בעיבוד נתונים רציפים. שנאים יעילים במיוחד בלכידת תלות ארוכת טווח, שהיא חיונית ליצירת רצפי וידאו קוהרנטיים שבהם אירועים במסגרת אחת יכולים להשפיע על אירועים מסגרות רבות מאוחר יותר.

Variational Autoencoders (VAEs): VAEs הם סוג של מודל גנרטיבי שלומד ייצוג דחוס וחבוי של נתוני הקלט. בהקשר של יצירת וידאו, VAEs עוזרים להפחית את המורכבות החישובית של התהליך על ידי קידוד הווידאו למרחב ממדי נמוך יותר. I2VGen-XL-VAE החדשני של Alibaba משפר עוד יותר את התהליך הזה, ומשפר את הדחיסה המרחבית-זמנית ואת יעילות הזיכרון.

3D Causal VAE: ההיבט ה”סיבתי התלת-ממדי” של I2VGen-XL-VAE מתייחס ליכולתו לטפל בשלושת הממדים של נתוני וידאו (רוחב, גובה וזמן) באופן שמכבד את הקשרים הסיבתיים בין מסגרות. משמעות הדבר היא שהמודל מבין שמסגרות עבר משפיעות על מסגרות עתידיות, אך לא להפך. הבנה סיבתית זו חיונית ליצירת סרטונים עקביים מבחינה זמנית ונמנעים מחפצים לא מציאותיים.

אסטרטגיות אימון: הביצועים של כל מודל AI תלויים במידה רבה באיכות ובכמות הנתונים שהוא מאומן עליהם, כמו גם באסטרטגיות האימון הספציפיות המופעלות. Alibaba השקיעה מאמץ משמעותי במיטוב תהליך האימון עבור I2VGen-XL, תוך שימוש במערכי נתונים גדולים ובטכניקות מעודנות כדי לשפר את יכולות הלמידה של המודלים.

המשמעות של קוד פתוח

ההחלטה של Alibaba לשחרר את I2VGen-XL כתוכנת קוד פתוח היא תרומה משמעותית לקהילת ה-AI. מודלים בקוד פתוח מציעים מספר יתרונות:

  • שיתוף פעולה: גישה פתוחה מעודדת חוקרים ומפתחים ברחבי העולם לשתף פעולה, לחלוק רעיונות ולבנות על עבודתם של אחרים. זה מאיץ את קצב החדשנות ומוביל להתקדמות מהירה יותר בתחום.
  • שקיפות: מודלים בקוד פתוח מאפשרים שקיפות ובדיקה רבה יותר. חוקרים יכולים לבחון את הקוד, להבין כיצד המודלים פועלים ולזהות הטיות או מגבלות פוטנציאליות. זה מטפח אמון ואחריות.
  • נגישות: מודלים בקוד פתוח מנגישים טכנולוגיית AI מתקדמת. קבוצות מחקר קטנות יותר, מפתחים בודדים ואפילו חובבים יכולים להתנסות ולהשתמש במודלים אלה, תוך טיפוח מערכת אקולוגית של AI מכילה יותר.
  • חדשנות: מודלים בקוד פתוח משמשים לעתים קרובות כבסיס לחדשנות נוספת. מפתחים יכולים להתאים ולשנות את המודלים עבור יישומים ספציפיים, מה שמוביל ליצירת כלים וטכניקות חדשות.

על ידי אימוץ קוד פתוח, Alibaba לא רק תורמת לקידום יצירת הווידאו באמצעות AI, אלא גם מטפחת נוף AI שיתופי ומכיל יותר. גישה זו צפויה להשפיע באופן משמעותי על הפיתוח העתידי של טכנולוגיית AI. האופי הפתוח של מודלים אלה אמור להעצים מגוון רחב של משתמשים ליצור, לחדש ולתרום לתחום המתפתח במהירות של יצירת תוכן וידאו מונעת בינה מלאכותית.