עידן חדש של מניפולציה בתמונות
בניגוד לכלי AI קיימים רבים ליצירת תמונות, המתמקדים בעיקר ביצירת תמונות חדשות לגמרי מאפס, Gemini 2.0 Flash מתייחד ביכולתו להבין ולשנות תמונות קיימות. מערכת זו מבינה את התוכן של תמונה כל כך טוב, שהיא יכולה לבצע שינויים ספציפיים על סמך הוראות שיחה, תוך שמירה על מהות התמונה המקורית.
הישג מדהים זה מושג באמצעות האופי הרב-מודאלי המולד של Gemini 2.0. הוא מעבד בצורה חלקה גם טקסט וגם תמונות בו זמנית. המודל ממיר בצורה גאונית תמונות ל-“tokens” – אותן יחידות בסיסיות שהוא משתמש בהן לעיבוד טקסט. זה מאפשר לו לתפעל תוכן חזותי תוך שימוש באותם מסלולים עצביים שהוא משתמש בהם להבנת שפה. גישה מאוחדת זו מבטלת את הצורך במודלים נפרדים ומתמחים לטיפול בסוגי מדיה שונים, ומייעלת את התהליך כולו.
‘Gemini 2.0 Flash ממנף קלט רב-מודאלי, חשיבה משופרת והבנת שפה טבעית כדי ליצור תמונות’, ציינה גוגל בהודעתה הרשמית. ‘תארו לעצמכם שאתם משתמשים ב-Gemini 2.0 Flash כדי לספר סיפור, והוא מאייר אותו בתמונות, תוך שמירה על עקביות בדמויות ובהגדרות. ספקו משוב, והמודל יתאים את הסיפור או ישנה את סגנון הציורים שלו’.
גישה זו מייחדת את גוגל ממתחרות כמו OpenAI. בעוד ש-ChatGPT יכול ליצור תמונות באמצעות Dall-E 3 ולחזור על היצירות שלו תוך הבנת שפה טבעית, הוא מסתמך על מודל AI נפרד כדי להשיג זאת. במהותו, ChatGPT מנהל משחק גומלין מורכב בין GPT-V לראייה, GPT-4o לשפה ו-Dall-E 3 ליצירת תמונות. OpenAI, לעומת זאת, צופה להשיג מודל יחיד ומקיף עם GPT-5 העתידי.
קונספט מקביל קיים בתחום הקוד הפתוח עם OmniGen, שפותח על ידי חוקרים באקדמיה של בייג’ינג לבינה מלאכותית. יוצריו חזו ‘יצירת מגוון תמונות ישירות באמצעות הוראות רב-מודאליות שרירותיות, ללא צורך בתוספים או פעולות נוספות, בדומה לאופן שבו GPT פועל ביצירת שפה’.
OmniGen מתגאה ביכולות כגון שינוי אובייקטים, מיזוג סצנות והתאמות אסתטיות. עם זאת, הוא פחות ידידותי למשתמש מה-Gemini החדש, פועל ברזולוציות נמוכות יותר, דורש פקודות מורכבות יותר, ובסופו של דבר חסר את העוצמה העצומה של ההצעה של גוגל. אף על פי כן, הוא מציג אלטרנטיבה משכנעת בקוד פתוח עבור משתמשים מסוימים.
בדיקת Gemini 2.0 Flash
כדי להבין באמת את היכולות והמגבלות של Gemini 2.0 Flash, נערכה סדרה של בדיקות מעשיות, שחקרו תרחישי עריכה שונים. התוצאות מציגות הן חוזקות מרשימות והן כמה תחומים לשיפור פוטנציאלי.
שינוי נושאים מציאותיים בדיוק
המודל מפגין קוהרנטיות יוצאת דופן כאשר הוא מתבקש לשנות נושאים מציאותיים. לדוגמה, במבחן דיוקן עצמי, בקשה להוסיף הגדרת שרירים הניבה את התוצאה הרצויה. בעוד ששינויים קלים בפנים התרחשו, הזיהוי הכולל נשמר.
באופן מכריע, אלמנטים אחרים בתוך התמונה נותרו ברובם ללא פגע, מה שמדגים את יכולתו של ה-AI להתמקד אך ורק בשינוי שצוין. יכולת עריכה ממוקדת זו מנוגדת בחדות לגישות גנרטיביות טיפוסיות שלעתים קרובות משחזרות תמונות שלמות, ועלולות להכניס שינויים לא רצויים.
חשוב גם לציין את אמצעי ההגנה המובנים של המודל. הוא מסרב בעקביות לערוך תמונות של ילדים ונמנע מטיפול בכל תוכן הקשור לעירום, מה שמשקף את מחויבותה של גוגל לפיתוח AI אחראי. עבור משתמשים המעוניינים לחקור מניפולציות תמונה נועזות יותר, OmniGen עשוי להיות אופציה מתאימה יותר.
שליטה בטרנספורמציות סגנון
Gemini 2.0 Flash מדגים יכולת מדהימה להמרות סגנון. בקשה להפוך תמונה של דונלד טראמפ לסגנון של מאנגה יפנית הניבה דמיון מחדש מוצלח לאחר מספר ניסיונות.
המודל מטפל במיומנות במגוון רחב של העברות סגנון, המרת תמונות לציורים, ציורי שמן או כמעט כל סגנון אמנותי שניתן להעלות על הדעת. משתמשים יכולים לכוונן את התוצאות על ידי התאמת הגדרות הטמפרטורה והחלפת מסננים שונים. עם זאת, ראוי לציין שהגדרות טמפרטורה גבוהות יותר נוטות לייצר טרנספורמציות פחות נאמנות לתמונה המקורית.
מגבלה בולטת מתגלה בעת בקשת סגנונות הקשורים לאמנים ספציפיים. בדיקות שכללו את הסגנונות של לאונרדו דה וינצ’י, מיכלאנג’לו, בוטיצ’לי או ואן גוך הביאו לכך שה-AI שיחזר ציורים ממשיים של מאסטרים אלה, במקום ליישם את הטכניקות הייחודיות שלהם על תמונת המקור.
עם קצת חידוד הנחיה וכמה איטרציות, ניתן להשיג תוצאה שמישה, אם כי בינונית. באופן כללי, יעיל יותר להנחות את סגנון האמנות הרצוי ולא את האמן הספציפי.
אמנות המניפולציה באלמנטים
עבור משימות עריכה מעשיות, Gemini 2.0 Flash מצטיין באמת. הוא מטפל במומחיות ב-inpainting ובמניפולציה של אובייקטים, מסיר בצורה חלקה אובייקטים ספציפיים על פי בקשה או מוסיף אלמנטים חדשים לקומפוזיציה. במבחן אחד, ה-AI הונחה להחליף כדורסל בתרנגולת גומי ענקית, והניב תוצאה הומוריסטית אך מתאימה מבחינה הקשרית.
בעוד ששינויים קלים מדי פעם בנושאים עשויים להתרחש, אלה בדרך כלל ניתנים לתיקון בקלות באמצעות כלי עריכה דיגיטליים סטנדרטיים תוך שניות ספורות.
אולי באופן השנוי ביותר במחלוקת, המודל מדגים בקיאות בהסרת הגנות זכויות יוצרים – תכונה שעוררה דיון ניכר בפלטפורמות כמו X. כאשר הוצגה לו תמונה המכילה סימני מים והונחה להסיר את כל האותיות, הלוגואים וסימני המים, Gemini יצר תמונה נקייה שכמעט ולא ניתן להבחין בה מהמקור ללא סימן המים.
ניווט בשינויי פרספקטיבה
אחד ההיבטים המרשימים ביותר מבחינה טכנית של Gemini הוא יכולתו לשנות פרספקטיבה – הישג שמודלים של דיפוזיה מיינסטרימיים נאבקים בו בדרך כלל. ה-AI יכול לדמיין מחדש סצנה מזוויות שונות, אם כי התוצאות הן למעשה יצירות חדשות ולא טרנספורמציות מדויקות של המקור.
בעוד ששינויי פרספקטיבה אינם מניבים תוצאות מושלמות – המודל, אחרי הכל, ממשיג את כל התמונה מנקודת מבט חדשה – הם מייצגים התקדמות משמעותית בהבנת ה-AI של מרחב תלת מימדי המבוסס על קלט דו מימדי.
ניסוח נכון הוא חיוני בעת הנחיית המודל לתפעל רקעים. לעתים קרובות הוא נוטה לשנות את כל התמונה, וכתוצאה מכך קומפוזיציה שונה באופן דרסטי.
לדוגמה, במבחן אחד, Gemini התבקש לשנות את הרקע של תמונה, ולהציב רובוט יושב במצרים במקום במיקומו המקורי. ההוראה קבעה במפורש לא לשנות את הנושא. עם זאת, המודל התקשה לטפל במשימה הספציפית הזו במדויק, ובמקום זאת סיפק קומפוזיציה חדשה לגמרי הכוללת את הפירמידות, עם רובוט עומד, אך לא כמוקד העיקרי.
מגבלה נוספת שנצפתה היא שבעוד שהמודל יכול לחזור מספר פעמים על תמונה אחת, איכות הפרטים נוטה להידרדר עם כל איטרציה עוקבת. לכן, חיוני להיות מודעים להידרדרות איכות פוטנציאלית בעת ביצוע עריכות נרחבות.
מודל ניסיוני זה נגיש כעת למפתחים דרך Google AI Studio וממשק ה-API של Gemini בכל האזורים הנתמכים. הוא זמין גם ב-Hugging Face עבור משתמשים שמעדיפים לא לשתף את המידע שלהם עם גוגל.
לסיכום, ההצעה החדשה הזו של גוגל נראית כמו פנינה נסתרת, בדומה ל-NotebookLM. הוא משיג משהו שמודלים אחרים לא יכולים, והוא עושה זאת ברמת מיומנות טובה, אך הוא נותר יחסית מתחת לרדאר. אין ספק ששווה לחקור אותו עבור משתמשים שרוצים להתנסות בפוטנציאל של AI גנרטיבי בעריכת תמונות וליהנות קצת מהיצירתיות לאורך הדרך. היכולת פשוט לתאר את השינויים הרצויים בשפה פשוטה פותחת עולם של אפשרויות הן למשתמשים מזדמנים והן לאנשי מקצוע, ומסמנת צעד משמעותי קדימה בדמוקרטיזציה של מניפולציה בתמונות. לטכנולוגיה זו יש פוטנציאל לעצב מחדש את האופן שבו אנו מתקשרים עם תוכן חזותי, ולהפוך טכניקות עריכה מתקדמות לנגישות לכולם, ללא קשר לכישוריהם הטכניים. ההשלכות הן עצומות, החל משיפורי תמונות אישיים ועד לתהליכי עבודה מקצועיים של עיצוב, ואפילו ליצירת צורות חדשות לגמרי של אמנות חזותית. ככל שהטכנולוגיה תמשיך להתפתח, יהיה מרתק לחזות בהשפעתה על הנוף היצירתי.