יכולות הליבה של Step1X-Edit
Step1X-Edit משלב מודלי שפה גדולים מולטימודליים (MLLM) ומודלי דיפוזיה, מה שמוביל לשיפורים משמעותיים בדיוק העריכה ונאמנות התמונה בתוך מסגרת הקוד הפתוח. ב-GEdit-Bench, מדד עריכת התמונות שפורסם לאחרונה, Step1X-Edit עולה על מודלי קוד פתוח קיימים בעקביות סמנטית, איכות תמונה וציון כולל, ומתחרה בביצועים של GPT-4o ו-Gemini 2.0 Flash.
ניתוח דיוק סמנטי
המודל תומך בשילובים מורכבים של הוראות המתוארות בשפה טבעית. הוראות אלו אינן דורשות תבנית, מה שהופך את המודל לגמיש ויכול להתמודד עם צרכי עריכה מרובי סיבובים ומרובי משימות. הוא גם תומך בזיהוי, החלפה ושחזור של טקסט בתמונות.
- תומך בתיאורים מורכבים בשפה טבעית
- לא נדרשות תבניות קבועות
- מסוגל לעריכה מרובת סיבובים ומרובת משימות
- מזהה, מחליף ומשחזר טקסט בתמונות
שמירה על עקביות זהות
המודל שומר באופן עקבי על תווי פנים, תנוחות ומאפייני זהות לאחר העריכה. זה מתאים לתרחישים עם דרישות עקביות גבוהות, כגון דמויות וירטואליות, מודלים למסחר אלקטרוני ותמונות מדיה חברתית.
- שומר על תווי פנים
- משמר תנוחות
- שומר על מאפייני זהות
- אידיאלי לדמויות וירטואליות, מודלים למסחר אלקטרוני ומדיה חברתית
שליטה אזורית בדיוק גבוה
המודל תומך בעריכה ממוקדת של טקסט, חומרים, צבעים ואלמנטים אחרים באזורים ספציפיים. הוא שומר על סגנון תמונה מאוחד ומציע שליטה מדויקת יותר.
- עריכה ממוקדת באזורים ספציפיים
- שולט בטקסט, חומרים וצבעים
- שומר על סגנון תמונה מאוחד
- מציע שליטה מדויקת יותר
חידושים אדריכליים
Step1X-Edit משתמש בארכיטקטורה מופרדת של MLLM (Multimodal LLM) + Diffusion, אשר מטפלת בנפרד בהבנת שפה טבעית וביצירת תמונות באיכות גבוהה. בהשוואה למודלים קיימים לעריכת תמונות, לארכיטקטורה זו יש יתרונות ביכולת הכללה של הוראות ובשליטה בתמונה.
מודול MLLM
מודול ה-MLLM אחראי לעיבוד הוראות בשפה טבעית ותוכן תמונה. יש לו יכולות הבנה סמנטית מולטימודלית, שיכולות לנתח דרישות עריכה מורכבות לאותות בקרה סמויים.
- מעבד הוראות בשפה טבעית
- מטפל בתוכן תמונה
- הבנה סמנטית מולטימודלית
- מנתח דרישות עריכה מורכבות
מודול דיפוזיה
מודול הדיפוזיה משמש כמחולל תמונות (Image Decoder), ומשלים את השחזור או השינוי המקומי של תמונות בהתבסס על האותות הסמויים שנוצרו על ידי ה-MLLM. זה מבטיח את שימור פרטי התמונה ועקביות הסגנון.
- מחולל תמונות (Image Decoder)
- משחזר תמונות
- משנה תמונות באופן מקומי
- משמר פרטי תמונה וסגנון
מבנה זה מטפל בבעיה של ‘הבנה’ ו’יצירה’ נפרדות במודלים מסורתיים של pipeline. זה מאפשר למודל לקבל דיוק ושליטה גבוהים יותר בעת ביצוע הוראות עריכה מורכבות.
נתוני אימון
כדי לתמוך במגוון רחב של משימות עריכת תמונות מורכבות, Step1X-Edit בנה מערך נתונים לאימון עריכת תמונות מוביל בתעשייה. הוא יוצר 20 מיליון שלישיות הוראות תמונה-טקסט ובסופו של דבר שומר על יותר ממיליון דוגמאות באיכות גבוהה. הנתונים מכסים 11 סוגי משימות ליבה, כולל תכונות מבוקשות לעתים קרובות כגון החלפת טקסט, יצירת פעולה, העברת סגנון והתאמת רקע. סוגי המשימות מופצים באופן שווה, ושפת ההוראה טבעית ומציאותית.
- מערך נתונים מוביל בתעשייה
- 20 מיליון שלישיות הוראות תמונה-טקסט
- מיליון דוגמאות באיכות גבוהה
- 11 סוגי משימות ליבה
- סוגי משימות מופצים באופן שווה
הערכת ביצועים
Step1X-Edit שומר באופן עקבי על פלט באיכות גבוהה ב-11 משימות המשנה של עריכת תמונות. היכולות שלו מאוזנות היטב, והוא נשאר בחזית כמעט בכל ממדי המשימות, מה שמדגים את הרבגוניות והאיזון החזקים שלו.
מדד GEdit-Bench
הערכת המודל משתמשת במדד GEdit-Bench שפותח באופן עצמאי. בניגוד לאוספי משימות סינתטיות באופן ידני, מדד זה מגיע מבקשות עריכה אמיתיות של קהילות, הקרובות יותר לצרכי המוצר.
- מדד שפותח באופן עצמאי
- בקשות עריכה אמיתיות של קהילות
- קרוב יותר לצרכי המוצר
Step1X-Edit מוביל באופן משמעותי מודלים קוד פתוח קיימים בשלושת האינדיקטורים העיקריים של GEdit-Bench. הוא מתפקד קרוב ל-GPT-4o, ומשיג איזון אידיאלי בין הבנת שפה לשחזור תמונה.
בדיקה מפורטת של יכולות
Step1X-Edit אינו רק שינוי תמונות; מדובר בהבנה אמיתית של הכוונה מאחורי העריכות, ביצוען בדיוק ושמירה על שלמות התמונה המקורית. יכולות הליבה - דיוק סמנטי, עקביות זהות ושליטה אזורית בדיוק גבוה - נועדו לתת מענה לדרישות המדויקות של עריכת תמונות מודרנית.
ניתוח דיוק סמנטי לעומק
ניתוח הדיוק הסמנטי של Step1X-Edit חורג מזיהוי מילות מפתח פשוט. הוא מתעמק בהקשר של תיאורים בשפה טבעית, מבין שילובים מורכבים של הוראות. בניגוד למערכות המסתמכות על תבניות נוקשות, Step1X-Edit יכול לפרש שפה חופשית, מה שהופך אותו למתאים ביותר לתרחישי עריכה שונים. הוא מטפל בעריכה מרובת סיבובים ומרובת משימות בצורה חלקה, מבין את היחסים בין הוראות עוקבות כדי להפיק תוצאות עקביות.
תחשוב על הדוגמה הבאה: משתמש רוצה לשנות את הטקסט על שלט בתמונה ולאחר מכן לשנות את צבע השלט כדי להתאים לנושא אחר. Step1X-Edit לא רק מחליף את הטקסט ומשנה את הצבע; הוא מבין שהשלט הוא אובייקט בודד ומבטיח שהשינויים בטקסט ובצבע עולים בקנה אחד זה עם זה ועם התמונה הכללית. יתר על כן, המודל יכול לזהות ולשחזר טקסט בתוך תמונות, גם אם הוא מוסתר חלקית או מעוות. יכולת זו שימושית במיוחד לעריכת מסמכים סרוקים או תמונות עם טקסט חופף.
שמירה על עקביות זהות מוסברת
שמירה על עקביות זהות היא קריטית בתרחישים שבהם הנושאים בתמונות צריכים להישאר ניתנים לזיהוי למרות שינויים. זה חשוב במיוחד ביישומי אדם וירטואלי, מידול מסחר אלקטרוני ויצירת תוכן מדיה חברתית. Step1X-Edit מבטיח שתווי פנים, תנוחות ומאפייני זהות ייחודיים נשמרים לאורך תהליך העריכה.
לדוגמה, אם משתמש רוצה לשנות את התלבושת של מודל וירטואלי בתמונה, Step1X-Edit שומר על תווי הפנים, התסרוקת ופרופורציות הגוף של המודל, ומבטיח שהתמונה הערוכה עדיין מייצגת במדויק את המודל המקורי. באופן דומה, במסחר אלקטרוני, שבו מודלים מציגים מוצרים, המראה של המודל חייב להישאר עקבי בתמונות שונות כדי להימנע מבלבול לקוחות.
שליטה אזורית בדיוק גבוה משופרת
שליטה אזורית בדיוק גבוה מאפשרת למשתמשים לבצע עריכות ממוקדות באזורים ספציפיים של תמונה מבלי להשפיע על שאר הסצנה. יכולת זו חיונית למשימות הדורשות התאמות עדינות, כגון שינוי צבע של בגד, שינוי המרקם של אובייקט או הוספת אלמנטים ספציפיים לאזור מסוים. Step1X-Edit מאפשר למשתמשים לבחור אזורים ספציפיים ולהחיל עריכות בדיוק מדהים, ומבטיח שהשינויים משתלבים בצורה חלקה עם התמונה הקיימת.
תארו לעצמכם תרחיש שבו משתמש רוצה לשנות את צבע המכונית בתמונה אך לשמור על ההשתקפויות והצללים שלמים. Step1X-Edit יכול לבודד את המכונית, לשנות את צבעה ולשמר את אפקטי התאורה המקוריים, וליצור תוצאה מציאותית ומושכת מבחינה ויזואלית. המודל גם מבטיח שהסגנון הכללי והאסתטיקה של התמונה יישארו עקביים, ומונעים מהאזורים הערוכים להיראות לא במקום.
פענוח הארכיטקטורה: MLLM + דיפוזיה
הארכיטקטורה המופרדת של Step1X-Edit, המשלבת מודלי שפה גדולים מולטימודליים (MLLM) ומודלי דיפוזיה, מסמנת התקדמות משמעותית בטכנולוגיית עריכת תמונות. עיצוב זה מאפשר חלוקת עבודה שבה הבנת שפה טבעית ויצירת תמונות באיכות גבוהה מטופלות על ידי מודולים נפרדים המותאמים למשימות שלהם.
צלילה עמוקה לתוך מודול ה-MLLM
מודול ה-MLLM משמש כמוח של המערכת, האחראי להבנה ולפרשנות של הוראות בשפה טבעית ותוכן תמונה. יש לו יכולות הבנה סמנטית מולטימודלית מתקדמות, המאפשרות לו לנתח דרישות עריכה מורכבות לאותות בקרה סמויים ניתנים לפעולה. תהליך זה כולל ניתוח המבנה הלשוני של ההוראות, זיהוי מרכיבי המפתח שיש לשנות והבנת היחסים בין חלקים שונים של התמונה.
מודול ה-MLLM משתמש באלגוריתמים מתוחכמים כדי למפות את הוראות העריכה לייצוג שמודול הדיפוזיה יכול להבין. ייצוג זה מקודד את השינויים הרצויים באופן המשמר את המשמעות הסמנטית של ההוראות ומבטיח שהעריכות המתקבלות יתאימו לכוונה של המשתמש. לדוגמה, אם משתמש מבקש ‘להוסיף שקיעה לרקע’, מודול ה-MLLM מזהה את אזור הרקע, מזהה את המושג שקיעה ומפיק אות בקרה המורה למודול הדיפוזיה ליצור שקיעה מציאותית באזור שצוין.
הבהרת מודול הדיפוזיה
מודול הדיפוזיה פועל כאמן, לוקח את אותות הבקרה הסמויים שנוצרו על ידי מודול ה-MLLM ומשתמש בהם כדי לשחזר או לשנות את התמונה בנאמנות גבוהה. מודול זה משתמש בתהליך הנקרא דיפוזיה, הכולל הוספת רעש הדרגתית לתמונה ולאחר מכן למידה להפוך את התהליך הזה כדי ליצור תמונות חדשות או לשנות תמונות קיימות. מודול הדיפוזיה מאומן על מערך נתונים עצום של תמונות, מה שמאפשר לו ליצור תוצאות מציאותיות ומושכות מבחינה ויזואלית.
מודול הדיפוזיה מבטיח שהתמונה ששונתה שומרת על הפרטים, המרקמים ואפקטי התאורה של התמונה המקורית, ומשלבת את השינויים בצורה חלקה עם התוכן הקיים. הוא יכול גם להתאים את סגנון העריכות כדי להתאים לאסתטיקה הכללית של התמונה, וליצור תוצאה עקבית והרמונית. לדוגמה, אם משתמש רוצה ‘לגרום לתמונה להיראות כמו ציור’, מודול הדיפוזיה יכול להחיל פילטרים ומרקמים אמנותיים כדי להפוך את התמונה לציור משכנע, תוך שמירה על הקומפוזיציה והתוכן המקוריים.
סינרגיה: העוצמה של ההפרדה
הארכיטקטורה המופרדת של Step1X-Edit מטפלת במגבלה בסיסית של מודלים מסורתיים לעריכת תמונות, שבה ‘הבנה’ ו’יצירה’ שזורים לעתים קרובות ואינם מותאמים למשימות שלהם בהתאמה. על ידי הפרדת פונקציות אלה למודולים נפרדים, Step1X-Edit משיג דיוק ושליטה גבוהים יותר בעת ביצוע הוראות עריכה מורכבות. מודול ה-MLLM יכול להתמקד בפירוש מדויק של כוונת המשתמש, בעוד שמודול הדיפוזיה יכול להתרכז ביצירת תמונות באיכות גבוהה העונות על הדרישות שצוינו.
סינרגיה זו בין מודולי ה-MLLM והדיפוזיה מאפשרת ל-Step1X-Edit להתמודד עם מגוון רחב של משימות עריכה בדיוק ועקביות מדהימים. בין אם מדובר בביצוע התאמות עדינות לתמונה או בביצוע טרנספורמציות מורכבות, Step1X-Edit יכול לספק תוצאות שהן גם מושכות מבחינה ויזואלית וגם מדויקות מבחינה סמנטית. הארכיטקטורה המופרדת גם הופכת את המודל למודולרי וקל יותר לעדכון, ומאפשרת למפתחים לשפר ללא הרף את הביצועים והיכולות שלו.
הנדסת מערכי נתונים: הבסיס לביצועים
כדי לתמוך במשימות עריכת התמונות המגוונות והמורכבות ש-Step1X-Edit יכול להתמודד איתן, המפתחים בנו מערך נתונים לאימון עריכת תמונות מוביל בתעשייה. מערך נתונים זה כולל אוסף עצום של שלישיות הוראות תמונה-טקסט, המשמשות לאימון המודל להבנה וביצוע מגוון רחב של פקודות עריכה. מערך הנתונים כולל 20 מיליון שלישיות, מתוכן יותר ממיליון הן דוגמאות באיכות גבוהה שאוצרו בקפידה כדי להבטיח דיוק ועקביות.
הנתונים מכסים 11 סוגי משימות ליבה, הכוללים תכונות מבוקשות לעתים קרובות כגון החלפת טקסט, יצירת פעולה, העברת סגנון והתאמת רקע. סוגי משימות אלה מופצים באופן שווה בכל מערך הנתונים, ומבטיחים שהמודל יקבל הכשרה מאוזנת ויכול לתפקד היטב בתרחישי עריכה שונים. שפת ההוראה המשמשת במערך הנתונים היא טבעית ומציאותית, ומשקפת את האופן שבו אנשים מתקשרים בעת בקשת עריכות תמונה.
מערך הנתונים כולל גם דוגמאות להוראות עריכה מורכבות ומדויקות, כגון ‘לגרום לתמונה להיראות וינטאג’ יותר’ או ‘להוסיף תחושה של דרמה לסצנה’. הוראות אלה מחייבות את המודל להבין מושגים מופשטים ולהחיל אותם על התמונה בצורה יצירתית ומושכת מבחינה ויזואלית. הגיוון והעושר של מערך הנתונים הם גורמים מכריעים בביצועים של Step1X-Edit, ומאפשרים לו להתמודד עם מגוון רחב של משימות עריכה בדיוק ורבגוניות מדהימים.
מצוינות בהשוואה: GEdit-Bench
כדי להעריך בקפדנות את הביצועים של Step1X-Edit, המפתחים יצרו מדד שפותח באופן עצמאי בשם GEdit-Bench. מדד זה נועד לספק הערכה מקיפה של יכולות המודל בתרחישי עריכת תמונה שונים. בניגוד לאוספי משימות סינתטיות באופן ידני, GEdit-Bench שואב את המשימות שלו מבקשות עריכה אמיתיות של קהילות, מה שהופך אותו למדד מציאותי ורלוונטי יותר של ביצועי המודל ביישומי עולם אמיתי.
המשימות ב-GEdit-Bench מכסות מגוון רחב של פעולות עריכה, כולל החלפת טקסט, הסרת אובייקט, העברת סגנון והתאמת רקע. המדד כולל גם משימות המחייבות את המודל להבין ולבצע הוראות מורכבות ומדויקות, כגון ‘לגרום לתמונה להיראות מקצועית יותר’ או ‘להוסיף תחושה של חמימות לסצנה’. GEdit-Bench מספק הערכה מדויקת ואמינה יותר של ביצועי המודל בתרחישי עולם אמיתי.
Step1X-Edit השיג תוצאות מדהימות ב-GEdit-Bench, ועלה על מודלים קוד פתוח קיימים בכל שלושת האינדיקטורים העיקריים: עקביות סמנטית, איכות תמונה וציון כולל. ביצועי המודל קרובים לאלו של GPT-4o, מה שמדגים את יכולתו להשיג איזון אידיאלי בין הבנת שפה לשחזור תמונה.
לסיכום, Step1X-Edit מייצג התקדמות משמעותית בטכנולוגיית עריכת תמונות בקוד פתוח. הארכיטקטורה המופרדת שלו, מערך הנתונים העצום לאימון והשוואות קפדניות הופכים אותו לכלי רב עוצמה ורב-תכליתי למגוון רחב של משימות עריכה. בין אם אתה צלם מקצועי, חובב מדיה חברתית או סתם מישהו שרוצה לשפר את התמונות שלו, Step1X-Edit יכול לעזור לך להשיג את המטרות שלך בדיוק ובקלות מדהימים.