מתודולוגיית הערכה: גישה רבת פנים
צוות המחקר של בית הספר למנהל עסקים של HKU השתמש במתודולוגיית הערכה שנועדה לספק הערכה הוליסטית ואובייקטיבית של יכולות יצירת התמונות של מודלי ה-AI. הניתוח התמקד בשתי משימות עיקריות:
- יצירת תמונה חדשה: הערכת היכולת של מודלים ליצור תמונות מהנחיות טקסטואליות.
- תיקון תמונה: הערכת היכולת של המודלים לשנות תמונות קיימות בהתבסס על הוראות ספציפיות.
עבור משימת יצירת התמונה החדשה, ההערכה הקיפה שני היבטים מכריעים:
איכות תוכן התמונה
ממד זה בחן את הנאמנות החזותית והמשיכה האסתטית של התמונות שנוצרו. שלושה קריטריונים מרכזיים שימשו להערכת איכות התוכן:
התאמה להנחיות: קריטריון זה מדד את הדיוק שבו התמונה שנוצרה שיקפה את האובייקטים, הסצנות והמושגים המתוארים בהנחיה הטקסטואלית. ככל שהתמונה תאמה יותר את כוונת ההנחיה, כך הציון היה גבוה יותר.
שלמות התמונה: היבט זה התמקד בדיוק העובדתי ובאמינות של התמונה שנוצרה. הוא הבטיח שהתמונה תואמת את עקרונות העולם האמיתי ונמנעה מיצירת תרחישים חסרי היגיון או בלתי אפשריים מבחינה פיזית.
אסתטיקת תמונה: קריטריון זה העריך את האיכות האמנותית של התמונה שנוצרה, תוך התחשבות בגורמים כגון קומפוזיציה, הרמוניה של צבעים, בהירות ויצירתיות כללית. תמונות שהפגינו משיכה ויזואלית חזקה וערך אמנותי קיבלו ציונים גבוהים יותר.
כדי להבטיח קפדנות מדעית, מומחים ערכו השוואות זוגיות בין מודלים, והדירוגים הסופיים נקבעו באמצעות מערכת הדירוג Elo. גישה זו אפשרה הערכה מפורטת ואובייקטיבית של הביצועים היחסיים של כל מודל.
בטיחות ואחריות
מעבר להיבטים החזותיים, ההערכה גם תעדפה את ההשלכות האתיות והחברתיות של תמונות שנוצרו על ידי AI. ממד זה העריך את עמידת המודלים בתקנות הבטיחות ואת המודעות שלהם לאחריות חברתית. הנחיות הבדיקה עוצבו בקפידה כדי לכסות מגוון קטגוריות רגישות, כולל:
הטיה ואפליה: הערכה האם המודל יצר תמונות שהנציחו סטריאוטיפים מזיקים או הפגינו הטיה על בסיס גזע, מין, דת או מאפיינים מוגנים אחרים.
פשעים ופעילויות בלתי חוקיות: הערכה האם ניתן להנחות את המודל ליצור תמונות המתארות מעשים בלתי חוקיים, אלימות או תוכן מזיק אחר.
נושאים מסוכנים: בחינת תגובת המודל להנחיות הקשורות לחומרים מסוכנים, פגיעה עצמית או נושאים אחרים שעלולים להיות מסוכנים.
אתיקה ומוסר: הערכת עמידת המודל בעקרונות אתיים ויכולתו להימנע מיצירת תמונות שהיו פוגעניות או מעוררות התנגדות מבחינה מוסרית.
הפרת זכויות יוצרים: הערכה האם ניתן להשתמש במודל ליצירת תמונות שהפרו חוקי זכויות יוצרים או זכויות קניין רוחני.
הפרות פרטיות/זכויות דיוקן: בחינת יכולתו של המודל להגן על פרטיות אישית ולהימנע מיצירת תמונות שהפרו זכויות דיוקן של אנשים.
על ידי הכללת קטגוריות מגוונות אלו, ההערכה נועדה לספק הערכה מקיפה של מחויבות המודלים לבטיחות ולאחריות.
עבור משימת תיקון התמונה, המודלים הוערכו על יכולתם לשנות את הסגנון או התוכן של תמונת ייחוס, בהתבסס על הוראות שסופקו. התמונות המתוקנות הוערכו באמצעות אותם שלושה ממדים כמו איכות התוכן ביצירת תמונה חדשה: התאמה להנחיות, שלמות התמונה ואסתטיקת התמונה.
דירוגים: חשיפת המובילים והנחשלים
ההערכה הניבה דירוגים מעמיקים על פני המשימות והממדים השונים, תוך הדגשת החוזקות והחולשות של מודלי AI שונים.
איכות תוכן התמונה ביצירת תמונה חדשה
בתחום איכות תוכן התמונה עבור יצירת תמונה חדשה, Dreamina של ByteDance התגלתה כבעלת הביצועים הטובים ביותר, והשיגה את הציון הגבוה ביותר של 1,123. זה מצביע על היכולת יוצאת הדופן של Dreamina ליצור תמונות שהן גם מושכות מבחינה ויזואלית וגם תואמות באופן הדוק את ההנחיות הטקסטואליות שסופקו. ERNIE Bot V3.2.0 של Baidu עקב אחריה מקרוב, והפגין ביצועים חזקים בתחום זה. Midjourney v6.1 ו-Doubao גם הבטיחו עמדות מובילות, והציגו את מיומנותם ביצירת תמונות באיכות גבוהה.
הביצועים של מודלים אלה מצביעים על תחכום הולך וגובר ביכולתו של AI לתרגם תיאורים טקסטואליים לייצוגים חזותיים משכנעים ומדויקים. התחרות בין המבצעים המובילים הללו מעידה על ההתקדמות המהירה שנעשית בתחום.
בטיחות ואחריות ביצירת תמונה חדשה
כשמדובר בבטיחות ובאחריות במשימת יצירת התמונה החדשה, קבוצה אחרת של מודלים תפסה את ההובלה. GPT-4o של OpenAI קיבל את הציון הממוצע הגבוה ביותר של 6.04, מה שמדגיש את מחויבותו לשיקולים אתיים ועמידה בהנחיות הבטיחות. Qwen V2.5.0 ו-Gemini 1.5 Pro של Google הבטיחו את המקומות השני והשלישי, בהתאמה, עם ציונים של 5.49 ו-5.23. תוצאות אלו מדגישות את הדגש שחלק מהמפתחים שמים על הבטחת שמודלי ה-AI שלהם יפעלו באחריות וימנעו יצירת תוכן מזיק או בלתי הולם.
יש לציין כי Janus-Pro, מודל הטקסט לתמונה שהוצג לאחרונה על ידי DeepSeek, לא הצליח באותה מידה באיכות תוכן התמונה או בבטיחות ובאחריות. ממצא זה מדגיש את האתגרים העומדים בפני מפתחים באיזון בין השאיפה לנאמנות חזותית לבין הצורך בפיתוח AI אתי ואחראי. התוצאות גם חשפו מגמה מדאיגה: כמה מודלים של טקסט לתמונה שהצטיינו באיכות תוכן התמונה הפגינו חוסר התחשבות משמעותי בבטיחות ובאחריות. פער זה מדגיש סוגיה קריטית בתחום – הפוטנציאל ליצירת תמונות באיכות גבוהה להיות משולבת עם אמצעי הגנה לא מספקים של AI, מה שמוביל לסיכונים חברתיים פוטנציאליים.
משימת תיקון תמונה
במשימת תיקון התמונה, שהעריכה את יכולת המודלים לשנות תמונות קיימות, Doubao, Dreamina ו-ERNIE Bot V3.2.0 הפגינו ביצועים יוצאי דופן. זה מצביע על הרבגוניות שלהם ועל היכולת לא רק ליצור תמונות חדשות אלא גם לחדד ולהתאים תוכן חזותי קיים. GPT-4o ו-Gemini 1.5 Pro גם הציגו ביצועים טובים, והציגו את יכולותיהם בתחום זה.
מעניין לציין ש-WenXinYiGe 2, מודל טקסט לתמונה נוסף מבית Baidu, הציג ביצועים נמוכים הן באיכות תוכן התמונה במשימות יצירת תמונה חדשה והן בתיקון תמונה, ונפל מ-ERNIE Bot V3.2.0. פער זה מדגיש את השונות בביצועים אפילו בתוך מודלים שפותחו על ידי אותה חברה, דבר המצביע על כך שארכיטקטורות שונות וגישות אימון שונות יכולות להניב תוצאות שונות באופן משמעותי.
LLMs רב-מודאליים: יתרון מעוגל היטב
מסקנה מרכזית מההערכה הייתה הביצועים החזקים הכוללים של LLMs רב-מודאליים בהשוואה למודלים של טקסט לתמונה. איכות תוכן התמונה שלהם נמצאה דומה לזו של מודלים ייעודיים של טקסט לתמונה, מה שמדגים את יכולתם ליצור תמונות מושכות מבחינה ויזואלית. עם זאת, LLMs רב-מודאליים הפגינו יתרון משמעותי בעמידתם בתקני בטיחות ואחריות. זה מצביע על כך שההקשר וההבנה הרחבים יותר הטמונים ב-LLMs רב-מודאליים עשויים לתרום ליכולתם ליצור תוכן התואם יותר הנחיות אתיות ונורמות חברתיות.
יתר על כן, LLMs רב-מודאליים הצטיינו בשימושיות ובתמיכה בתרחישים מגוונים, והציעו למשתמשים חוויה חלקה ומקיפה יותר. רבגוניות זו הופכת אותם למתאימים היטב למגוון רחב יותר של יישומים, מכיוון שהם יכולים להתמודד לא רק עם יצירת תמונות אלא גם עם משימות אחרות הדורשות הבנה ויצירה של שפה.
פרופסור ג’נהוי ג’ק ג’יאנג, פרופסור לחדשנות וניהול מידע ופרופסור פדמה והארי הריללה בניהול מידע אסטרטגי, הדגיש את הצורך הקריטי לאזן בין חדשנות לבין שיקולים אתיים בנוף המתפתח במהירות של טכנולוגיית AI בסין. הוא הצהיר, “בתוך ההתקדמות הטכנולוגית המהירה בסין, עלינו למצוא איזון בין חדשנות, איכות תוכן, בטיחות ושיקולי אחריות. מערכת הערכה רב-מודאלית זו תניח בסיס מכריע לפיתוח טכנולוגיית AI גנרטיבית ותסייע לבסס מערכת אקולוגית של AI בטוחה, אחראית ובת קיימא.”
ממצאי הערכה מקיפה זו מספקים תובנות חשובות הן למשתמשים והן למפתחים של מודלי יצירת תמונות AI. משתמשים יכולים למנף את הדירוגים וההערכות כדי לקבל החלטות מושכלות לגבי המודלים המתאימים ביותר לצרכיהם, תוך התחשבות הן באיכות התמונה והן בשיקולים אתיים. מפתחים, לעומת זאת, יכולים לקבל תובנות חשובות לגבי החוזקות והחולשות של המודלים שלהם, ולזהות תחומים לאופטימיזציה ולשיפור. ההערכה משמשת כאמת מידה מכרעת לתעשייה, ומקדמת את הפיתוח של טכנולוגיית יצירת תמונות AI שהיא לא רק מרשימה מבחינה ויזואלית אלא גם בטוחה, אחראית ותואמת את ערכי החברה.
המחקר מדגיש את הצורך המתמשך במחקר ופיתוח מתמשכים בתחום המתפתח במהירות. ככל שטכנולוגיית יצירת תמונות AI ממשיכה להתקדם, חיוני שמפתחים יתעדפו בטיחות, אחריות ושיקולים אתיים לצד השאיפה לנאמנות חזותית. ההערכה של בית הספר למנהל עסקים של HKU מהווה תרומה חשובה למאמץ מתמשך זה, ומספקת מסגרת להערכה ולקידום הפיתוח האחראי של טכנולוגיית יצירת תמונות AI.