تقييم شامل لنماذج توليد الصور بالذكاء الاصطناعي

منهجية التقييم: نهج متعدد الأوجه

تم تصميم منهجية التقييم التي استخدمها فريق البحث في كلية إدارة الأعمال بجامعة هونغ كونغ (HKU Business School) لتوفير تقييم شامل وموضوعي لقدرات نماذج الذكاء الاصطناعي على توليد الصور. ركز التحليل على مهمتين أساسيتين:

  • توليد صور جديدة: تقييم قدرة النماذج على إنشاء صور من المطالبات النصية.
  • مراجعة الصور: تقييم قدرة النماذج على تعديل الصور الموجودة بناءً على تعليمات محددة.

بالنسبة لمهمة توليد الصور الجديدة، شمل التقييم جانبين حاسمين:

جودة محتوى الصورة

تعمق هذا البعد في الدقة المرئية والجاذبية الجمالية للصور التي تم إنشاؤها. تم استخدام ثلاثة معايير رئيسية لتقييم جودة المحتوى:

  1. المحاذاة مع المطالبات: قام هذا المعيار بقياس مدى دقة الصورة التي تم إنشاؤها في عكس الكائنات والمشاهد والمفاهيم الموضحة في المطالبة النصية. كلما كانت الصورة مطابقة لنية المطالبة، زادت النتيجة.

  2. سلامة الصورة: ركز هذا الجانب على الدقة الواقعية وموثوقية الصورة التي تم إنشاؤها. لقد ضمن أن الصورة تلتزم بمبادئ العالم الحقيقي وتجنبت توليد سيناريوهات غير منطقية أو مستحيلة ماديًا.

  3. جماليات الصورة: قام هذا المعيار بتقييم الجودة الفنية للصورة التي تم إنشاؤها، مع مراعاة عوامل مثل التكوين وتناغم الألوان والوضوح والإبداع العام. الصور التي أظهرت جاذبية بصرية قوية وجدارة فنية حصلت على درجات أعلى.

لضمان الدقة العلمية، أجرى الخبراء مقارنات زوجية بين النماذج، وتم تحديد التصنيفات النهائية باستخدام نظام تصنيف Elo. سمح هذا النهج بتقييم دقيق وموضوعي للأداء النسبي لكل نموذج.

السلامة والمسؤولية

بالإضافة إلى الجوانب المرئية، أعطى التقييم الأولوية أيضًا للآثار الأخلاقية والمجتمعية للصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي. قام هذا البعد بتقييم امتثال النماذج للوائح السلامة ووعيها بالمسؤولية الاجتماعية. تمت صياغة مطالبات الاختبار بعناية لتغطية مجموعة من الفئات الحساسة، بما في ذلك:

  • التحيز والتمييز: تقييم ما إذا كان النموذج قد أنشأ صورًا تديم الصور النمطية الضارة أو أظهر تحيزًا بناءً على العرق أو الجنس أو الدين أو غيرها من الخصائص المحمية.

  • الجرائم والأنشطة غير القانونية: تقييم ما إذا كان يمكن مطالبة النموذج بإنشاء صور تصور أعمالًا غير قانونية أو عنفًا أو محتوى ضارًا آخر.

  • الموضوعات الخطرة: فحص استجابة النموذج للمطالبات المتعلقة بالمواد الخطرة أو إيذاء النفس أو غيرها من الموضوعات التي يحتمل أن تكون خطرة.

  • الأخلاق والآداب: تقييم التزام النموذج بالمبادئ الأخلاقية وقدرته على تجنب إنشاء صور مرفوضة أخلاقياً أو مسيئة.

  • انتهاك حقوق النشر: تقييم ما إذا كان يمكن استخدام النموذج لإنشاء صور تنتهك قوانين حقوق النشر أو حقوق الملكية الفكرية.

  • انتهاكات الخصوصية / حقوق الصورة: فحص قدرة النموذج على حماية الخصوصية الشخصية وتجنب إنشاء صور تنتهك حقوق الصورة للأفراد.

من خلال شمول هذه الفئات المتنوعة، هدف التقييم إلى توفير تقييم شامل لالتزام النماذج بالسلامة والمسؤولية.

بالنسبة لمهمة مراجعة الصور، تم تقييم النماذج بناءً على قدرتها على تعديل نمط أو محتوى صورة مرجعية، بناءً على التعليمات المقدمة. تم تقييم الصور المعدلة باستخدام نفس الأبعاد الثلاثة مثل جودة المحتوى في توليد الصور الجديدة: المحاذاة مع المطالبات، وسلامة الصورة، وجماليات الصورة.

التصنيفات: الكشف عن القادة والمتخلفين

أسفر التقييم عن تصنيفات ثاقبة عبر المهام والأبعاد المختلفة، مما يسلط الضوء على نقاط القوة والضعف في نماذج الذكاء الاصطناعي المختلفة.

جودة محتوى الصورة في توليد الصور الجديدة

في مجال جودة محتوى الصورة لتوليد الصور الجديدة، برزت Dreamina من ByteDance كأفضل أداء، حيث حصلت على أعلى درجة 1,123. يشير هذا إلى قدرة Dreamina الاستثنائية على إنشاء صور جذابة بصريًا ومتوافقة بشكل وثيق مع المطالبات النصية المقدمة. تبعها ERNIE Bot V3.2.0 من Baidu عن كثب، مما يدل على أداء قوي في هذا المجال. حصلت Midjourney v6.1 و Doubao أيضًا على أعلى المراكز، مما يدل على كفاءتها في إنشاء صور عالية الجودة.

يشير أداء هذه النماذج إلى تطور متزايد في قدرة الذكاء الاصطناعي على ترجمة الأوصاف النصية إلى تمثيلات مرئية مقنعة ودقيقة. المنافسة بين هؤلاء الأفضل أداءً تدل على التقدم السريع الذي يتم إحرازه في هذا المجال.

السلامة والمسؤولية في توليد الصور الجديدة

عندما يتعلق الأمر بالسلامة والمسؤولية في مهمة توليد الصور الجديدة، تولت مجموعة مختلفة من النماذج الصدارة. حصل GPT-4o من OpenAI على أعلى متوسط ​​درجات 6.04، مما يؤكد التزامه بالاعتبارات الأخلاقية والالتزام بإرشادات السلامة. حصل Qwen V2.5.0 و Gemini 1.5 Pro من Google على المركزين الثاني والثالث على التوالي، بدرجات 5.49 و 5.23. تسلط هذه النتائج الضوء على التركيز الذي يوليه بعض المطورين لضمان أن نماذج الذكاء الاصطناعي الخاصة بهم تعمل بمسؤولية وتتجنب إنشاء محتوى ضار أو غير لائق.

ومن الجدير بالذكر أن Janus-Pro، نموذج تحويل النص إلى صورة الذي قدمته DeepSeek مؤخرًا، لم يكن أداؤه جيدًا في جودة محتوى الصورة أو السلامة والمسؤولية. تؤكد هذه النتيجة التحديات التي يواجهها المطورون في تحقيق التوازن بين السعي وراء الدقة المرئية وضرورة تطوير الذكاء الاصطناعي الأخلاقي والمسؤول. كشفت النتائج أيضًا عن اتجاه مثير للقلق: أظهرت بعض نماذج تحويل النص إلى صورة التي تفوقت في جودة محتوى الصورة نقصًا كبيرًا في مراعاة السلامة والمسؤولية. تسلط هذه الفجوة الضوء على قضية حاسمة في هذا المجال - إمكانية اقتران توليد الصور عالي الجودة بضمانات غير كافية للذكاء الاصطناعي، مما يؤدي إلى مخاطر اجتماعية محتملة.

مهمة مراجعة الصورة

في مهمة مراجعة الصور، التي قيمت قدرة النماذج على تعديل الصور الموجودة، أظهرت Doubao و Dreamina و ERNIE Bot V3.2.0 أداءً متميزًا. يشير هذا إلى تعدد استخداماتها وقدرتها ليس فقط على إنشاء صور جديدة ولكن أيضًا على تحسين المحتوى المرئي الحالي وتكييفه. كان أداء GPT-4o و Gemini 1.5 Pro جيدًا أيضًا، مما يدل على قدراتهما في هذا المجال.

ومن المثير للاهتمام، أن WenXinYiGe 2، وهو نموذج آخر لتحويل النص إلى صورة من Baidu، كان أداؤه ضعيفًا في كل من جودة محتوى الصورة في مهام توليد الصور الجديدة ومراجعة الصور، وهو أقل من نظيره، ERNIE Bot V3.2.0. يسلط هذا التناقض الضوء على التباين في الأداء حتى داخل النماذج التي طورتها نفس الشركة، مما يشير إلى أن البنى المختلفة وأساليب التدريب يمكن أن تسفر عن نتائج مختلفة بشكل كبير.

نماذج اللغات الكبيرة متعددة الوسائط (Multimodal LLMs): ميزة شاملة

كانت إحدى النتائج الرئيسية للتقييم هي الأداء القوي العام لنماذج LLM متعددة الوسائط مقارنة بنماذج تحويل النص إلى صورة. تم العثور على جودة محتوى الصورة الخاصة بهم لتكون قابلة للمقارنة مع نماذج تحويل النص إلى صورة المخصصة، مما يدل على قدرتها على إنشاء صور جذابة بصريًا. ومع ذلك، أظهرت نماذج LLM متعددة الوسائط ميزة كبيرة في التزامها بمعايير السلامة والمسؤولية. يشير هذا إلى أن السياق والفهم الأوسع الكامن في نماذج LLM متعددة الوسائط قد يساهم في قدرتها على إنشاء محتوى يتماشى بشكل أكبر مع الإرشادات الأخلاقية والأعراف المجتمعية.

علاوة على ذلك، تفوقت نماذج LLM متعددة الوسائط في سهولة الاستخدام ودعم السيناريوهات المتنوعة، مما يوفر للمستخدمين تجربة أكثر سلاسة وشمولية. هذا التنوع يجعلها مناسبة تمامًا لمجموعة واسعة من التطبيقات، حيث يمكنها التعامل ليس فقط مع توليد الصور ولكن أيضًا مع المهام الأخرى التي تتطلب فهم اللغة وتوليدها.

أكد البروفيسور زينهوي جاك جيانغ، أستاذ إدارة الابتكار والمعلومات وأستاذ بادما وهاري هاريليلا في إدارة المعلومات الاستراتيجية، على الحاجة الماسة لتحقيق التوازن بين الابتكار والاعتبارات الأخلاقية في المشهد سريع التطور لتكنولوجيا الذكاء الاصطناعي في الصين. وذكر: “في خضم التطورات التكنولوجية السريعة في الصين، يجب أن نحقق توازنًا بين الابتكار وجودة المحتوى واعتبارات السلامة والمسؤولية. سيضع نظام التقييم متعدد الوسائط هذا أساسًا حاسمًا لتطوير تكنولوجيا الذكاء الاصطناعي التوليدية ويساعد في إنشاء نظام بيئي للذكاء الاصطناعي آمن ومسؤول ومستدام.”

توفر نتائج هذا التقييم الشامل رؤى قيمة لكل من مستخدمي ومطوري نماذج توليد الصور بالذكاء الاصطناعي. يمكن للمستخدمين الاستفادة من التصنيفات والتقييمات لاتخاذ قرارات مستنيرة بشأن النماذج التي تناسب احتياجاتهم على أفضل وجه، مع مراعاة جودة الصورة والاعتبارات الأخلاقية. من ناحية أخرى، يمكن للمطورين اكتساب رؤى قيمة حول نقاط القوة والضعف في نماذجهم، وتحديد مجالات التحسين والتطوير. يعد التقييم بمثابة معيار حاسم للصناعة، مما يعزز تطوير تكنولوجيا توليد الصور بالذكاء الاصطناعي التي ليست فقط مثيرة للإعجاب بصريًا ولكنها أيضًا آمنة ومسؤولة ومتوافقة مع القيم المجتمعية.
تؤكد الدراسة على الحاجة المستمرة لمواصلة البحث والتطوير في هذا المجال سريع التطور. مع استمرار تقدم تكنولوجيا توليد الصور بالذكاء الاصطناعي، من الضروري أن يعطي المطورون الأولوية للسلامة والمسؤولية والاعتبارات الأخلاقية جنبًا إلى جنب مع السعي وراء الدقة المرئية. يعد تقييم كلية إدارة الأعمال بجامعة هونغ كونغ بمثابة مساهمة قيمة في هذا الجهد المستمر، حيث يوفر إطارًا لتقييم وتعزيز التطوير المسؤول لتكنولوجيا توليد الصور بالذكاء الاصطناعي.