حقبة جديدة في التلاعب بالصور
على عكس العديد من أدوات الصور بالذكاء الاصطناعي الحالية التي تركز بشكل أساسي على إنشاء صور جديدة تمامًا من البداية، تميز Gemini 2.0 Flash نفسها من خلال قدرتها على فهم وتعديل الصور الموجودة. يفهم هذا النظام محتوى الصورة جيدًا لدرجة أنه يمكنه إجراء تعديلات محددة بناءً على تعليمات المحادثة، مع الحفاظ على جوهر الصورة الأصلية.
يتم تحقيق هذا الإنجاز الرائع من خلال طبيعة Gemini 2.0 متعددة الوسائط. فهو يعالج النصوص والصور بسلاسة في وقت واحد. يحول النموذج ببراعة الصور إلى ‘رموز’ - وهي نفس الوحدات الأساسية التي يستخدمها لمعالجة النصوص. يتيح له ذلك معالجة المحتوى المرئي باستخدام نفس المسارات العصبية التي يستخدمها لفهم اللغة. يلغي هذا النهج الموحد الحاجة إلى نماذج منفصلة ومتخصصة للتعامل مع أنواع الوسائط المختلفة، مما يبسط العملية بأكملها.
صرحت Google في إعلانها الرسمي: ‘يستفيد Gemini 2.0 Flash من الإدخال متعدد الوسائط، والاستدلال المحسن، وفهم اللغة الطبيعية لإنشاء الصور’. ‘تخيل استخدام Gemini 2.0 Flash لسرد قصة، وهو يوضحها بالصور، مع الحفاظ على الاتساق في الشخصيات والإعدادات. قدم ملاحظات، وسيقوم النموذج بتكييف القصة أو تعديل نمط رسوماته.’
هذا النهج يميز Google عن منافسيها مثل OpenAI. في حين أن ChatGPT يمكنه إنشاء صور باستخدام Dall-E 3 والتكرار على إبداعاته وفهم اللغة الطبيعية، فإنه يعتمد على نموذج ذكاء اصطناعي منفصل لتحقيق ذلك. في جوهره، ينظم ChatGPT تفاعلًا معقدًا بين GPT-V للرؤية، و GPT-4o للغة، و Dall-E 3 لتوليد الصور. ومع ذلك، تتوقع OpenAI تحقيق نموذج واحد وشامل مع GPT-5 في المستقبل.
يوجد مفهوم موازٍ في عالم المصادر المفتوحة مع OmniGen، الذي طوره باحثون في أكاديمية بكين للذكاء الاصطناعي. يتصور مبدعوها ‘إنشاء مجموعة متنوعة من الصور مباشرة من خلال تعليمات متعددة الوسائط بشكل تعسفي، دون الحاجة إلى مكونات إضافية أو عمليات إضافية، على غرار كيفية عمل GPT في إنشاء اللغة.’
يتميز OmniGen بقدرات مثل تغيير الكائنات، ودمج المشاهد، والتعديلات الجمالية. ومع ذلك، فهو أقل سهولة في الاستخدام من Gemini الجديد، ويعمل بدقة أقل، ويتطلب أوامر أكثر تعقيدًا، ويفتقر في النهاية إلى القوة الهائلة التي تقدمها Google. ومع ذلك، فهو يمثل بديلاً مقنعًا مفتوح المصدر لبعض المستخدمين.
اختبار Gemini 2.0 Flash
لفهم قدرات وقيود Gemini 2.0 Flash حقًا، تم إجراء سلسلة من الاختبارات العملية، واستكشاف سيناريوهات تحرير مختلفة. تعرض النتائج نقاط قوة رائعة وبعض المجالات التي يمكن تحسينها.
تعديل الموضوعات الواقعية بدقة
يُظهر النموذج تماسكًا ملحوظًا عند تكليفه بتعديل موضوعات واقعية. على سبيل المثال، في اختبار صورة شخصية، أدى طلب إضافة تحديد العضلات إلى النتيجة المرجوة. في حين حدثت تغييرات طفيفة في الوجه، تم الحفاظ على إمكانية التعرف بشكل عام.
بشكل حاسم، ظلت العناصر الأخرى في الصورة دون تغيير إلى حد كبير، مما يدل على قدرة الذكاء الاصطناعي على التركيز فقط على التعديل المحدد. تتناقض إمكانية التحرير المستهدفة هذه بشكل حاد مع الأساليب التوليدية النموذجية التي غالبًا ما تعيد بناء صور كاملة، مما قد يؤدي إلى تغييرات غير مرغوب فيها.
من المهم أيضًا ملاحظة ضمانات النموذج المضمنة. يرفض باستمرار تحرير صور الأطفال ويتجنب التعامل مع أي محتوى متعلق بالعري، مما يعكس التزام Google بتطوير الذكاء الاصطناعي المسؤول. بالنسبة للمستخدمين الذين يسعون إلى استكشاف المزيد من التلاعب بالصور الجريئة، قد يكون OmniGen خيارًا أكثر ملاءمة.
إتقان تحويلات الأنماط
يُظهر Gemini 2.0 Flash قدرة رائعة على تحويل الأنماط. أدى طلب تحويل صورة لدونالد ترامب إلى أسلوب المانجا اليابانية إلى إعادة تصور ناجحة بعد بضع محاولات.
يتعامل النموذج ببراعة مع مجموعة واسعة من عمليات نقل الأنماط، وتحويل الصور إلى رسومات، أو لوحات زيتية، أو أي نمط فني يمكن تخيله تقريبًا. يمكن للمستخدمين ضبط النتائج عن طريق تعديل إعدادات درجة الحرارة وتبديل المرشحات المختلفة. ومع ذلك، تجدر الإشارة إلى أن إعدادات درجة الحرارة المرتفعة تميل إلى إنتاج تحويلات أقل إخلاصًا للصورة الأصلية.
يظهر قيد ملحوظ عند طلب الأنماط المرتبطة بفنانين معينين. أدت الاختبارات التي تضمنت أساليب ليوناردو دافنشي، أو مايكل أنجلو، أو بوتيتشيلي، أو فان جوخ إلى قيام الذكاء الاصطناعي بإعادة إنتاج لوحات فعلية لهؤلاء الأساتذة، بدلاً من تطبيق تقنياتهم المميزة على الصورة المصدر.
مع بعض التحسين الفوري وعدد قليل من التكرارات، يمكن تحقيق نتيجة قابلة للاستخدام، وإن كانت متواضعة. بشكل عام، يكون من الأكثر فاعلية أن تطلب نمط الفن المطلوب بدلاً من الفنان المحدد.
فن التلاعب بالعناصر
بالنسبة لمهام التحرير العملية، يتفوق Gemini 2.0 Flash حقًا. يتعامل بخبرة مع الرسم الداخلي ومعالجة الكائنات، ويزيل بسلاسة كائنات معينة عند الطلب أو يضيف عناصر جديدة إلى التكوين. في أحد الاختبارات، طُلب من الذكاء الاصطناعي استبدال كرة السلة بدجاجة مطاطية عملاقة، مما أدى إلى نتيجة فكاهية ولكنها مناسبة للسياق.
في حين أن التعديلات الطفيفة العرضية على الموضوعات قد تحدث، إلا أنه يمكن تصحيحها بسهولة باستخدام أدوات التحرير الرقمية القياسية في غضون ثوانٍ.
ربما الأكثر إثارة للجدل، أن النموذج يُظهر كفاءة في إزالة حماية حقوق النشر - وهي ميزة أثارت نقاشًا كبيرًا على منصات مثل X. عند تقديم صورة تحتوي على علامات مائية وإصدار تعليمات بإزالة جميع الحروف والشعارات والعلامات المائية، أنتج Gemini صورة نظيفة لا يمكن تمييزها تقريبًا عن الصورة الأصلية غير المميزة بعلامة مائية.
التنقل في تغييرات المنظور
أحد أكثر الجوانب إثارة للإعجاب من الناحية الفنية في Gemini هو قدرته على تغيير المنظور - وهو إنجاز عادة ما تكافح نماذج الانتشار السائدة معه. يمكن للذكاء الاصطناعي إعادة تصور مشهد من زوايا مختلفة، على الرغم من أن النتائج هي في الأساس إبداعات جديدة وليست تحويلات دقيقة للأصل.
في حين أن تحولات المنظور لا تسفر عن نتائج خالية من العيوب - فالنموذج، بعد كل شيء، يتصور الصورة بأكملها من وجهة نظر جديدة - إلا أنها تمثل تقدمًا كبيرًا في فهم الذكاء الاصطناعي للفضاء ثلاثي الأبعاد بناءً على مدخلات ثنائية الأبعاد.
الصياغة المناسبة أمر بالغ الأهمية عند توجيه النموذج لمعالجة الخلفيات. غالبًا ما يميل إلى تعديل الصورة بأكملها، مما يؤدي إلى تكوين مختلف بشكل كبير.
على سبيل المثال، في أحد الاختبارات، طُلب من Gemini تغيير خلفية صورة، ووضع روبوت جالس في مصر بدلاً من موقعه الأصلي. نصت التعليمات صراحة على عدم تغيير الموضوع. ومع ذلك، كافح النموذج للتعامل مع هذه المهمة المحددة بدقة، وبدلاً من ذلك قدم تركيبة جديدة تمامًا تتميز بالأهرامات، مع روبوت واقف، ولكن ليس كنقطة تركيز أساسية.
هناك قيد آخر لوحظ وهو أنه في حين أن النموذج يمكنه التكرار عدة مرات على صورة واحدة، فإن جودة التفاصيل تميل إلى التدهور مع كل تكرار لاحق. لذلك، من الضروري أن تكون على دراية بالتدهور المحتمل للجودة عند إجراء تعديلات مكثفة.
هذا النموذج التجريبي متاح حاليًا للمطورين من خلال Google AI Studio و Gemini API في جميع المناطق المدعومة. وهو متاح أيضًا على Hugging Face للمستخدمين الذين يفضلون عدم مشاركة معلوماتهم مع Google.
في الختام، يبدو أن هذا العرض الجديد من Google جوهرة مخفية، مثل NotebookLM. إنه يحقق شيئًا لا تستطيع النماذج الأخرى تحقيقه، ويفعل ذلك بمستوى جيد من الكفاءة، ومع ذلك يظل غير معروف نسبيًا. إنه بلا شك يستحق الاستكشاف للمستخدمين الذين يرغبون في تجربة إمكانات الذكاء الاصطناعي التوليدي في تحرير الصور والاستمتاع ببعض المرح الإبداعي على طول الطريق. إن القدرة على وصف التغييرات المطلوبة بلغة بسيطة تفتح عالمًا من الاحتمالات لكل من المستخدمين العاديين والمحترفين، مما يمثل خطوة مهمة إلى الأمام في إضفاء الطابع الديمقراطي على التلاعب بالصور. تتمتع هذه التقنية بالقدرة على إعادة تشكيل كيفية تفاعلنا مع المحتوى المرئي، مما يجعل تقنيات التحرير المتقدمة في متناول الجميع، بغض النظر عن مهاراتهم التقنية. الآثار المترتبة على ذلك واسعة النطاق، بدءًا من تحسينات الصور الشخصية إلى سير عمل التصميم الاحترافي، وحتى إنشاء أشكال جديدة تمامًا من الفن المرئي. مع استمرار تطور التكنولوجيا، سيكون من الرائع مشاهدة تأثيرها على المشهد الإبداعي.