في ساحة الذكاء الاصطناعي دائمة التغير، تتغير مواقع السوق وعروض القدرات بشكل شبه يومي. قامت شركة Google، العملاق الذي يُنظر إليه غالبًا على أنه يحاول اللحاق بالركب في سباق الذكاء الاصطناعي التوليدي الذي أشعلته إصدارات OpenAI التي تصدرت العناوين الرئيسية، مؤخرًا بمناورة استراتيجية مهمة. فتحت الشركة بشكل غير متوقع الوصول إلى نموذجها اللغوي Gemini 2.5 Pro، وتحديدًا النسخة التجريبية، لجميع المستخدمين، مجانًا تمامًا. يمثل هذا القرار تحولًا ملحوظًا عن تواصل Google الأولي، الذي خصص هذا النموذج المتقدم حصريًا للمشتركين المدفوعين في فئة Gemini Advanced. إن إتاحة Gemini 2.5 Pro للجميع بشكل مفاجئ لا يشير فقط إلى تعديل في استراتيجية المنتج ولكنه يؤكد أيضًا على حدة المنافسة الشديدة الصادرة عن المنافسين مثل OpenAI و Anthropic، مما يجبر اللاعبين الرئيسيين على نشر أحدث ابتكاراتهم على نطاق أوسع للاستحواذ على اهتمام المستخدمين وإظهار التكافؤ، إن لم يكن التفوق.
جاء هذا الإصدار وسط تيار ثقافي غريب ولكنه قوي يجتاح وسائل التواصل الاجتماعي: افتتان واسع النطاق بتوليد صور مشبعة بالجمالية المميزة والخيالية لاستوديو Studio Ghibli، دار الرسوم المتحركة اليابانية الموقرة. هذا الاتجاه، الذي أشعلته واستمرت به إلى حد كبير ميزات توليد الصور الأصلية المتطورة بشكل متزايد والمضمنة في ChatGPT الخاص بـ OpenAI، وخاصة نموذج GPT-4o، قدم معيارًا فوريًا، وإن كان متخصصًا. بينما روجت Google لتطورات Gemini 2.5 Pro في القدرات المنطقية الأساسية، كان السؤال الذي يتردد صداه عبر منتديات المستخدمين ومدونات التكنولوجيا أكثر فنية: هل يمكن لمحرك Google القوي الذي أصبح متاحًا حديثًا تكرار المرئيات الساحرة المرادفة لأفلام مثل Spirited Away أو My Neighbor Totoro؟
الأسس الاستراتيجية للوصول المجاني
لم يكن قرار Google بقيادة Sundar Pichai بتقديم Gemini 2.5 Pro التجريبي بدون رسوم اشتراك مجرد لفتة خيرية؛ لقد كانت خطوة محسوبة في لعبة شطرنج تكنولوجية عالية المخاطر. في البداية، بدا حصر هذا النموذج في اشتراك Gemini Advanced منطقيًا - طريقة لتحقيق الدخل من الذكاء الاصطناعي المتطور وتمييز العرض المدفوع. ومع ذلك، فإن سرعة التطوير والنشر من قبل المنافسين، وخاصة ترقيات OpenAI المستمرة لـ ChatGPT وتحسينات Anthropic لـ Claude، أجبرت Google على الأرجح على تغيير موقفها. إن ترك نموذجها الأكثر قدرة المتاح للجمهور خلف جدار دفع كان يخاطر بالتنازل عن الأرض في تبني المستخدمين، وتجارب المطورين، والأهم من ذلك، التصور العام.
يتحدد مشهد الذكاء الاصطناعي بشكل متزايد من خلال إمكانية الوصول. النماذج التي يمكن للمستخدمين التفاعل معها بسهولة واختبارها ودمجها في سير عملهم تكتسب زخمًا أسرع بشكل كبير. من خلال إتاحة Gemini 2.5 Pro للجماهير، تهدف Google إلى:
- توسيع ملاحظات المستخدمين: جمع البيانات حول الأداء وسهولة الاستخدام والتطبيقات غير المتوقعة من قاعدة مستخدمين أكبر وأكثر تنوعًا.
- عرض القدرات: تحدي السرد القائل بأن المنافسين لديهم تقدم لا يمكن التغلب عليه بشكل مباشر، لا سيما في المجالات التي تؤكد عليها Google لهذا النموذج.
- تحفيز اهتمام المطورين: تشجيع المطورين على استكشاف إمكانات النموذج للاندماج في تطبيقات وخدمات الطرف الثالث.
- مواجهة زخم المنافسين: الرد مباشرة على تطورات إمكانية الوصول والميزات التي طرحتها OpenAI وغيرها.
يسلط موقف Google الرسمي الضوء على Gemini 2.5 Pro باعتباره نموذجًا للاستدلال (reasoning model)، ويرسم أوجه تشابه مع المنافسين مثل o3 Mini من OpenAI و DeepSeek R1. تؤكد الشركة على التقدم الواضح في المجالات المعقدة: الرياضيات المتقدمة، والفهم العلمي، والاستدلال المنطقي، ومهام الترميز المتطورة. يُستشهد بتحسينات الأداء عبر مختلف المعايير القياسية الصناعية، بما في ذلك MMLU (الفهم اللغوي الضخم متعدد المهام) الصعب للغاية ومنصات التقييم الأحدث مثل لوحة صدارة LMArena، التي يديرها باحثون تابعون لجامعة كاليفورنيا في بيركلي (UC Berkeley). يركز هذا التركيز بوضوح على نقاط القوة المتصورة لـ ChatGPT و Claude، لا سيما في المساعدة البرمجية وحل المشكلات التحليلية، وهي مجالات حاسمة لتبني المؤسسات وحالات الاستخدام المهني. إن قدرة النموذج، كما تدعي Google، على ‘فهم مجموعات البيانات الضخمة والتعامل مع المشكلات المعقدة من مصادر معلومات مختلفة، بما في ذلك النصوص والصوت والصور والفيديو وحتى مستودعات التعليمات البرمجية بأكملها’، ترسم صورة لمحرك ذكاء متعدد الوسائط ومتعدد الاستخدامات مصمم للمهام الثقيلة.
جاذبية تحويل الصور لأسلوب Ghibli الفيروسية
بالتوازي مع هذه المناورات المؤسسية الاستراتيجية، استحوذ اتجاه مميز يقوده المستخدمون على عالم الإنترنت. دخل مصطلح ‘Ghibli-fy’ (تحويل لأسلوب Ghibli) إلى المعجم حيث اكتشف المستخدمون قوة الذكاء الاصطناعي التوليدي، بشكل أساسي من خلال الأدوات المدمجة في ChatGPT، لتحويل الصور الفوتوغرافية أو إنشاء مشاهد جديدة تمامًا بالأسلوب الأيقوني لاستوديو Studio Ghibli. لم يكن الأمر يتعلق فقط بتطبيق مرشح بسيط؛ بل تضمن التقاط جوهر Ghibli - القوام الناعم الشبيه بالرسم، وتصميمات الشخصيات المعبرة، والأجواء الحنينية، والتكامل المتناغم بين الطبيعة والخيال.
لماذا Studio Ghibli؟ تساهم عدة عوامل في جاذبيته المغناطيسية في سياق توليد صور الذكاء الاصطناعي:
- جمالية مميزة ومحبوبة: أسلوب Ghibli المرسوم يدويًا يمكن التعرف عليه على الفور، وهو جذاب بصريًا، ويثير مشاعر قوية من الحنين والعجب والراحة للملايين في جميع أنحاء العالم.
- الصدى العاطفي: غالبًا ما تستكشف أفلام الاستوديو موضوعات عميقة بعمق عاطفي، ويسعى المستخدمون إلى إضفاء شعور مماثل على صورهم أو أفكارهم.
- عرض تقني: يعد تكرار مثل هذا النمط الفني المحدد والدقيق بنجاح بمثابة عرض مقنع لبراعة الذكاء الاصطناعي في توليد الصور، متجاوزًا المخرجات العامة.
- قابلية المشاركة على وسائل التواصل الاجتماعي: الصور الناتجة قابلة للمشاركة بشكل كبير، مما يغذي انتشار الاتجاه عبر منصات مثل Instagram و X (Twitter سابقًا) و TikTok.
أثبت ChatGPT، خاصة مع طرح GPT-4o، براعته في تفسير المطالبات التي تطلب جمالية Ghibli. شارك المستخدمون أمثلة لا حصر لها لحيواناتهم الأليفة ومنازلهم ومناظرهم الطبيعية وحتى صورهم الشخصية التي أعيد تصورها من خلال هذه العدسة المتحركة الساحرة. أصبحت هذه القدرة معيارًا غير رسمي، ولكنه مرئي للغاية، للذكاء الاصطناعي الإبداعي. لقد استغلت ما أطلق عليه المقال الأصلي ‘طلبًا توراتيًا’، مسلطًا الضوء على الحجم الهائل والحماس المحيط بهذا التحول الفني المحدد. بينما كانت الأنماط الأخرى مثل Lego أو The Simpsons أو Southpark أو Pixar تجارب شائعة أيضًا، إلا أن مظهر Ghibli تردد صداه بكثافة فريدة، ربما بسبب مزيجه من الفن والحنين والدفء العاطفي.
Gemini 2.5 Pro يواجه تحدي Ghibli: معركة شاقة
بالنظر إلى هذا السياق، نشأ السؤال الطبيعي: هل يمكن لـ Gemini 2.5 Pro من Google، المتاح الآن مجانًا، الانضمام إلى حفلة تحويل الصور لأسلوب Ghibli؟ كانت تدوينة Google الرسمية التي أعلنت عن إصدار النموذج صامتة بشكل ملحوظ بشأن آليات توليد الصور المحددة الخاصة به. بينما تفاخرت بمهارات الفهم متعدد الوسائط - فهم المدخلات من النصوص والصوت والصور والفيديو والتعليمات البرمجية - إلا أنها لم تفصل صراحة قدراتها الإبداعية في المجال البصري أو تذكر محرك توليد الصور الأساسي لهذا التنفيذ المحدد المواجه للمستخدم.
كشف الاختبار العملي بسرعة عن الواقع. أثبتت محاولات استخلاص صور بأسلوب Ghibli من Gemini 2.5 Pro (التجريبي) أنها محبطة باستمرار، مما يسلط الضوء على فجوة كبيرة مقارنة بالنتائج التي يمكن تحقيقها بسهولة باستخدام ChatGPT.
المحاولات الأولية والعقبات:
- فشل المطالبات البسيطة: الطلبات المباشرة مثل ‘Ghiblify this image’ (حوّل هذه الصورة لأسلوب Ghibli) أو ‘Turn this photo into Studio Ghibli style’ (اجعل هذه الصورة بأسلوب Studio Ghibli) لم تُقابل بتفسير فني، بل برسائل خطأ جاهزة. كانت الاستجابة النموذجية، كما لوحظ في المقال الأصلي، هي: ‘أنا آسف، لا يمكنني تلبية هذا الطلب. الأداة اللازمة لتطبيق نمط ‘Ghibli’ على صورتك غير متاحة حاليًا.’ يشير هذا إما إلى نقص في القدرة المحددة على نقل النمط أو ربما حواجز أمان تمنع تكرار الأساليب الفنية المحمية بحقوق الطبع والنشر، على الرغم من أن الاحتمال الأخير أقل ترجيحًا نظرًا للقدرات الواسعة للنماذج الأخرى.
- الاعتماد على Imagen 3: أشارت المزيد من التحقيقات وأنماط الاستخدام بقوة إلى أن Gemini 2.5 Pro، في تنفيذه كـ chatbot، يعتمد على الأرجح على نموذج Imagen 3 من Google لتوليد الصور. يختلف هذا اختلافًا جوهريًا عن البنية الضمنية في GPT-4o، حيث يبدو توليد الصور مدمجًا بشكل أعمق، مما قد يسمح بفهم وتلاعب أكثر دقة مرتبط مباشرة بفهم النموذج اللغوي. يعد Imagen 3 نموذجًا قويًا في حد ذاته، ولكن قد يكون تكامله داخل واجهة دردشة Gemini أقل سلاسة أو يفتقر إلى الضبط الدقيق المحدد المطلوب لمحاكاة الأساليب الفنية المميزة عند الطلب.
المطالبات المتقدمة تسفر عن نتائج سيئة:
إدراكًا لعدم فعالية المطالبات البسيطة، حاول المستخدمون مناهج أكثر تطوراً، حتى أنهم استعانوا بأدوات ذكاء اصطناعي أخرى مثل ChatGPT أو Grok لصياغة مطالبات مفصلة للغاية مصممة لتوجيه Gemini بشكل أكثر وضوحًا. كان الهدف هو وصف جمالية Ghibli بالتفصيل النصي - تحديد لوحات الألوان، وخطوط الرسم، وتعبيرات الشخصيات، وعناصر الخلفية، والمزاج العام - على أمل أن يتمكن النموذج من ترجمة هذه الأوصاف إلى مخرجات بصرية تشبه النمط المستهدف، حتى لو لم يتمكن من ‘تحويل’ صورة مرفوعة مباشرة لأسلوب Ghibli.
كانت هذه الجهود عقيمة إلى حد كبير:
- مخرجات غير ذات صلة: في بعض الحالات، كان Gemini يولد صورة، لكنها غالبًا ما كانت لا تشبه الصورة المصدر المرفوعة أو نمط Ghibli المطلوب إلا قليلًا أو لا تشبهها على الإطلاق. قد يكون الناتج نمط أنمي عامًا، أو شيئًا لا علاقة له تمامًا، مما يشير إلى انهيار في تفسير المطالبة المعقدة أو تطبيق قيود النمط.
- مشاكل في المعالجة: في كثير من الأحيان، كانت المحاولات تتوقف ببساطة. كان الـ chatbot يشير إلى أنه يعالج الطلب، لكن توليد الصورة كان يتوقف إلى أجل غير مسمى، ولم ينتج عنه أي نتيجة أو ينتهي به الأمر إلى انتهاء المهلة. يشير هذا إلى صعوبات محتملة في التعامل مع طلبات توليد الصور المعقدة أو مهام نقل النمط ضمن البنية التحتية الحالية.
- أخطاء غير متسقة: بخلاف رسالة ‘نمط Ghibli غير متاح’ المحددة، واجه المستخدمون مجموعة من رسائل الخطأ الأخرى الأقل تحديدًا، مما ساهم بشكل أكبر في الشعور بعدم الموثوقية لهذه المهمة الإبداعية بالذات.
أبرز التناقض الصارخ بين هذه الصعوبات والسهولة النسبية التي كان مستخدمو ChatGPT يولدون بها صورًا مستوحاة من Ghibli فجوة في القدرات. بينما قد يتفوق Gemini 2.5 Pro في الاستدلال المنطقي أو توليد التعليمات البرمجية، فإن قدرته على الانخراط في مهام بصرية إبداعية دقيقة ومحددة النمط بدت أقل تطورًا بكثير، على الأقل في شكله المتاح للجمهور.
التعمق أكثر: بنيات توليد الصور وتكرار الأسلوب
من المحتمل أن ينبع التناقض في الأداء من اختلافات جوهرية في كيفية تعامل أنظمة الذكاء الاصطناعي هذه مع توليد الصور ومحاكاة الأسلوب.
- التوليد المدمج مقابل التوليد المنسق: يبدو أن نماذج مثل GPT-4o تمتلك بنية متعددة الوسائط أكثر تكاملاً. قد تعمل مكونات فهم اللغة وتوليد الصور بشكل أكثر تماسكًا، مما يسمح للنموذج بفهم المعنى الدلالي لأسلوب مثل ‘Ghibli’ بشكل أفضل وترجمة عناصره المرئية الأساسية (الإضاءة الناعمة، نماذج الشخصيات المحددة، زخارف الطبيعة) إلى بيانات بكسل. إنه أقل شبهاً بطلب أداة صور منفصلة لتنفيذ أمر وأكثر شبهاً بالذكاء الأساسي الذي يشارك مباشرة في الإنشاء البصري.
- الاعتماد على نموذج خارجي (Imagen 3): إن اعتماد Gemini الواضح على Imagen 3، مع الاستفادة من مولد قادر، يسبب احتكاكًا محتملاً. قد تتضمن العملية قيام نموذج لغة Gemini بتفسير الطلب ثم تمرير التعليمات إلى Imagen 3. يمكن أن يؤدي هذا التسليم إلى فقدان المعلومات أو سوء التفسير، خاصة بالنسبة للطلبات الأسلوبية الذاتية أو المعقدة. قد يكون Imagen 3 مُحسَّنًا للواقعية الفوتوغرافية أو إنشاء الصور العامة ولكنه يفتقر إلى الضبط الدقيق المحدد أو المرونة المعمارية اللازمة لتكرار الأسلوب الفني بأمانة على الفور بناءً على مطالبات نصية دقيقة داخل واجهة الدردشة.
- تحدي ‘الأسلوب’: إن تكرار أسلوب فني مثل أسلوب Studio Ghibli معقد بطبيعته. لا يتعلق الأمر فقط بالألوان أو الأشكال؛ إنه ينطوي على التقاط صفات غير ملموسة مثل المزاج والجو وعاطفة الشخصية والشعور السردي. يتطلب هذا أكثر من مجرد مطابقة الأنماط؛ إنه يتطلب درجة من الفهم البصري والقدرة التفسيرية التي تدفع حدود الذكاء الاصطناعي الحالي. تعد بيانات التدريب أيضًا حاسمة؛ يحتاج النموذج إلى تعرض كافٍ للأسلوب المستهدف، مصنّفًا بشكل صحيح ومفهومًا في السياق، لتكراره بفعالية. من المحتمل أن تكون مجموعات بيانات التدريب أو بنية النموذج لدى Google حاليًا أقل تحسينًا لهذا النوع المحدد من التحول الإبداعي مقارنة بـ OpenAI.
Studio Ghibli: إرث دائم يتجاوز البكسلات
لفهم سبب كون تكرار أسلوبه معيارًا مرغوبًا وصعبًا في نفس الوقت، من الضروري تقدير ما يمثله Studio Ghibli. تأسس الاستوديو في عام 1985 على يد الأسطوري Hayao Miyazaki والراحل Isao Takahata والمنتج Toshio Suzuki، وتجاوز Ghibli مجرد الرسوم المتحركة. لقد أصبح مؤسسة ثقافية، مشهورة عالميًا بحرفيتها الدقيقة، ورواياتها المقنعة، واستكشافاتها الموضوعية العميقة.
تشمل الجوانب الرئيسية التي تحدد إرث Ghibli ما يلي:
- الفن اليدوي: في عصر تهيمن عليه بشكل متزايد رسومات الحاسوب (CGI)، ظل Ghibli ملتزمًا بشدة بالرسوم المتحركة التقليدية المرسومة يدويًا لجزء كبير من تاريخه، مما أضفى على أفلامه دفئًا وسيولة وملمسًا عضويًا فريدًا. كل إطار يبدو مقصودًا، مشبعًا بلمسة إنسانية.
- السرد القصصي الغني: غالبًا ما تتميز أفلام Ghibli بشخصيات معقدة (خاصة البطلات الشابات القويات)، وحبكات معقدة، ومشاهد أخلاقية غامضة. إنها تتجنب الانقسامات البسيطة بين الخير والشر، وتستكشف المشاعر والدوافع الإنسانية الدقيقة.
- العمق الموضوعي: تشمل الموضوعات الشائعة حماية البيئة وعلاقة الإنسانية بالطبيعة (Nausicaä of the Valley of the Wind, Princess Mononoke)، وعجائب وقلق الطفولة (My Neighbor Totoro, Kiki’s Delivery Service)، ونقد الحرب والعنف (Grave of the Fireflies, Howl’s Moving Castle)، والسحر الكامن في الحياة اليومية (Spirited Away).
- المرئيات المميزة: بخلاف الأسلوب العام، تتكرر زخارف بصرية محددة: مخلوقات خيالية، وآلات مفصلة (غالبًا ما تكون أجهزة طيران)، ومناظر طبيعية خصبة، وتصوير شهي للطعام، وتمثيل شخصيات معبرة من خلال الرسوم المتحركة.
أفلام مثل My Neighbor Totoro، و Spirited Away (الحائز على جائزة الأوسكار)، و Howl’s Moving Castle، و Kiki’s Delivery Service، و Princess Mononoke ليست مجرد أفلام رسوم متحركة؛ إنها تجارب سينمائية تركت بصمة لا تُمحى على الثقافة العالمية. وبالتالي، فإن محاولة ‘تحويل صورة لأسلوب Ghibli’ هي محاولة للاستفادة من هذا الوريد الغني من الفن والعاطفة، مما يجعل نجاح الذكاء الاصطناعي أو فشله أكثر من مجرد تفصيل تقني - إنه مقياس لقدرته على التواصل مع جمالية ثقافية متجذرة بعمق.
الآثار الأوسع: الذكاء الاصطناعي الإبداعي والطريق إلى الأمام
تقدم الحالة المحددة لصعوبات Gemini 2.5 Pro مع أسلوب Ghibli، على الرغم من أنها تبدو قضية متخصصة، رؤى أوسع حول الحالة الحالية ومسار الذكاء الاصطناعي التوليدي:
- الفهم متعدد الوسائط مقابل الإنشاء: إن تركيز Google على قدرة Gemini على فهم أنواع البيانات المتنوعة (النص، الصورة، الصوت، الفيديو، التعليمات البرمجية) أمر مهم. ومع ذلك، يسلط هذا الاختبار الضوء على أن الفهم لا يُترجم تلقائيًا إلى إنشاء متطور بنفس القدر عبر جميع الوسائط، خاصة في المجالات الفنية الدقيقة للغاية. لا تزال هناك فجوة بين تحليل صورة وتوليد واحدة بمتطلبات أسلوبية محددة ومعقدة.
- سباق التخصص: مع ازدياد قوة نماذج الذكاء الاصطناعي، قد نرى تخصصًا متزايدًا. بينما تهدف بعض النماذج إلى ذكاء عام واسع (مثل Gemini الذي يركز بشكل محتمل على الاستدلال والمنطق)، قد يتفوق البعض الآخر في مجالات إبداعية محددة (مثل ميزة ChatGPT الحالية في أنماط بصرية معينة). يمكن أن تصبح القدرة على تكرار أنماط فنية محددة بأمانة عامل تمييز رئيسي لمنصات الذكاء الاصطناعي الإبداعية.
- توقعات المستخدم مقابل الواقع: أدى النجاح الفيروسي لتحويل الصور لأسلوب Ghibli عبر ChatGPT إلى رفع توقعات المستخدمين. عندما يفشل نموذج رئيسي جديد مثل Gemini 2.5 Pro في تحقيق هذه القدرة الشائعة، يمكن أن يؤثر ذلك على تصور المستخدم، بغض النظر عن نقاط قوته في مجالات أخرى. يجب على شركات الذكاء الاصطناعي إدارة هذه التوقعات مع توصيل القيود الحالية لتقنيتها بوضوح.
- عقبة التكامل: الطريقة التي يتم بها دمج قدرات الذكاء الاصطناعي وتقديمها للمستخدم مهمة للغاية. توفر الواجهة السلسة والبديهية حيث يتدفق فهم اللغة بشكل طبيعي إلى إنشاء الصور (كما يبدو أن ChatGPT/GPT-4o قد حققه لهذه المهمة) تجربة مستخدم متفوقة مقارنة بنظام قد تتفاعل فيه نماذج أساسية مختلفة (مثل Gemini و Imagen 3) بسيولة أقل.
- مسار الذكاء الاصطناعي الإبداعي لـ Google: بينما يمثل Gemini 2.5 Pro خطوة إلى الأمام في الاستدلال، تشير هذه الحادثة إلى أن Google لا يزال أمامها طريق لتقطعه في مطابقة قدرات توليد الصور المرئية الإبداعية التي يمكن الوصول إليها والتي أظهرها المنافسون. من المرجح أن تركز التكرارات المستقبلية لـ Gemini و Imagen على سد هذه الفجوة، ربما من خلال تكامل أعمق وتدريب محدد لمحاكاة الأسلوب الفني.
في نهاية المطاف، يعد السعي لتكرار سحر Studio Ghibli رقميًا بمثابة صورة مصغرة رائعة لثورة الذكاء الاصطناعي الأكبر. إنه يدفع حدود القدرة التقنية بينما يستغل في نفس الوقت الرغبات الإنسانية العميقة في الإبداع والحنين والتواصل مع أشكال الفن المحبوبة. بينما يُظهر Gemini 2.5 Pro من Google وعدًا في المجالات التحليلية، فإن عدم قدرته الحالية على استحضار روح Totoro أو Chihiro بسهولة في البكسلات يذكرنا بأن الرحلة نحو ذكاء اصطناعي متعدد الاستخدامات وبارع فنيًا حقًا لا تزال جارية. ومع ذلك، تضمن المنافسة أن هذه الرحلة ستستمر بوتيرة مذهلة.