GPT-4o: OpenAI تدمج توليد الصور أصليًا

يواصل مشهد الذكاء الاصطناعي تطوره السريع، والذي تميز مؤخرًا بخطوة مهمة من OpenAI. قامت المنظمة، المشهورة بتطويرها لسلسلة نماذج الذكاء الاصطناعي المؤثرة GPT، الآن بدمج قدرات توليد الصور مباشرة في أحدث إصداراتها، GPT-4o. يمثل هذا التطور، الذي تم الإعلان عنه يوم الثلاثاء، تحولًا محوريًا، مما يسمح للنموذج بإنتاج مجموعة متنوعة من المحتوى المرئي دون الاعتماد على أدوات خارجية متخصصة. يمكن للمستخدمين الآن التحدث مع الذكاء الاصطناعي لاستحضار كل شيء بدءًا من الرسوم البيانية المفصلة والقصص المصورة المتسلسلة إلى اللافتات المخصصة والرسومات الديناميكية والقوائم ذات المظهر الاحترافي والميمات المعاصرة وحتى لافتات الشوارع الواقعية. تمثل هذه القدرة البصرية الجوهرية قفزة إلى الأمام في السعي للحصول على مساعدي ذكاء اصطناعي أكثر تنوعًا وتكاملًا بسلاسة.

فجر الإنشاء البصري الأصلي

ما يميز هذا التقدم هو تنفيذه الأصلي (native implementation). على عكس سير العمل السابق الذي قد يتضمن توجيه الطلبات إلى نماذج منفصلة لتوليد الصور، مثل DALL-E الخاص بـ OpenAI، يمتلك GPT-4o الآن القدرة الكامنة على ترجمة الأوصاف النصية إلى بكسلات. يعتمد على قاعدة معارفه الداخلية الواسعة وتصميمه المعماري لبناء الصور مباشرة. هذا لا يجعل DALL-E قديمًا؛ فقد أوضحت OpenAI أن المستخدمين الذين يفضلون واجهة DALL-E المخصصة أو وظائفها المحددة يمكنهم الاستمرار في استخدامها كما اعتادوا دائمًا. ومع ذلك، يوفر التكامل داخل GPT-4o نهجًا مبسطًا وحواريًا للإنشاء البصري.

تم تصميم العملية للتفاعل البديهي. كما أوضحت OpenAI، ‘إنشاء الصور وتخصيصها بسيط مثل الدردشة باستخدام GPT‑4o’. يحتاج المستخدمون فقط إلى التعبير عن رؤيتهم بلغة طبيعية. يتضمن ذلك تحديد العناصر المطلوبة والتفاصيل التركيبية والفروق الدقيقة الأسلوبية وحتى المعلمات التقنية. النموذج مجهز لفهم وتنفيذ التعليمات المتعلقة بـ نسب العرض إلى الارتفاع (aspect ratios)، مما يضمن ملاءمة الصور لمتطلبات الأبعاد المحددة. علاوة على ذلك، يمكنه دمج لوحات ألوان دقيقة باستخدام الأكواد السداسية العشرية (hexadecimal codes)، مما يوفر تحكمًا دقيقًا لأغراض العلامات التجارية أو الفنية. ميزة أخرى ملحوظة هي القدرة على إنشاء صور بـ خلفيات شفافة (transparent backgrounds)، وهو مطلب حاسم لطبقات الرسومات في مشاريع التصميم أو العروض التقديمية.

بالإضافة إلى الإنشاء الأولي، تمتد الطبيعة الحوارية إلى التحسين. لا يقتصر المستخدمون على مخرج واحد. يمكنهم الدخول في حوار متابعة مع GPT-4o لتكرار الصورة التي تم إنشاؤها. قد يتضمن ذلك طلب تعديلات على عناصر محددة، أو تعديل نظام الألوان، أو تغيير النمط، أو إضافة أو إزالة التفاصيل. تعكس هذه الحلقة التكرارية عملية إبداعية طبيعية، مما يسمح بالتحسين التدريجي حتى يتوافق الإخراج المرئي تمامًا مع نية المستخدم. تحول هذه القدرة توليد الصور من أمر قد يكون ناجحًا أو فاشلاً إلى تبادل تعاوني بين الإنسان والآلة.

لوحة فنية ذات تنوع غير مسبوق

نطاق المخرجات المرئية التي يمكن لـ GPT-4o إنشاؤها واسع بشكل ملحوظ، مما يعرض إمكاناته عبر العديد من المجالات. ضع في اعتبارك التطبيقات التالية:

  • تصور البيانات: إنشاء رسوم بيانية (infographics) بسرعة بناءً على نقاط البيانات أو المفاهيم المقدمة، مما يبسط توصيل المعلومات المعقدة.
  • سرد القصص والترفيه: إنشاء قصص مصورة (comic strips) متعددة اللوحات من مطالبة سردية، مما قد يحدث ثورة في إنشاء المحتوى للفنانين والكتاب.
  • التصميم والعلامات التجارية: إنتاج لافتات (signboards) و رسومات (graphics) و قوائم (menus) بنصوص وشعارات محددة (من الناحية المفاهيمية، حيث أن تكرار الشعار المباشر له آثار تتعلق بحقوق النشر) وأنماط، مما يساعد الشركات في النماذج الأولية السريعة وإنشاء مواد التسويق.
  • الثقافة الرقمية: صياغة ميمات (memes) بناءً على الاتجاهات الحالية أو سيناريوهات محددة، مما يدل على فهم ثقافة الإنترنت.
  • المحاكاة والنماذج: إنشاء لافتات شوارع (street signs) واقعية أو عناصر بيئية أخرى للبيئات الافتراضية أو لأغراض التخطيط.
  • تصميم واجهة المستخدم: ربما تكون إحدى أبرز القدرات التي تم عرضها هي إنشاء واجهات المستخدم (user interfaces - UIs) بناءً على الأوصاف النصية فقط، دون الحاجة إلى أي صور مرجعية. يمكن أن يؤدي ذلك إلى تسريع مرحلة النماذج الأولية بشكل كبير لمطوري التطبيقات والويب.

ينبع هذا التنوع من فهم النموذج العميق للغة وقدرته المكتشفة حديثًا على ترجمة هذا الفهم إلى هياكل بصرية متماسكة. إنه ليس مجرد مطابقة للأنماط؛ بل يتضمن تفسير السياق وطلبات الأسلوب والمتطلبات الوظيفية الموصوفة في النص.

كما حظيت قوة توليد النص داخل الصور (text generation within images) باهتمام كبير. تاريخيًا، غالبًا ما كافحت مولدات الصور بالذكاء الاصطناعي لتقديم النص بدقة، وكثيرًا ما أنتجت أحرفًا مشوهة أو لا معنى لها. تشير الأمثلة المبكرة من GPT-4o إلى تحسن ملحوظ في هذا المجال، حيث يتم إنشاء صور تحتوي على نص مقروء وصحيح من الناحية السياقية دون التشوهات التي ابتليت بها الأجيال السابقة من أدوات الصور بالذكاء الاصطناعي. هذا أمر بالغ الأهمية لتطبيقات مثل إنشاء الإعلانات أو الملصقات أو الرسوم البيانية حيث يكون النص المدمج ضروريًا.

علاوة على ذلك، تضيف القدرة على إجراء تحويلات الأسلوب (style transformations) على الصور الفوتوغرافية الحالية طبقة أخرى من الإمكانات الإبداعية. يمكن للمستخدمين تحميل صورة وطلب من GPT-4o إعادة تفسيرها بأسلوب فني مختلف. تم عرض هذه القدرة بوضوح عندما بدأ المستخدمون في تحويل اللقطات العادية إلى صور تذكرنا بالجمالية المميزة لرسوم Studio Ghibli المتحركة. لا يعرض هذا فهم النموذج للاتفاقيات الفنية المختلفة فحسب، بل يوفر أيضًا أداة قوية للفنانين والهواة الذين يبحثون عن تأثيرات بصرية فريدة.

أصداء الدهشة من مجتمع المستخدمين

قوبل إدخال ميزات الصور الأصلية هذه بحماس فوري وواسع النطاق من مجتمع الذكاء الاصطناعي وخارجه. بدأ المستخدمون بسرعة في التجربة، ودفعوا حدود قدرات النموذج وشاركوا اكتشافاتهم عبر الإنترنت. كان الشعور في كثير من الأحيان هو الدهشة المطلقة بالجودة والتماسك وسهولة الاستخدام.

شارك Tobias Lutke، الرئيس التنفيذي لشركة Shopify، حكاية شخصية مقنعة. قدم للنموذج صورة لقميص ابنه، والذي كان يظهر عليه حيوان غير مألوف. لم يقم GPT-4o بتحديد المخلوق فحسب، بل وصف أيضًا تشريحه بدقة. لخص رد فعل Lutke، الذي تم التقاطه في تعليقه عبر الإنترنت، ‘كيف يكون هذا حقيقيًا؟’، شعور الدهشة الذي شعر به الكثيرون عند مشاهدة قدرات الفهم والتوليد متعددة الوسائط المتطورة للنموذج بشكل مباشر. سلط هذا المثال الضوء على قدرة النموذج على التحليل المقترن بالتوليد، متجاوزًا مجرد إنشاء الصور البسيط.

تردد صدى القدرة المذكورة أعلاه على إنشاء نص داخل الصور (text within images) نظيف ودقيق بقوة. بالنسبة لمصممي الجرافيك والمسوقين ومنشئي المحتوى الذين عانوا من قيود النص في أدوات الذكاء الاصطناعي الأخرى، مثل هذا اختراقًا عمليًا كبيرًا. لم يعودوا بحاجة بالضرورة إلى برامج تصميم جرافيك منفصلة لمجرد تراكب نص دقيق على خلفية تم إنشاؤها بواسطة الذكاء الاصطناعي.

أثارت إمكانية توليد واجهة المستخدم (UI generation) من المطالبات وحدها حماسًا خاصًا بين المطورين والمصممين. القدرة على تصور شاشة تطبيق أو تخطيط موقع ويب بسرعة بناءً على وصف - ‘أنشئ شاشة تسجيل دخول لتطبيق مصرفي عبر الهاتف المحمول بخلفية زرقاء وحقول لاسم المستخدم وكلمة المرور وزر ‘تسجيل الدخول’ بارز’ - يمكن أن تبسط بشكل كبير المراحل المبكرة من تطوير المنتج، مما يسهل التكرار الأسرع والتواصل الأكثر وضوحًا داخل الفرق.

انتشرت ميزة نقل الأسلوب (style transfer) بسرعة. شارك Grant Slatton، المهندس المؤسس في Row Zero، مثالًا شائعًا بشكل خاص يحول صورة فوتوغرافية قياسية إلى أسلوب الرسوم المتحركة ‘Studio Ghibli’ الشهير. عمل منشوره كمحفز، وألهم عددًا لا يحصى من الآخرين لمحاولة تحويلات مماثلة، وتطبيق أنماط تتراوح من الانطباعية والسريالية إلى جماليات فنانين محددين أو مظاهر سينمائية. لم يكن هذا التجريب الجماعي بمثابة شهادة على جاذبية الميزة فحسب، بل كان أيضًا بمثابة استكشاف جماعي لنطاقها الإبداعي وقيودها.

ظهرت حالة استخدام قوية أخرى في مجال الإعلان والتسويق. وثق أحد المستخدمين تجربته في محاولة تكرار صورة إعلان موجودة لتطبيقه الخاص. قدم الإعلان الأصلي كمرجع مرئي ولكنه أصدر تعليماته إلى GPT-4o لاستبدال لقطة شاشة التطبيق الموجودة في الأصل بلقطة شاشة لمنتجه الخاص، مع الحفاظ على التخطيط العام والأسلوب ودمج النسخة ذات الصلة. أبلغ المستخدم عن نجاح مذهل، قائلاً: ‘في غضون دقائق، كاد أن يكررها بشكل مثالي’. يشير هذا إلى تطبيقات قوية في النماذج الأولية السريعة للإعلانات، واختبار A/B للتغيرات، وتخصيص المواد التسويقية بسرعة غير مسبوقة.

بالإضافة إلى هذه التطبيقات المحددة، استمرت القدرة العامة على إنشاء صور واقعية (photorealistic images) في إثارة الإعجاب. شارك المستخدمون أمثلة للمناظر الطبيعية والصور الشخصية وعروض الكائنات التي اقتربت من جودة التصوير الفوتوغرافي، مما زاد من طمس الخطوط الفاصلة بين الواقع الذي تم إنشاؤه رقميًا والواقع الذي تم التقاطه بالكاميرا. يفتح هذا المستوى من الواقعية الأبواب أمام التصوير الفوتوغرافي الافتراضي، وإنشاء فن المفاهيم، وإنشاء أصول واقعية للمحاكاة أو العوالم الافتراضية. رسمت استجابة المستخدم الجماعية صورة لأداة لم تكن مثيرة للإعجاب من الناحية الفنية فحسب، بل كانت مفيدة حقًا وملهمة بشكل إبداعي عبر مجموعة واسعة من التطبيقات.

الطرح المرحلي ومستويات الوصول

تبنت OpenAI نهجًا مرحليًا لنشر هذه القدرات الجديدة. في البداية، تم منح الوصول إلى ميزات إنشاء الصور الأصلية داخل GPT-4o للمستخدمين المشتركين في خطط Plus و Pro و Team. وإدراكًا للاهتمام الواسع، وسعت الشركة أيضًا التوافر للمستخدمين على الخطة المجانية (Free plan)، وإن كان ذلك مع حدود استخدام محتملة مقارنة بالمستويات المدفوعة.

بالنسبة لمستخدمي المؤسسات، من المخطط الوصول قريبًا لأولئك الموجودين على خطط Enterprise و Edu، مما يشير إلى تكامل أو دعم مخصص لعمليات النشر على نطاق أوسع في بيئات الأعمال والتعليم.

علاوة على ذلك، سيتمكن المطورون الحريصون على دمج هذه القدرات في تطبيقاتهم وخدماتهم الخاصة من الوصول إليها من خلال API. أشارت OpenAI إلى أن الوصول إلى API سيتم طرحه تدريجياً خلال الأسابيع القليلة اللاحقة للإعلان الأولي. يتيح هذا الطرح المرحلي لـ OpenAI إدارة تحميل الخادم، وجمع التعليقات من شرائح المستخدمين المختلفة، وتحسين النظام بناءً على أنماط الاستخدام في العالم الحقيقي قبل إتاحته عالميًا عبر API.

السياق داخل ساحة الذكاء الاصطناعي التنافسية

لم يحدث تحسين OpenAI لـ GPT-4o مع إنشاء الصور الأصلي في فراغ. جاء الإعلان بعد خطوة مماثلة من Google، التي قدمت ميزات إنشاء صور أصلية مماثلة في نموذج الذكاء الاصطناعي Gemini 2.0 Flash. أصبحت قدرة Google، التي تم معاينتها مبدئيًا للمختبرين الموثوق بهم في ديسمبر من العام السابق، متاحة على نطاق واسع عبر المناطق التي يدعمها Google AI Studio في نفس الوقت تقريبًا الذي أطلقت فيه OpenAI.

صرحت Google بأن المطورين يمكنهم البدء في تجربة هذه ‘القدرة الجديدة باستخدام إصدار تجريبي من Gemini 2.0 Flash (gemini-2.0-flash-exp) في Google AI Studio وعبر Gemini API’. يسلط هذا الإصدار شبه المتزامن الضوء على المنافسة الشديدة والوتيرة السريعة للابتكار في مجال الذكاء الاصطناعي التوليدي. من الواضح أن كلا عملاقي التكنولوجيا يعطيان الأولوية لدمج القدرات متعددة الوسائط - القدرة على فهم وإنشاء المحتوى عبر تنسيقات مختلفة مثل النص والصور - مباشرة في نماذجهما الرئيسية. يشير هذا الاتجاه إلى مستقبل يكون فيه مساعدو الذكاء الاصطناعي أكثر تنوعًا بشكل متزايد، وقادرين على التعامل مع مجموعة أوسع من المهام الإبداعية والتحليلية من خلال واجهة واحدة موحدة، مما يجعل التفاعل أكثر سلاسة وقوة للمستخدمين في جميع أنحاء العالم. السباق مستمر لتقديم تجربة الذكاء الاصطناعي الأكثر سلاسة وقدرة وتكاملًا.