القدرات الأساسية لـ Step1X-Edit
يدمج Step1X-Edit نماذج لغوية كبيرة متعددة الوسائط (MLLM) ونماذج الانتشار، مما يؤدي إلى تحسينات كبيرة في دقة التحرير وجودة الصورة ضمن الإطار مفتوح المصدر. في معيار GEdit-Bench لتحرير الصور الذي تم إصداره حديثًا، يتفوق Step1X-Edit على النماذج مفتوحة المصدر الحالية في الاتساق الدلالي وجودة الصورة والنتيجة الإجمالية، مما ينافس أداء GPT-4o و Gemini 2.0 Flash.
تحليل دقة المعنى
يدعم النموذج مجموعات معقدة من التعليمات الموصوفة باللغة الطبيعية. لا تتطلب هذه التعليمات قالبًا، مما يجعل النموذج مرنًا وقادرًا على التعامل مع احتياجات التحرير متعددة المهام والمتعددة الأدوار. كما أنه يدعم تحديد واستبدال وإعادة بناء النص في الصور.
- يدعم أوصاف اللغة الطبيعية المعقدة
- لا توجد قوالب ثابتة مطلوبة
- قادر على التحرير متعدد الأدوار والمهام
- يحدد ويستبدل ويعيد بناء النص في الصور
الحفاظ على اتساق الهوية
يحافظ النموذج باستمرار على ملامح الوجه والوضعيات وخصائص الهوية بعد التحرير. هذا مناسب للسيناريوهات ذات متطلبات الاتساق العالية، مثل البشر الافتراضيين ونماذج التجارة الإلكترونية وصور وسائل التواصل الاجتماعي.
- يحافظ على ملامح الوجه
- يحافظ على الوضعيات
- يحافظ على خصائص الهوية
- مثالي للبشر الافتراضيين ونماذج التجارة الإلكترونية ووسائل التواصل الاجتماعي
التحكم الإقليمي عالي الدقة
يدعم النموذج التحرير المستهدف للنص والمواد والألوان والعناصر الأخرى في مناطق معينة. يحافظ على نمط صورة موحد ويوفر تحكمًا أكثر دقة.
- تحرير مستهدف في مناطق معينة
- يتحكم في النص والمواد والألوان
- يحافظ على نمط صورة موحد
- يوفر تحكمًا أكثر دقة
الابتكارات المعمارية
يستخدم Step1X-Edit بنية منفصلة لـ MLLM (نموذج لغوي كبير متعدد الوسائط) + الانتشار، والتي تتعامل بشكل منفصل مع فهم اللغة الطبيعية وإنشاء صور عالية الدقة. بالمقارنة مع نماذج تحرير الصور الحالية، تتمتع هذه البنية بمزايا في القدرة على تعميم التعليمات والتحكم في الصورة.
وحدة MLLM
وحدة MLLM مسؤولة عن معالجة تعليمات اللغة الطبيعية ومحتوى الصورة. لديها قدرات فهم دلالي متعددة الوسائط، والتي يمكن أن تحلل متطلبات التحرير المعقدة إلى إشارات تحكم كامنة.
- يعالج تعليمات اللغة الطبيعية
- يتعامل مع محتوى الصورة
- فهم دلالي متعدد الوسائط
- يحلل متطلبات التحرير المعقدة
وحدة الانتشار
تعتبر وحدة الانتشار بمثابة مولد صور (فك تشفير الصور)، وتكمل إعادة بناء أو تعديل الصور محليًا بناءً على الإشارات الكامنة التي تم إنشاؤها بواسطة MLLM. هذا يضمن الحفاظ على تفاصيل الصورة واتساق النمط.
- مولد الصور (فك تشفير الصور)
- يعيد بناء الصور
- يعدل الصور محليًا
- يحافظ على تفاصيل الصورة ونمطها
يعالج هذا الهيكل مشكلة ‘فهم’ و’إنشاء’ منفصلين في نماذج خطوط الأنابيب التقليدية. وهذا يمكّن النموذج من الحصول على دقة وتحكم أعلى عند تنفيذ تعليمات التحرير المعقدة.
بيانات التدريب
لدعم مجموعة واسعة من مهام تحرير الصور المعقدة، قام Step1X-Edit ببناء مجموعة بيانات تدريب لتحرير الصور رائدة في الصناعة. يقوم بإنشاء 20 مليون ثلاثية تعليمات صورة ونص ويحتفظ في النهاية بأكثر من مليون عينة عالية الجودة. تغطي البيانات 11 نوعًا من المهام الأساسية، بما في ذلك الميزات المطلوبة بشكل متكرر مثل استبدال النص وإنشاء الإجراءات ونقل النمط وتعديل الخلفية. يتم توزيع أنواع المهام بالتساوي، ولغة التعليمات طبيعية وواقعية.
- مجموعة بيانات تدريب رائدة في الصناعة
- 20 مليون ثلاثية تعليمات صورة ونص
- 1 مليون عينة عالية الجودة
- 11 نوعًا من المهام الأساسية
- أنواع المهام موزعة بالتساوي
تقييم الأداء
يحافظ Step1X-Edit باستمرار على جودة عالية في 11 مهمة فرعية لتحرير الصور. قدراته متوازنة بشكل جيد، ويبقى في المقدمة في جميع أبعاد المهام تقريبًا، مما يدل على تنوعه وتوازنه القوي.
معيار GEdit-Bench
يستخدم تقييم النموذج معيار GEdit-Bench تم تطويره ذاتيًا. على عكس مجموعات المهام المركبة يدويًا، فإن هذا المعيار يأتي من طلبات التحرير الحقيقية للمجتمع، والتي هي أقرب إلى احتياجات المنتج.
- معيار تم تطويره ذاتيًا
- طلبات تحرير مجتمعية حقيقية
- أقرب إلى احتياجات المنتج
يتفوق Step1X-Edit بشكل كبير على النماذج مفتوحة المصدر الحالية في المؤشرات الأساسية الثلاثة لـ GEdit-Bench. إنه يعمل بشكل قريب من GPT-4o، ويحقق توازنًا مثاليًا بين فهم اللغة وإعادة بناء الصورة.
فحص تفصيلي للقدرات
لا يتعلق Step1X-Edit بمجرد تغيير الصور؛ بل يتعلق بالفهم الحقيقي للنية الكامنة وراء عمليات التحرير، وتنفيذها بدقة، وحماية سلامة الصورة الأصلية. تم تصميم القدرات الأساسية - الدقة الدلالية، واتساق الهوية، والتحكم الإقليمي عالي الدقة - لتلبية المتطلبات الدقيقة لتحرير الصور الحديث.
تحليل الدقة الدلالية المتعمقة
يتجاوز تحليل الدقة الدلالية لـ Step1X-Edit مجرد التعرف على الكلمات الرئيسية البسيطة. إنه يتعمق في سياق أوصاف اللغة الطبيعية، وفهم المجموعات المعقدة من التعليمات. على عكس الأنظمة التي تعتمد على قوالب جامدة، يمكن لـ Step1X-Edit تفسير اللغة الحرة، مما يجعلها قابلة للتكيف بدرجة كبيرة مع سيناريوهات التحرير المختلفة. يتعامل مع التحرير متعدد الأدوار والمهام بسلاسة، وفهم العلاقات بين التعليمات المتتالية لإنتاج نتائج متماسكة.
ضع في اعتبارك هذا المثال: يريد المستخدم تغيير النص الموجود على لافتة في صورة ثم تغيير لون اللافتة لتتناسب مع سمة مختلفة. لا يقتصر دور Step1X-Edit على استبدال النص وتغيير اللون؛ بل يفهم أن اللافتة هي كائن واحد ويضمن أن تكون تغييرات النص واللون متوافقة مع بعضها البعض ومع الصورة الإجمالية. علاوة على ذلك، يمكن للنموذج تحديد وإعادة بناء النص داخل الصور، حتى لو كان محجوبًا جزئيًا أو مشوهًا. هذه القدرة مفيدة بشكل خاص لتحرير المستندات الممسوحة ضوئيًا أو الصور التي تحتوي على نص متراكب.
شرح الحفاظ على اتساق الهوية
يعد الحفاظ على اتساق الهوية أمرًا بالغ الأهمية في السيناريوهات التي يجب أن يظل فيها الأشخاص في الصور قابلاً للتعرف عليهم على الرغم من التغييرات. هذا مهم بشكل خاص في تطبيقات الإنسان الافتراضي ونمذجة التجارة الإلكترونية وإنشاء محتوى الوسائط الاجتماعية. يضمن Step1X-Edit الحفاظ على ملامح الوجه والوضعيات وخصائص الهوية الفريدة طوال عملية التحرير.
على سبيل المثال، إذا أراد المستخدم تغيير الزي الخاص بنموذج افتراضي في صورة، فإن Step1X-Edit يحافظ على ملامح وجه النموذج وتسريحة شعره وتناسب جسمه، مما يضمن أن الصورة التي تم تحريرها لا تزال تمثل النموذج الأصلي بدقة. وبالمثل، في التجارة الإلكترونية، حيث تعرض النماذج المنتجات، يجب أن يظل مظهر النموذج ثابتًا عبر صور مختلفة لتجنب إرباك العملاء.
التحكم الإقليمي عالي الدقة المحسن
يمكّن التحكم الإقليمي عالي الدقة المستخدمين من إجراء تعديلات مستهدفة على مناطق معينة من الصورة دون التأثير على بقية المشهد. هذه القدرة ضرورية للمهام التي تتطلب تعديلات دقيقة، مثل تغيير لون الملابس أو تغيير نسيج الكائن أو إضافة عناصر معينة إلى منطقة معينة. يتيح Step1X-Edit للمستخدمين تحديد مناطق معينة وتطبيق التعديلات بدقة ملحوظة، مما يضمن أن التغييرات تمتزج بسلاسة مع الصورة الموجودة.
تخيل سيناريو يريد فيه المستخدم تغيير لون سيارة في صورة ولكن مع الحفاظ على الانعكاسات والظلال سليمة. يمكن لـ Step1X-Edit عزل السيارة وتغيير لونها والحفاظ على تأثيرات الإضاءة الأصلية، مما يخلق نتيجة واقعية وجذابة بصريًا. يضمن النموذج أيضًا أن يظل النمط العام وجماليات الصورة متسقين، مما يمنع المناطق التي تم تحريرها من أن تبدو في غير مكانها.
فك تشفير الهندسة المعمارية: MLLM + الانتشار
يمثل الهيكل المنفصل لـ Step1X-Edit، الذي يجمع بين النماذج اللغوية الكبيرة متعددة الوسائط (MLLM) ونماذج الانتشار، تقدمًا كبيرًا في تكنولوجيا تحرير الصور. يتيح هذا التصميم تقسيم العمل حيث يتم التعامل مع فهم اللغة الطبيعية وإنشاء صور عالية الدقة بواسطة وحدات منفصلة مُحسَّنة لمهامها الخاصة.
الغوص العميق في وحدة MLLM
تعمل وحدة MLLM كدماغ للنظام، وهي مسؤولة عن فهم وتفسير كل من تعليمات اللغة الطبيعية ومحتوى الصورة. إنه يمتلك قدرات فهم دلالي متقدمة متعددة الوسائط، مما يمكنه من تشريح متطلبات التحرير المعقدة إلى إشارات تحكم كامنة قابلة للتنفيذ. تتضمن هذه العملية تحليل البنية اللغوية للتعليمات وتحديد العناصر الرئيسية المراد تعديلها وفهم العلاقات بين أجزاء مختلفة من الصورة.
تستخدم وحدة MLLM خوارزميات متطورة لربط تعليمات التحرير بتمثيل يمكن لوحدة الانتشار فهمه. يشفِّر هذا التمثيل التغييرات المطلوبة بطريقة تحافظ على المعنى الدلالي للتعليمات وتضمن توافق التعديلات الناتجة مع نية المستخدم. على سبيل المثال، إذا طلب المستخدم ‘إضافة غروب الشمس إلى الخلفية’، فإن وحدة MLLM تحدد منطقة الخلفية وتتعرف على مفهوم غروب الشمس وتنشئ إشارة تحكم توجه وحدة الانتشار لإنشاء غروب شمس واقعي في المنطقة المحددة.
توضيح وحدة الانتشار
تعمل وحدة الانتشار كفنان، حيث تأخذ إشارات التحكم الكامنة التي تم إنشاؤها بواسطة وحدة MLLM وتستخدمها لإعادة بناء الصورة أو تعديلها بدقة عالية. تستخدم هذه الوحدة عملية تسمى الانتشار، والتي تتضمن إضافة ضوضاء تدريجيًا إلى الصورة ثم تعلم عكس هذه العملية لإنشاء صور جديدة أو تعديل الصور الحالية. يتم تدريب وحدة الانتشار على مجموعة بيانات واسعة من الصور، مما يسمح لها بإنشاء نتائج واقعية وجذابة بصريًا.
تضمن وحدة الانتشار أن تحافظ الصورة المعدلة على تفاصيل الصورة الأصلية والقوام وتأثيرات الإضاءة، وتمزج التغييرات بسلاسة مع المحتوى الحالي. يمكنه أيضًا تكييف نمط التعديلات لمطابقة الجماليات العامة للصورة، وإنشاء نتيجة متماسكة ومتناغمة. على سبيل المثال، إذا أراد المستخدم ‘جعل الصورة تبدو وكأنها لوحة’، فيمكن لوحدة الانتشار تطبيق مرشحات وقوام فنية لتحويل الصورة إلى لوحة مقنعة، مع الحفاظ على التركيب والمحتوى الأصليين.
التآزر: قوة الفصل
يعالج الهيكل المنفصل لـ Step1X-Edit قيدًا أساسيًا لنماذج تحرير الصور التقليدية، حيث غالبًا ما يكون ‘الفهم’ و’الإنشاء’ متشابكين وغير محسنين لمهامهم الخاصة. من خلال فصل هذه الوظائف إلى وحدات مميزة، يحقق Step1X-Edit دقة وتحكم أعلى عند تنفيذ تعليمات التحرير المعقدة. يمكن لوحدة MLLM التركيز على تفسير نية المستخدم بدقة، بينما يمكن لوحدة الانتشار التركيز على إنشاء صور عالية الجودة تلبي المتطلبات المحددة.
يمكّن هذا التآزر بين وحدتي MLLM والانتشار Step1X-Edit من التعامل مع مجموعة واسعة من مهام التحرير بدقة واتساق ملحوظين. سواء كان الأمر يتعلق بإجراء تعديلات طفيفة على صورة أو إجراء تحويلات معقدة، يمكن لـ Step1X-Edit تقديم نتائج جذابة بصريًا ودقيقة من الناحية الدلالية. كما أن البنية المنفصلة تجعل النموذج أكثر نمطية وأسهل في التحديث، مما يسمح للمطورين بتحسين أدائه وقدراته باستمرار.
هندسة مجموعة البيانات: أساس الأداء
لدعم مهام تحرير الصور المتنوعة والمعقدة التي يمكن لـ Step1X-Edit التعامل معها، قام المطورون ببناء مجموعة بيانات تدريب لتحرير الصور رائدة في الصناعة. تتكون مجموعة البيانات هذه من مجموعة واسعة من ثلاثيات تعليمات صورة ونص، والتي تُستخدم لتدريب النموذج على فهم وتنفيذ مجموعة واسعة من أوامر التحرير. تتضمن مجموعة البيانات20 مليون ثلاثية، منها أكثر من مليون عينة عالية الجودة تم تنسيقها بعناية لضمان الدقة والاتساق.
تغطي البيانات 11 نوعًا من المهام الأساسية، وتشمل الميزات المطلوبة بشكل متكرر مثل استبدال النص وإنشاء الإجراءات ونقل النمط وتعديل الخلفية. يتم توزيع أنواع المهام هذه بالتساوي في جميع أنحاء مجموعة البيانات، مما يضمن حصول النموذج على تدريب متوازن ويمكنه الأداء جيدًا في سيناريوهات التحرير المختلفة. لغة التعليمات المستخدمة في مجموعة البيانات طبيعية وواقعية، مما يعكس الطريقة التي يتواصل بها الأشخاص عند طلب تعديلات على الصور.
تتضمن مجموعة البيانات أيضًا أمثلة على تعليمات تحرير معقدة ودقيقة، مثل ‘اجعل الصورة تبدو أكثر عتيقة’ أو ‘أضف إحساسًا بالدراما إلى المشهد’. تتطلب هذه التعليمات أن يفهم النموذج مفاهيم مجردة وتطبيقها على الصورة بطريقة إبداعية وجذابة بصريًا. يعد تنوع وثراء مجموعة البيانات من العوامل الحاسمة في أداء Step1X-Edit، مما يُمكِّنه من التعامل مع مجموعة واسعة من مهام التحرير بدقة وتعدد استخدامات ملحوظين.
قياس التميز: GEdit-Bench
لتقييم أداء Step1X-Edit بدقة، ابتكر المطورون معيارًا تم تطويره ذاتيًا يسمى GEdit-Bench. تم تصميم هذا المعيار لتقديم تقييم شامل لقدرات النموذج في سيناريوهات تحرير الصور المختلفة. على عكس مجموعات المهام المركبة يدويًا، تستمد GEdit-Bench مهامها من طلبات التحرير الحقيقية للمجتمع، مما يجعلها مقياسًا أكثر واقعية وذات صلة لأداء النموذج في تطبيقات العالم الحقيقي.
تغطي المهام في GEdit-Bench مجموعة واسعة من عمليات التحرير، بما في ذلك استبدال النص وإزالة الكائنات ونقل النمط وتعديل الخلفية. يتضمن المعيار أيضًا مهامًا تتطلب من النموذج فهم وتنفيذ تعليمات معقدة ودقيقة، مثل ‘اجعل الصورة تبدو أكثر احترافية’ أو ‘أضف إحساسًا بالدفء إلى المشهد’. يوفر GEdit-Bench تقييمًا أكثر دقة وموثوقية لأداء النموذج في سيناريوهات العالم الحقيقي.
حقق Step1X-Edit نتائج ملحوظة على GEdit-Bench، متجاوزًا النماذج مفتوحة المصدر الحالية في جميع المؤشرات الأساسية الثلاثة: الاتساق الدلالي وجودة الصورة والنتيجة الإجمالية. يقترب أداء النموذج من أداء GPT-4o، مما يدل على قدرته على تحقيق توازن مثالي بين فهم اللغة وإعادة بناء الصورة.
في الختام، يمثل Step1X-Edit تقدمًا كبيرًا في تكنولوجيا تحرير الصور مفتوحة المصدر. إن بنيته المنفصلة ومجموعة بيانات التدريب الواسعة وقياس الأداء الصارم تجعله أداة قوية ومتعددة الاستخدامات لمجموعة واسعة من مهام التحرير. سواء كنت مصورًا محترفًا أو متحمسًا لوسائل التواصل الاجتماعي أو مجرد شخص يريد تحسين صوره، يمكن أن يساعدك Step1X-Edit في تحقيق أهدافك بدقة وسهولة ملحوظتين.