ویرایشگر تصویر متن‌باز Step1X-Edit

Step1X-Edit، یک مدل ویرایش تصویر متن‌باز است که توسط StepFun توسعه یافته و عملکردی در سطح جهانی (SOTA) ارائه می‌دهد. این مدل با داشتن ۱۹ میلیارد پارامتر (۷B MLLM + 12B DiT)، در سه حوزه کلیدی برتری دارد: تحلیل معنایی دقیق، حفظ هویت پیوسته و کنترل منطقه‌ای با دقت بالا. این مدل از ۱۱ نوع وظیفه ویرایش تصویر متداول پشتیبانی می‌کند، از جمله جایگزینی متن، انتقال سبک، تغییر مواد و روتوش پرتره. Step1X-Edit برای درک، اصلاح دقیق و حفظ موثر جزئیات طراحی شده است.

قابلیت‌های اصلی Step1X-Edit

Step1X-Edit مدل‌های زبان بزرگ چندوجهی (MLLM) و مدل‌های انتشار را ادغام می‌کند، که منجر به بهبودهای چشمگیری در دقت ویرایش و وفاداری تصویر در چارچوب متن‌باز می‌شود. در معیار ویرایش تصویر GEdit-Bench که به تازگی منتشر شده است، Step1X-Edit از مدل‌های متن‌باز موجود در سازگاری معنایی، کیفیت تصویر و نمره کلی بهتر عمل می‌کند و با عملکرد GPT-4o و Gemini 2.0 Flash رقابت می‌کند.

تحلیل دقت معنایی

این مدل از ترکیبات پیچیده دستورالعمل‌های توصیف شده به زبان طبیعی پشتیبانی می‌کند. این دستورالعمل‌ها نیازی به الگو ندارند، که مدل را انعطاف‌پذیر می‌کند و قادر می‌سازد نیازهای ویرایش چند نوبتی و چند وظیفه‌ای را برآورده کند. همچنین از شناسایی، جایگزینی و بازسازی متن در تصاویر پشتیبانی می‌کند.

  • پشتیبانی از توضیحات پیچیده به زبان طبیعی
  • عدم نیاز به الگوهای ثابت
  • قابلیت ویرایش چند نوبتی و چند وظیفه‌ای
  • شناسایی، جایگزینی و بازسازی متن در تصاویر

حفظ سازگاری هویت

این مدل به طور مداوم ویژگی‌های صورت، حالت‌ها و ویژگی‌های هویتی را پس از ویرایش حفظ می‌کند. این ویژگی برای سناریوهایی با الزامات سازگاری بالا، مانند انسان‌های مجازی، مدل‌های تجارت الکترونیکی و تصاویر رسانه‌های اجتماعی مناسب است.

  • حفظ ویژگی‌های صورت
  • حفظ حالت‌ها
  • حفظ ویژگی‌های هویتی
  • ایده‌آل برای انسان‌های مجازی، مدل‌های تجارت الکترونیکی و رسانه‌های اجتماعی

کنترل منطقه‌ای با دقت بالا

این مدل از ویرایش هدفمند متن، مواد، رنگ‌ها و سایر عناصر در مناطق خاص پشتیبانی می‌کند. سبک تصویر یکپارچه را حفظ می‌کند و کنترل دقیق‌تری را ارائه می‌دهد.

  • ویرایش هدفمند در مناطق خاص
  • کنترل متن، مواد و رنگ‌ها
  • حفظ سبک تصویر یکپارچه
  • ارائه کنترل دقیق‌تر

نوآوری‌های معماری

Step1X-Edit از یک معماری جداشده MLLM (مدل زبان بزرگ چندوجهی) + Diffusion استفاده می‌کند، که به طور جداگانه درک زبان طبیعی و تولید تصویر با کیفیت بالا را انجام می‌دهد. در مقایسه با مدل‌های ویرایش تصویر موجود، این معماری در توانایی تعمیم دستورالعمل و قابلیت کنترل تصویر مزایایی دارد.

ماژول MLLM

ماژول MLLM مسئول پردازش دستورالعمل‌های زبان طبیعی و محتوای تصویر است. دارای قابلیت‌های درک معنایی چندوجهی است که می‌تواند الزامات ویرایش پیچیده را به سیگنال‌های کنترل نهفته تجزیه کند.

  • پردازش دستورالعمل‌های زبان طبیعی
  • مدیریت محتوای تصویر
  • درک معنایی چندوجهی
  • تجزیه الزامات ویرایش پیچیده

ماژول Diffusion

ماژول Diffusion به عنوان یک ژنراتور تصویر (Image Decoder) عمل می‌کند و بازسازی یا اصلاح محلی تصاویر را بر اساس سیگنال‌های نهفته تولید شده توسط MLLM تکمیل می‌کند. این امر حفظ جزئیات تصویر و سازگاری سبک را تضمین می‌کند.

  • ژنراتور تصویر (Image Decoder)
  • بازسازی تصاویر
  • اصلاح تصاویر به صورت محلی
  • حفظ جزئیات و سبک تصویر

این ساختار مسئله جدا بودن ‘درک’ و ‘تولید’ در مدل‌های خط لوله سنتی را برطرف می‌کند. این امر مدل را قادر می‌سازد تا هنگام اجرای دستورالعمل‌های ویرایش پیچیده، دقت و کنترل بالاتری داشته باشد.

داده‌های آموزش

برای پشتیبانی از طیف گسترده‌ای از وظایف ویرایش تصویر پیچیده، Step1X-Edit یک مجموعه داده آموزشی ویرایش تصویر پیشرو در صنعت ایجاد کرده است. ۲۰ میلیون سه‌تایی دستورالعمل تصویر-متن تولید می‌کند و در نهایت بیش از ۱ میلیون نمونه با کیفیت بالا را حفظ می‌کند. این داده‌ها ۱۱ نوع وظیفه اصلی را پوشش می‌دهند، از جمله ویژگی‌های پرکاربردی مانند جایگزینی متن، تولید عمل، انتقال سبک و تنظیم پس‌زمینه. انواع وظایف به طور مساوی توزیع شده‌اند و زبان دستورالعمل طبیعی و واقعی است.

  • مجموعه داده آموزشی پیشرو در صنعت
  • ۲۰ میلیون سه‌تایی دستورالعمل تصویر-متن
  • ۱ میلیون نمونه با کیفیت بالا
  • ۱۱ نوع وظیفه اصلی
  • انواع وظایف به طور مساوی توزیع شده

ارزیابی عملکرد

Step1X-Edit به طور مداوم خروجی با کیفیت بالا را در ۱۱ زیروظیفه ویرایش تصویر حفظ می‌کند. قابلیت‌های آن متعادل است و در تقریبا تمام ابعاد وظیفه در خط مقدم باقی می‌ماند و تطبیق‌پذیری و تعادل قوی خود را نشان می‌دهد.

معیار GEdit-Bench

ارزیابی مدل از یک معیار GEdit-Bench خود توسعه یافته استفاده می‌کند. بر خلاف مجموعه‌های وظیفه مصنوعی دست‌ساز، این معیار از درخواست‌های ویرایش واقعی جامعه ناشی می‌شود، که به نیازهای محصول نزدیک‌تر است.

  • معیار خود توسعه یافته
  • درخواست‌های ویرایش واقعی جامعه
  • نزدیک‌تر به نیازهای محصول

Step1X-Edit به طور قابل توجهی از مدل‌های متن‌باز موجود در سه شاخص اصلی GEdit-Bench پیشی می‌گیرد. عملکرد آن نزدیک به GPT-4o است و به تعادل ایده‌آلی بین درک زبان و بازسازی تصویر دست می‌یابد.

بررسی دقیق قابلیت‌ها

Step1X-Edit فقط در مورد تغییر تصاویر نیست. بلکه در مورد درک واقعی نیت پشت ویرایش‌ها، اجرای آنها با دقت و حفظ یکپارچگی تصویر اصلی است. قابلیت‌های اصلی—دقت معنایی، سازگاری هویت و کنترل منطقه‌ای با دقت بالا—برای پاسخگویی به خواسته‌های دقیق ویرایش تصویر مدرن طراحی شده‌اند.

تحلیل دقت معنایی به صورت عمیق

تحلیل دقت معنایی Step1X-Edit فراتر از تشخیص ساده کلمات کلیدی است. به زمینه توضیحات زبان طبیعی می‌پردازد و ترکیبات پیچیده دستورالعمل‌ها را درک می‌کند. بر خلاف سیستم‌هایی که به الگوهای سفت و سخت متکی هستند، Step1X-Edit می‌تواند زبان آزاد را تفسیر کند و آن را برای سناریوهای مختلف ویرایش بسیار سازگار کند. ویرایش چند نوبتی و چند وظیفه‌ای را به طور یکپارچه انجام می‌دهد و روابط بین دستورالعمل‌های متوالی را درک می‌کند تا نتایج منسجمی تولید کند.

این مثال را در نظر بگیرید: کاربر می‌خواهد متن روی یک علامت در یک تصویر را تغییر دهد و سپس رنگ علامت را تغییر دهد تا با یک تم متفاوت مطابقت داشته باشد. Step1X-Edit فقط متن را جایگزین نمی‌کند و رنگ را تغییر نمی‌دهد. بلکه درک می‌کند که علامت یک شی واحد است و اطمینان می‌دهد که تغییرات متن و رنگ با یکدیگر و تصویر کلی سازگار هستند. علاوه بر این، مدل می‌تواند متن را در تصاویر شناسایی و بازسازی کند، حتی اگر تا حدی مبهم یا تحریف شده باشد. این قابلیت به ویژه برای ویرایش اسناد اسکن شده یا تصاویری با متن روی هم مفید است.

سازگاری هویت توضیح داده شده است

حفظ سازگاری هویت در سناریوهایی که موضوعات در تصاویر باید علیرغم تغییرات قابل تشخیص باقی بمانند، بسیار مهم است. این امر به ویژه در برنامه‌های کاربردی انسان مجازی، مدل‌سازی تجارت الکترونیکی و ایجاد محتوای رسانه‌های اجتماعی مهم است. Step1X-Edit اطمینان می‌دهد که ویژگی‌های صورت، حالت‌ها و ویژگی‌های هویتی منحصر به فرد در طول فرآیند ویرایش حفظ می‌شوند.

به عنوان مثال، اگر کاربر بخواهد لباس یک مدل مجازی را در یک تصویر تغییر دهد، Step1X-Edit ویژگی‌های صورت، مدل مو و تناسبات بدن مدل را حفظ می‌کند و اطمینان می‌دهد که تصویر ویرایش شده هنوز به طور دقیق مدل اصلی را نشان می‌دهد. به طور مشابه، در تجارت الکترونیکی، جایی که مدل‌ها محصولات را به نمایش می‌گذارند، ظاهر مدل باید در تصاویر مختلف ثابت بماند تا از سردرگمی مشتریان جلوگیری شود.

کنترل منطقه‌ایبا دقت بالا افزایش یافته است

کنترل منطقه‌ای با دقت بالا به کاربران این امکان را می‌دهد که ویرایش‌های هدفمند را در مناطق خاصی از یک تصویر بدون تأثیرگذاری بر بقیه صحنه انجام دهند. این قابلیت برای وظایفی که نیاز به تنظیمات دقیق دارند، مانند تغییر رنگ یک لباس، تغییر بافت یک شی یا افزودن عناصر خاص به یک منطقه خاص ضروری است. Step1X-Edit به کاربران این امکان را می‌دهد که مناطق خاصی را انتخاب کرده و ویرایش‌ها را با دقت قابل توجهی اعمال کنند و اطمینان حاصل کنند که تغییرات به طور یکپارچه با تصویر موجود ترکیب می‌شوند.

سناریویی را تصور کنید که در آن کاربر می‌خواهد رنگ یک ماشین را در یک عکس تغییر دهد اما بازتاب‌ها و سایه‌ها را دست نخورده نگه دارد. Step1X-Edit می‌تواند ماشین را جدا کند، رنگ آن را تغییر دهد و جلوه‌های نور اصلی را حفظ کند و یک نتیجه واقع گرایانه و از نظر بصری جذاب ایجاد کند. این مدل همچنین اطمینان می‌دهد که سبک و زیبایی کلی تصویر ثابت باقی می‌ماند و از قرار گرفتن مناطق ویرایش شده در خارج از مکان جلوگیری می‌کند.

رمزگشایی معماری: MLLM + Diffusion

معماری جدا شده Step1X-Edit، که مدل‌های زبان بزرگ چندوجهی (MLLM) و مدل‌های Diffusion را ترکیب می‌کند، نشان دهنده یک پیشرفت قابل توجه در فناوری ویرایش تصویر است. این طراحی امکان تقسیم کار را فراهم می‌کند که در آن درک زبان طبیعی و تولید تصویر با کیفیت بالا توسط ماژول‌های جداگانه‌ای که برای وظایف مربوطه خود بهینه شده‌اند، انجام می‌شود.

غوطه ور شدن عمیق در ماژول MLLM

ماژول MLLM به عنوان مغز سیستم عمل می‌کند و مسئول درک و تفسیر هر دو دستورالعمل زبان طبیعی و محتوای تصویر است. دارای قابلیت‌های پیشرفته درک معنایی چندوجهی است که آن را قادر می‌سازد الزامات ویرایش پیچیده را به سیگنال‌های کنترل نهفته قابل اجرا تجزیه کند. این فرآیند شامل تجزیه و تحلیل ساختار زبانی دستورالعمل‌ها، شناسایی عناصر کلیدی که باید اصلاح شوند و درک روابط بین بخش‌های مختلف تصویر است.

ماژول MLLM از الگوریتم‌های پیچیده برای نگاشت دستورالعمل‌های ویرایش به نمایشی که ماژول Diffusion بتواند آن را درک کند، استفاده می‌کند. این نمایش تغییرات مورد نظر را به گونه‌ای رمزگذاری می‌کند که معنای معنایی دستورالعمل‌ها را حفظ کند و اطمینان حاصل کند که ویرایش‌های حاصل با نیت کاربر مطابقت دارند. به عنوان مثال، اگر کاربر از شما بخواهد “یک غروب خورشید به پس‌زمینه اضافه کنید”، ماژول MLLM منطقه پس‌زمینه را شناسایی می‌کند، مفهوم غروب خورشید را تشخیص می‌دهد و یک سیگنال کنترلی تولید می‌کند که به ماژول Diffusion دستور می‌دهد تا یک غروب خورشید واقعی در منطقه مشخص شده ایجاد کند.

روشن کردن ماژول Diffusion

ماژول Diffusion به عنوان هنرمند عمل می‌کند، سیگنال‌های کنترل نهفته تولید شده توسط ماژول MLLM را می‌گیرد و از آنها برای بازسازی یا اصلاح تصویر با کیفیت بالا استفاده می‌کند. این ماژول از فرآیندی به نام انتشار استفاده می‌کند، که شامل افزودن تدریجی نویز به تصویر و سپس یادگیری معکوس کردن این فرآیند برای تولید تصاویر جدید یا اصلاح تصاویر موجود است. ماژول Diffusion بر روی یک مجموعه داده عظیم از تصاویر آموزش داده می‌شود و به آن امکان می‌دهد نتایج واقع گرایانه و از نظر بصری جذاب تولید کند.

ماژول Diffusion اطمینان می‌دهد که تصویر اصلاح شده جزئیات، بافت‌ها و جلوه‌های نور تصویر اصلی را حفظ می‌کند و تغییرات را به طور یکپارچه با محتوای موجود ترکیب می‌کند. همچنین می‌تواند سبک ویرایش‌ها را با زیبایی کلی تصویر تطبیق دهد و یک نتیجه منسجم و هماهنگ ایجاد کند. به عنوان مثال، اگر کاربر بخواهد “تصویر را شبیه یک نقاشی کند”، ماژول Diffusion می‌تواند فیلترها و بافت‌های هنری را اعمال کند تا تصویر را به یک نقاشی قانع کننده تبدیل کند، در حالی که ترکیب و محتوای اصلی را حفظ می‌کند.

هم افزایی: قدرت جداسازی

معماری جدا شده Step1X-Edit محدودیت اساسی مدل‌های ویرایش تصویر سنتی را برطرف می‌کند، جایی که ‘درک’ و ‘تولید’ اغلب در هم تنیده شده‌اند و برای وظایف مربوطه خود بهینه نشده‌اند. Step1X-Edit با جدا کردن این عملکردها به ماژول‌های متمایز، هنگام اجرای دستورالعمل‌های ویرایش پیچیده به دقت و کنترل بالاتری دست می‌یابد. ماژول MLLM می‌تواند بر روی تفسیر دقیق نیت کاربر تمرکز کند، در حالی که ماژول Diffusion می‌تواند بر روی تولید تصاویر با کیفیت بالا که الزامات مشخص شده را برآورده می‌کنند، تمرکز کند.

این هم افزایی بین ماژول‌های MLLM و Diffusion Step1X-Edit را قادر می‌سازد تا طیف گسترده‌ای از وظایف ویرایش را با دقت و سازگاری قابل توجهی انجام دهد. چه ایجاد تنظیمات ظریف در یک تصویر باشد و چه انجام تبدیل‌های پیچیده، Step1X-Edit می‌تواند نتایجی را ارائه دهد که هم از نظر بصری جذاب و هم از نظر معنایی دقیق هستند. معماری جدا شده همچنین مدل را مدولارتر و به روز رسانی آن را آسان‌تر می‌کند و به توسعه دهندگان این امکان را می‌دهد که به طور مداوم عملکرد و قابلیت‌های آن را بهبود بخشند.

مهندسی مجموعه داده: پایه و اساس عملکرد

برای پشتیبانی از وظایف ویرایش تصویر متنوع و پیچیده‌ای که Step1X-Edit می‌تواند انجام دهد، توسعه دهندگان یک مجموعه داده آموزشی ویرایش تصویر پیشرو در صنعت ایجاد کردند. این مجموعه داده شامل یک مجموعه گسترده از سه تایی‌های دستورالعمل تصویر-متن است که برای آموزش مدل برای درک و اجرای طیف گسترده‌ای از دستورات ویرایش استفاده می‌شوند. مجموعه داده شامل ۲۰ میلیون سه تایی است که بیش از ۱ میلیون از آنها نمونه‌های با کیفیت بالایی هستند که به دقت انتخاب شده‌اند تا از دقت و سازگاری اطمینان حاصل شود.

این داده‌ها ۱۱ نوع وظیفه اصلی را پوشش می‌دهند که شامل ویژگی‌های پرکاربردی مانند جایگزینی متن، تولید عمل، انتقال سبک و تنظیم پس‌زمینه است. این انواع وظایف به طور مساوی در سراسر مجموعه داده توزیع شده‌اند و اطمینان می‌دهند که مدل آموزش متعادلی دریافت می‌کند و می‌تواند در سناریوهای مختلف ویرایش به خوبی عمل کند. زبان دستورالعملی که در مجموعه داده استفاده می‌شود طبیعی و واقعی است و منعکس کننده نحوه ارتباط افراد هنگام درخواست ویرایش‌های تصویر است.

مجموعه داده همچنین شامل نمونه‌هایی از دستورالعمل‌های ویرایش پیچیده و ظریف است، مانند “تصویر را بیشتر شبیه به سبک قدیمی نشان دهید” یا “حس درام را به صحنه اضافه کنید”. این دستورالعمل‌ها مستلزم این هستند که مدل مفاهیم انتزاعی را درک کند و آنها را به شیوه‌ای خلاقانه و از نظر بصری جذاب در تصویر اعمال کند. تنوع و غنای مجموعه داده عوامل مهمی در عملکرد Step1X-Edit هستند و آن را قادر می‌سازند تا طیف گسترده‌ای از وظایف ویرایش را با دقت و تطبیق‌پذیری قابل توجهی انجام دهد.

محک زدن برتری: GEdit-Bench

برای ارزیابی دقیق عملکرد Step1X-Edit، توسعه دهندگان یک معیار خود توسعه یافته به نام GEdit-Bench ایجاد کردند. این معیار برای ارائه یک ارزیابی جامع از قابلیت‌های مدل در سناریوهای مختلف ویرایش تصویر طراحی شده است. GEdit-Bench بر خلاف مجموعه‌های وظیفه مصنوعی دست‌ساز، وظایف خود را از درخواست‌های ویرایش واقعی جامعه می‌گیرد و آن را به یک معیار واقعی‌تر و مرتبط‌تر برای عملکرد مدل در برنامه‌های کاربردی دنیای واقعی تبدیل می‌کند.

وظایف موجود در GEdit-Bench طیف گسترده‌ای از عملیات ویرایش را پوشش می‌دهند، از جمله جایگزینی متن، حذف شی، انتقال سبک و تنظیم پس‌زمینه. این معیار همچنین شامل وظایفی است که از مدل می‌خواهند دستورالعمل‌های پیچیده و ظریف را درک کرده و اجرا کند، مانند “تصویر را حرفه‌ای‌تر نشان دهید” یا “حس گرما را به صحنه اضافه کنید”. GEdit-Bench ارزیابی دقیق‌تر و قابل اعتمادتری از عملکرد مدل در سناریوهای دنیای واقعی ارائه می‌دهد.

Step1X-Edit نتایج قابل توجهی را در GEdit-Bench به دست آورده است و از مدل‌های متن‌باز موجود در هر سه شاخص اصلی پیشی گرفته است: سازگاری معنایی، کیفیت تصویر و امتیاز کلی. عملکرد مدل نزدیک به GPT-4o است که توانایی آن را برای دستیابی به تعادل ایده‌آلی بین درک زبان و بازسازی تصویر نشان می‌دهد.

در خاتمه، Step1X-Edit نشان دهنده یک پیشرفت قابل توجه در فناوری ویرایش تصویر متن‌باز است. معماری جدا شده، مجموعه داده آموزشی گسترده و محک زدن دقیق آن، آن را به ابزاری قدرتمند و همه کاره برای طیف گسترده‌ای از وظایف ویرایش تبدیل کرده است. چه یک عکاس حرفه‌ای باشید، چه از علاقه مندان به رسانه‌های اجتماعی باشید یا به سادگی کسی باشید که می‌خواهد تصاویر خود را بهبود بخشد، Step1X-Edit می‌تواند به شما کمک کند تا با دقت و سهولت قابل توجهی به اهداف خود برسید.