Step1X-Edit، یک مدل ویرایش تصویر متنباز است که توسط StepFun توسعه یافته و عملکردی در سطح جهانی (SOTA) ارائه میدهد. این مدل با داشتن ۱۹ میلیارد پارامتر (۷B MLLM + 12B DiT)، در سه حوزه کلیدی برتری دارد: تحلیل معنایی دقیق، حفظ هویت پیوسته و کنترل منطقهای با دقت بالا. این مدل از ۱۱ نوع وظیفه ویرایش تصویر متداول پشتیبانی میکند، از جمله جایگزینی متن، انتقال سبک، تغییر مواد و روتوش پرتره. Step1X-Edit برای درک، اصلاح دقیق و حفظ موثر جزئیات طراحی شده است.
قابلیتهای اصلی Step1X-Edit
Step1X-Edit مدلهای زبان بزرگ چندوجهی (MLLM) و مدلهای انتشار را ادغام میکند، که منجر به بهبودهای چشمگیری در دقت ویرایش و وفاداری تصویر در چارچوب متنباز میشود. در معیار ویرایش تصویر GEdit-Bench که به تازگی منتشر شده است، Step1X-Edit از مدلهای متنباز موجود در سازگاری معنایی، کیفیت تصویر و نمره کلی بهتر عمل میکند و با عملکرد GPT-4o و Gemini 2.0 Flash رقابت میکند.
تحلیل دقت معنایی
این مدل از ترکیبات پیچیده دستورالعملهای توصیف شده به زبان طبیعی پشتیبانی میکند. این دستورالعملها نیازی به الگو ندارند، که مدل را انعطافپذیر میکند و قادر میسازد نیازهای ویرایش چند نوبتی و چند وظیفهای را برآورده کند. همچنین از شناسایی، جایگزینی و بازسازی متن در تصاویر پشتیبانی میکند.
- پشتیبانی از توضیحات پیچیده به زبان طبیعی
- عدم نیاز به الگوهای ثابت
- قابلیت ویرایش چند نوبتی و چند وظیفهای
- شناسایی، جایگزینی و بازسازی متن در تصاویر
حفظ سازگاری هویت
این مدل به طور مداوم ویژگیهای صورت، حالتها و ویژگیهای هویتی را پس از ویرایش حفظ میکند. این ویژگی برای سناریوهایی با الزامات سازگاری بالا، مانند انسانهای مجازی، مدلهای تجارت الکترونیکی و تصاویر رسانههای اجتماعی مناسب است.
- حفظ ویژگیهای صورت
- حفظ حالتها
- حفظ ویژگیهای هویتی
- ایدهآل برای انسانهای مجازی، مدلهای تجارت الکترونیکی و رسانههای اجتماعی
کنترل منطقهای با دقت بالا
این مدل از ویرایش هدفمند متن، مواد، رنگها و سایر عناصر در مناطق خاص پشتیبانی میکند. سبک تصویر یکپارچه را حفظ میکند و کنترل دقیقتری را ارائه میدهد.
- ویرایش هدفمند در مناطق خاص
- کنترل متن، مواد و رنگها
- حفظ سبک تصویر یکپارچه
- ارائه کنترل دقیقتر
نوآوریهای معماری
Step1X-Edit از یک معماری جداشده MLLM (مدل زبان بزرگ چندوجهی) + Diffusion استفاده میکند، که به طور جداگانه درک زبان طبیعی و تولید تصویر با کیفیت بالا را انجام میدهد. در مقایسه با مدلهای ویرایش تصویر موجود، این معماری در توانایی تعمیم دستورالعمل و قابلیت کنترل تصویر مزایایی دارد.
ماژول MLLM
ماژول MLLM مسئول پردازش دستورالعملهای زبان طبیعی و محتوای تصویر است. دارای قابلیتهای درک معنایی چندوجهی است که میتواند الزامات ویرایش پیچیده را به سیگنالهای کنترل نهفته تجزیه کند.
- پردازش دستورالعملهای زبان طبیعی
- مدیریت محتوای تصویر
- درک معنایی چندوجهی
- تجزیه الزامات ویرایش پیچیده
ماژول Diffusion
ماژول Diffusion به عنوان یک ژنراتور تصویر (Image Decoder) عمل میکند و بازسازی یا اصلاح محلی تصاویر را بر اساس سیگنالهای نهفته تولید شده توسط MLLM تکمیل میکند. این امر حفظ جزئیات تصویر و سازگاری سبک را تضمین میکند.
- ژنراتور تصویر (Image Decoder)
- بازسازی تصاویر
- اصلاح تصاویر به صورت محلی
- حفظ جزئیات و سبک تصویر
این ساختار مسئله جدا بودن ‘درک’ و ‘تولید’ در مدلهای خط لوله سنتی را برطرف میکند. این امر مدل را قادر میسازد تا هنگام اجرای دستورالعملهای ویرایش پیچیده، دقت و کنترل بالاتری داشته باشد.
دادههای آموزش
برای پشتیبانی از طیف گستردهای از وظایف ویرایش تصویر پیچیده، Step1X-Edit یک مجموعه داده آموزشی ویرایش تصویر پیشرو در صنعت ایجاد کرده است. ۲۰ میلیون سهتایی دستورالعمل تصویر-متن تولید میکند و در نهایت بیش از ۱ میلیون نمونه با کیفیت بالا را حفظ میکند. این دادهها ۱۱ نوع وظیفه اصلی را پوشش میدهند، از جمله ویژگیهای پرکاربردی مانند جایگزینی متن، تولید عمل، انتقال سبک و تنظیم پسزمینه. انواع وظایف به طور مساوی توزیع شدهاند و زبان دستورالعمل طبیعی و واقعی است.
- مجموعه داده آموزشی پیشرو در صنعت
- ۲۰ میلیون سهتایی دستورالعمل تصویر-متن
- ۱ میلیون نمونه با کیفیت بالا
- ۱۱ نوع وظیفه اصلی
- انواع وظایف به طور مساوی توزیع شده
ارزیابی عملکرد
Step1X-Edit به طور مداوم خروجی با کیفیت بالا را در ۱۱ زیروظیفه ویرایش تصویر حفظ میکند. قابلیتهای آن متعادل است و در تقریبا تمام ابعاد وظیفه در خط مقدم باقی میماند و تطبیقپذیری و تعادل قوی خود را نشان میدهد.
معیار GEdit-Bench
ارزیابی مدل از یک معیار GEdit-Bench خود توسعه یافته استفاده میکند. بر خلاف مجموعههای وظیفه مصنوعی دستساز، این معیار از درخواستهای ویرایش واقعی جامعه ناشی میشود، که به نیازهای محصول نزدیکتر است.
- معیار خود توسعه یافته
- درخواستهای ویرایش واقعی جامعه
- نزدیکتر به نیازهای محصول
Step1X-Edit به طور قابل توجهی از مدلهای متنباز موجود در سه شاخص اصلی GEdit-Bench پیشی میگیرد. عملکرد آن نزدیک به GPT-4o است و به تعادل ایدهآلی بین درک زبان و بازسازی تصویر دست مییابد.
بررسی دقیق قابلیتها
Step1X-Edit فقط در مورد تغییر تصاویر نیست. بلکه در مورد درک واقعی نیت پشت ویرایشها، اجرای آنها با دقت و حفظ یکپارچگی تصویر اصلی است. قابلیتهای اصلی—دقت معنایی، سازگاری هویت و کنترل منطقهای با دقت بالا—برای پاسخگویی به خواستههای دقیق ویرایش تصویر مدرن طراحی شدهاند.
تحلیل دقت معنایی به صورت عمیق
تحلیل دقت معنایی Step1X-Edit فراتر از تشخیص ساده کلمات کلیدی است. به زمینه توضیحات زبان طبیعی میپردازد و ترکیبات پیچیده دستورالعملها را درک میکند. بر خلاف سیستمهایی که به الگوهای سفت و سخت متکی هستند، Step1X-Edit میتواند زبان آزاد را تفسیر کند و آن را برای سناریوهای مختلف ویرایش بسیار سازگار کند. ویرایش چند نوبتی و چند وظیفهای را به طور یکپارچه انجام میدهد و روابط بین دستورالعملهای متوالی را درک میکند تا نتایج منسجمی تولید کند.
این مثال را در نظر بگیرید: کاربر میخواهد متن روی یک علامت در یک تصویر را تغییر دهد و سپس رنگ علامت را تغییر دهد تا با یک تم متفاوت مطابقت داشته باشد. Step1X-Edit فقط متن را جایگزین نمیکند و رنگ را تغییر نمیدهد. بلکه درک میکند که علامت یک شی واحد است و اطمینان میدهد که تغییرات متن و رنگ با یکدیگر و تصویر کلی سازگار هستند. علاوه بر این، مدل میتواند متن را در تصاویر شناسایی و بازسازی کند، حتی اگر تا حدی مبهم یا تحریف شده باشد. این قابلیت به ویژه برای ویرایش اسناد اسکن شده یا تصاویری با متن روی هم مفید است.
سازگاری هویت توضیح داده شده است
حفظ سازگاری هویت در سناریوهایی که موضوعات در تصاویر باید علیرغم تغییرات قابل تشخیص باقی بمانند، بسیار مهم است. این امر به ویژه در برنامههای کاربردی انسان مجازی، مدلسازی تجارت الکترونیکی و ایجاد محتوای رسانههای اجتماعی مهم است. Step1X-Edit اطمینان میدهد که ویژگیهای صورت، حالتها و ویژگیهای هویتی منحصر به فرد در طول فرآیند ویرایش حفظ میشوند.
به عنوان مثال، اگر کاربر بخواهد لباس یک مدل مجازی را در یک تصویر تغییر دهد، Step1X-Edit ویژگیهای صورت، مدل مو و تناسبات بدن مدل را حفظ میکند و اطمینان میدهد که تصویر ویرایش شده هنوز به طور دقیق مدل اصلی را نشان میدهد. به طور مشابه، در تجارت الکترونیکی، جایی که مدلها محصولات را به نمایش میگذارند، ظاهر مدل باید در تصاویر مختلف ثابت بماند تا از سردرگمی مشتریان جلوگیری شود.
کنترل منطقهایبا دقت بالا افزایش یافته است
کنترل منطقهای با دقت بالا به کاربران این امکان را میدهد که ویرایشهای هدفمند را در مناطق خاصی از یک تصویر بدون تأثیرگذاری بر بقیه صحنه انجام دهند. این قابلیت برای وظایفی که نیاز به تنظیمات دقیق دارند، مانند تغییر رنگ یک لباس، تغییر بافت یک شی یا افزودن عناصر خاص به یک منطقه خاص ضروری است. Step1X-Edit به کاربران این امکان را میدهد که مناطق خاصی را انتخاب کرده و ویرایشها را با دقت قابل توجهی اعمال کنند و اطمینان حاصل کنند که تغییرات به طور یکپارچه با تصویر موجود ترکیب میشوند.
سناریویی را تصور کنید که در آن کاربر میخواهد رنگ یک ماشین را در یک عکس تغییر دهد اما بازتابها و سایهها را دست نخورده نگه دارد. Step1X-Edit میتواند ماشین را جدا کند، رنگ آن را تغییر دهد و جلوههای نور اصلی را حفظ کند و یک نتیجه واقع گرایانه و از نظر بصری جذاب ایجاد کند. این مدل همچنین اطمینان میدهد که سبک و زیبایی کلی تصویر ثابت باقی میماند و از قرار گرفتن مناطق ویرایش شده در خارج از مکان جلوگیری میکند.
رمزگشایی معماری: MLLM + Diffusion
معماری جدا شده Step1X-Edit، که مدلهای زبان بزرگ چندوجهی (MLLM) و مدلهای Diffusion را ترکیب میکند، نشان دهنده یک پیشرفت قابل توجه در فناوری ویرایش تصویر است. این طراحی امکان تقسیم کار را فراهم میکند که در آن درک زبان طبیعی و تولید تصویر با کیفیت بالا توسط ماژولهای جداگانهای که برای وظایف مربوطه خود بهینه شدهاند، انجام میشود.
غوطه ور شدن عمیق در ماژول MLLM
ماژول MLLM به عنوان مغز سیستم عمل میکند و مسئول درک و تفسیر هر دو دستورالعمل زبان طبیعی و محتوای تصویر است. دارای قابلیتهای پیشرفته درک معنایی چندوجهی است که آن را قادر میسازد الزامات ویرایش پیچیده را به سیگنالهای کنترل نهفته قابل اجرا تجزیه کند. این فرآیند شامل تجزیه و تحلیل ساختار زبانی دستورالعملها، شناسایی عناصر کلیدی که باید اصلاح شوند و درک روابط بین بخشهای مختلف تصویر است.
ماژول MLLM از الگوریتمهای پیچیده برای نگاشت دستورالعملهای ویرایش به نمایشی که ماژول Diffusion بتواند آن را درک کند، استفاده میکند. این نمایش تغییرات مورد نظر را به گونهای رمزگذاری میکند که معنای معنایی دستورالعملها را حفظ کند و اطمینان حاصل کند که ویرایشهای حاصل با نیت کاربر مطابقت دارند. به عنوان مثال، اگر کاربر از شما بخواهد “یک غروب خورشید به پسزمینه اضافه کنید”، ماژول MLLM منطقه پسزمینه را شناسایی میکند، مفهوم غروب خورشید را تشخیص میدهد و یک سیگنال کنترلی تولید میکند که به ماژول Diffusion دستور میدهد تا یک غروب خورشید واقعی در منطقه مشخص شده ایجاد کند.
روشن کردن ماژول Diffusion
ماژول Diffusion به عنوان هنرمند عمل میکند، سیگنالهای کنترل نهفته تولید شده توسط ماژول MLLM را میگیرد و از آنها برای بازسازی یا اصلاح تصویر با کیفیت بالا استفاده میکند. این ماژول از فرآیندی به نام انتشار استفاده میکند، که شامل افزودن تدریجی نویز به تصویر و سپس یادگیری معکوس کردن این فرآیند برای تولید تصاویر جدید یا اصلاح تصاویر موجود است. ماژول Diffusion بر روی یک مجموعه داده عظیم از تصاویر آموزش داده میشود و به آن امکان میدهد نتایج واقع گرایانه و از نظر بصری جذاب تولید کند.
ماژول Diffusion اطمینان میدهد که تصویر اصلاح شده جزئیات، بافتها و جلوههای نور تصویر اصلی را حفظ میکند و تغییرات را به طور یکپارچه با محتوای موجود ترکیب میکند. همچنین میتواند سبک ویرایشها را با زیبایی کلی تصویر تطبیق دهد و یک نتیجه منسجم و هماهنگ ایجاد کند. به عنوان مثال، اگر کاربر بخواهد “تصویر را شبیه یک نقاشی کند”، ماژول Diffusion میتواند فیلترها و بافتهای هنری را اعمال کند تا تصویر را به یک نقاشی قانع کننده تبدیل کند، در حالی که ترکیب و محتوای اصلی را حفظ میکند.
هم افزایی: قدرت جداسازی
معماری جدا شده Step1X-Edit محدودیت اساسی مدلهای ویرایش تصویر سنتی را برطرف میکند، جایی که ‘درک’ و ‘تولید’ اغلب در هم تنیده شدهاند و برای وظایف مربوطه خود بهینه نشدهاند. Step1X-Edit با جدا کردن این عملکردها به ماژولهای متمایز، هنگام اجرای دستورالعملهای ویرایش پیچیده به دقت و کنترل بالاتری دست مییابد. ماژول MLLM میتواند بر روی تفسیر دقیق نیت کاربر تمرکز کند، در حالی که ماژول Diffusion میتواند بر روی تولید تصاویر با کیفیت بالا که الزامات مشخص شده را برآورده میکنند، تمرکز کند.
این هم افزایی بین ماژولهای MLLM و Diffusion Step1X-Edit را قادر میسازد تا طیف گستردهای از وظایف ویرایش را با دقت و سازگاری قابل توجهی انجام دهد. چه ایجاد تنظیمات ظریف در یک تصویر باشد و چه انجام تبدیلهای پیچیده، Step1X-Edit میتواند نتایجی را ارائه دهد که هم از نظر بصری جذاب و هم از نظر معنایی دقیق هستند. معماری جدا شده همچنین مدل را مدولارتر و به روز رسانی آن را آسانتر میکند و به توسعه دهندگان این امکان را میدهد که به طور مداوم عملکرد و قابلیتهای آن را بهبود بخشند.
مهندسی مجموعه داده: پایه و اساس عملکرد
برای پشتیبانی از وظایف ویرایش تصویر متنوع و پیچیدهای که Step1X-Edit میتواند انجام دهد، توسعه دهندگان یک مجموعه داده آموزشی ویرایش تصویر پیشرو در صنعت ایجاد کردند. این مجموعه داده شامل یک مجموعه گسترده از سه تاییهای دستورالعمل تصویر-متن است که برای آموزش مدل برای درک و اجرای طیف گستردهای از دستورات ویرایش استفاده میشوند. مجموعه داده شامل ۲۰ میلیون سه تایی است که بیش از ۱ میلیون از آنها نمونههای با کیفیت بالایی هستند که به دقت انتخاب شدهاند تا از دقت و سازگاری اطمینان حاصل شود.
این دادهها ۱۱ نوع وظیفه اصلی را پوشش میدهند که شامل ویژگیهای پرکاربردی مانند جایگزینی متن، تولید عمل، انتقال سبک و تنظیم پسزمینه است. این انواع وظایف به طور مساوی در سراسر مجموعه داده توزیع شدهاند و اطمینان میدهند که مدل آموزش متعادلی دریافت میکند و میتواند در سناریوهای مختلف ویرایش به خوبی عمل کند. زبان دستورالعملی که در مجموعه داده استفاده میشود طبیعی و واقعی است و منعکس کننده نحوه ارتباط افراد هنگام درخواست ویرایشهای تصویر است.
مجموعه داده همچنین شامل نمونههایی از دستورالعملهای ویرایش پیچیده و ظریف است، مانند “تصویر را بیشتر شبیه به سبک قدیمی نشان دهید” یا “حس درام را به صحنه اضافه کنید”. این دستورالعملها مستلزم این هستند که مدل مفاهیم انتزاعی را درک کند و آنها را به شیوهای خلاقانه و از نظر بصری جذاب در تصویر اعمال کند. تنوع و غنای مجموعه داده عوامل مهمی در عملکرد Step1X-Edit هستند و آن را قادر میسازند تا طیف گستردهای از وظایف ویرایش را با دقت و تطبیقپذیری قابل توجهی انجام دهد.
محک زدن برتری: GEdit-Bench
برای ارزیابی دقیق عملکرد Step1X-Edit، توسعه دهندگان یک معیار خود توسعه یافته به نام GEdit-Bench ایجاد کردند. این معیار برای ارائه یک ارزیابی جامع از قابلیتهای مدل در سناریوهای مختلف ویرایش تصویر طراحی شده است. GEdit-Bench بر خلاف مجموعههای وظیفه مصنوعی دستساز، وظایف خود را از درخواستهای ویرایش واقعی جامعه میگیرد و آن را به یک معیار واقعیتر و مرتبطتر برای عملکرد مدل در برنامههای کاربردی دنیای واقعی تبدیل میکند.
وظایف موجود در GEdit-Bench طیف گستردهای از عملیات ویرایش را پوشش میدهند، از جمله جایگزینی متن، حذف شی، انتقال سبک و تنظیم پسزمینه. این معیار همچنین شامل وظایفی است که از مدل میخواهند دستورالعملهای پیچیده و ظریف را درک کرده و اجرا کند، مانند “تصویر را حرفهایتر نشان دهید” یا “حس گرما را به صحنه اضافه کنید”. GEdit-Bench ارزیابی دقیقتر و قابل اعتمادتری از عملکرد مدل در سناریوهای دنیای واقعی ارائه میدهد.
Step1X-Edit نتایج قابل توجهی را در GEdit-Bench به دست آورده است و از مدلهای متنباز موجود در هر سه شاخص اصلی پیشی گرفته است: سازگاری معنایی، کیفیت تصویر و امتیاز کلی. عملکرد مدل نزدیک به GPT-4o است که توانایی آن را برای دستیابی به تعادل ایدهآلی بین درک زبان و بازسازی تصویر نشان میدهد.
در خاتمه، Step1X-Edit نشان دهنده یک پیشرفت قابل توجه در فناوری ویرایش تصویر متنباز است. معماری جدا شده، مجموعه داده آموزشی گسترده و محک زدن دقیق آن، آن را به ابزاری قدرتمند و همه کاره برای طیف گستردهای از وظایف ویرایش تبدیل کرده است. چه یک عکاس حرفهای باشید، چه از علاقه مندان به رسانههای اجتماعی باشید یا به سادگی کسی باشید که میخواهد تصاویر خود را بهبود بخشد، Step1X-Edit میتواند به شما کمک کند تا با دقت و سهولت قابل توجهی به اهداف خود برسید.