Step1X-Edit е новаторски модел с отворен код за редактиране на изображения, разработен от StepFun, който постига най-съвременна (SOTA) производителност. Този модел, който се гордее с 19 милиарда параметри (7B MLLM + 12B DiT), превъзхожда в три ключови области: прецизен семантичен анализ, последователно запазване на идентичността и високопрецизен регионален контрол. Той поддържа 11 вида често срещани задачи за редактиране на изображения, включително замяна на текст, прехвърляне на стил, трансформация на материали и ретуширане на портрети. Step1X-Edit е проектиран да разбира, модифицира точно и запазва детайлите ефективно.
Основни възможности на Step1X-Edit
Step1X-Edit интегрира мултимодални големи езикови модели (MLLM) и дифузионни модели, което води до значителни подобрения в точността на редактиране и точността на изображението в рамките на отворената рамка. В наскоро пуснатия GEdit-Bench еталон за редактиране на изображения, Step1X-Edit превъзхожда съществуващите модели с отворен код по отношение на семантична последователност, качество на изображението и общ резултат, конкурирайки се с производителността на GPT-4o и Gemini 2.0 Flash.
Семантичен прецизен анализ
Моделът поддържа сложни комбинации от инструкции, описани на естествен език. Тези инструкции не изискват шаблон, което прави модела гъвкав и способен да се справя с многооборотни, многозадачни нужди за редактиране. Той също така поддържа идентифицирането, замяната и реконструкцията на текст в изображения.
- Поддържа сложни описания на естествен език
- Не са необходими фиксирани шаблони
- Възможност за многооборотни, многозадачни редакции
- Идентифицира, заменя и реконструира текст в изображения
Поддържане на идентичностната последователност
Моделът последователно запазва чертите на лицето, позите и характеристиките на идентичността след редактиране. Това е подходящо за сценарии с високи изисквания за последователност, като виртуални хора, модели за електронна търговия и изображения в социалните медии.
- Поддържа чертите на лицето
- Запазва позите
- Запазва характеристиките на идентичността
- Идеален за виртуални хора, модели за електронна търговия и социални медии
Високопрецизен регионален контрол
Моделът поддържа целенасочено редактиране на текст, материали, цветове и други елементи в определени области. Той поддържа единен стил на изображението и предлага по-прецизен контрол.
- Целенасочено редактиране в определени области
- Контролира текст, материали и цветове
- Поддържа единен стил на изображението
- Предлага по-прецизен контрол
Архитектурни иновации
Step1X-Edit използва отделена архитектура на MLLM (Multimodal LLM) + Diffusion, която отделно обработва разбирането на естествен език и генерирането на изображения с висока точност. В сравнение със съществуващите модели за редактиране на изображения, тази архитектура има предимства в способността за обобщаване на инструкции и контролируемостта на изображението.
MLLM модул
MLLM модулът е отговорен за обработката на инструкции на естествен език и съдържание на изображението. Той има мултимодални възможности за семантично разбиране, които могат да анализират сложни изисквания за редактиране в латентни контролни сигнали.
- Обработва инструкции на естествен език
- Обработва съдържание на изображението
- Мултимодално семантично разбиране
- Анализира сложни изисквания за редактиране
Diffusion модул
Diffusion модулът служи като генератор на изображения (Image Decoder), завършвайки реконструкцията или локалната модификация на изображения въз основа на латентните сигнали, генерирани от MLLM. Това гарантира запазването на детайлите на изображението и последователността на стила.
- Генератор на изображения (Image Decoder)
- Реконструира изображения
- Модифицира изображения локално
- Запазва детайлите и стила на изображението
Тази структура адресира проблема с отделното ‘разбиране’ и ‘генериране’ в традиционните модели на тръбопроводи. Това позволява на модела да има по-висока точност и контрол при изпълнение на сложни инструкции за редактиране.
Данни за обучение
За да поддържа широка гама от сложни задачи за редактиране на изображения, Step1X-Edit е изградил водещ в индустрията набор от данни за обучение за редактиране на изображения. Той генерира 20 милиона троен елемент от инструкции за изображение-текст и в крайна сметка запазва повече от 1 милион висококачествени проби. Данните обхващат 11 основни типа задачи, включително често искани функции като замяна на текст, генериране на действие, прехвърляне на стил и регулиране на фона. Типовете задачи са равномерно разпределени, а езикът на инструкциите е естествен и реалистичен.
- Водещ в индустрията набор от данни за обучение
- 20 милиона троен елемент от инструкции за изображение-текст
- 1 милион висококачествени проби
- 11 основни типа задачи
- Равномерно разпределени типове задачи
Оценка на производителността
Step1X-Edit последователно поддържа висококачествен резултат в 11-те подзадачи за редактиране на изображения. Възможностите му са добре балансирани и той остава начело в почти всички измерения на задачите, демонстрирайки силната си гъвкавост и равновесие.
GEdit-Bench еталон
Оценката на модела използва самостоятелно разработен GEdit-Bench еталон. За разлика от ръчно синтезираните колекции от задачи, този еталон идва от реални заявки за редактиране на общността, които са по-близо до нуждите на продукта.
- Самостоятелно разработен еталон
- Реални заявки за редактиране на общността
- По-близо до нуждите на продукта
Step1X-Edit значително води съществуващите модели с отворен код в трите основни индикатора на GEdit-Bench. Той се представя близо до GPT-4o, постигайки идеален баланс между разбирането на езика и реконструкцията на изображението.
Подробен преглед на възможностите
Step1X-Edit не е просто за промяна на изображения; става въпрос за искрено разбиране на намерението зад редакциите, изпълнението им с прецизност и защита на целостта на оригиналното изображение. Основните възможности - семантична прецизност, последователност на идентичността и високопрецизен регионален контрол - са предназначени да отговорят на нюансираните изисквания на съвременното редактиране на изображения.
Семантичен прецизен анализ в дълбочина
Семантичният прецизен анализ на Step1X-Edit надхвърля простото разпознаване на ключови думи. Той се задълбочава в контекста на описанията на естествен език, разбирайки сложни комбинации от инструкции. За разлика от системите, които разчитат на твърди шаблони, Step1X-Edit може да интерпретира свободна форма на език, което го прави изключително адаптивен към различни сценарии за редактиране. Той се справя с многооборотни и многозадачни редакции безпроблемно, разбирайки връзките между последователни инструкции, за да произведе съгласувани резултати.
Разгледайте този пример: потребител иска да промени текста на знак в изображение и след това да промени цвета на знака, за да съответства на различна тема. Step1X-Edit не просто заменя текста и променя цвета; той разбира, че знакът е един обект и гарантира, че промените в текста и цвета са в съответствие един с друг и с цялостното изображение. Освен това, моделът може да идентифицира и реконструира текст в изображения, дори ако е частично скрит или изкривен. Тази възможност е особено полезна за редактиране на сканирани документи или изображения с наслагване на текст.
Обяснено поддържане на идентичностната последователност
Поддържането на идентичностната последователност е от решаващо значение в сценарии, в които субектите в изображенията трябва да останат разпознаваеми въпреки промените. Това е особено важно в приложенията за виртуални хора, моделирането на електронна търговия и създаването на съдържание в социалните медии. Step1X-Edit гарантира, че чертите на лицето, позите и уникалните характеристики на идентичността се запазват по време на процеса на редактиране.
Например, ако потребител иска да промени облеклото на виртуален модел в изображение, Step1X-Edit поддържа чертите на лицето, прическата и пропорциите на тялото на модела, като гарантира, че редактираното изображение все още точно представя оригиналния модел. По същия начин, в електронната търговия, където моделите показват продукти, външният вид на модела трябва да остане последователен в различните изображения, за да се избегне объркване на клиентите.
Подобрен високопрецизен регионален контрол
Високопрецизният регионален контрол позволява на потребителите да правят целенасочени редакции в определени области на изображение, без да засягат останалата част от сцената. Тази възможност е от съществено значение за задачи, които изискват фини настройки, като например промяна на цвета на дреха, промяна на текстурата на обект или добавяне на специфични елементи към определен регион. Step1X-Edit позволява на потребителите да избират конкретни региони и да прилагат редакции с забележителна прецизност, като гарантира, че промените се сливат безпроблемно със съществуващото изображение.
Представете си сценарий, в който потребител иска да промени цвета на кола на снимка, но да запази отраженията и сенките непокътнати. Step1X-Edit може да изолира колата, да промени цвета й и да запази оригиналните светлинни ефекти, създавайки реалистичен и визуално привлекателен резултат. Моделът също така гарантира, че цялостният стил и естетика на изображението остават последователни, предотвратявайки изглеждането на редактираните области извън мястото си.
Декодиране на архитектурата: MLLM + Diffusion
Разделената архитектура на Step1X-Edit, комбинираща мултимодални големи езикови модели (MLLM) и дифузионни модели, бележи значителен напредък в технологията за редактиране на изображения. Този дизайн позволява разделение на труда, където разбирането на естествен език и генерирането на изображения с висока точност се обработват от отделни модули, оптимизирани за съответните им задачи.
Дълбоко гмуркане в MLLM модула
MLLM модулът служи като мозък на системата, отговорен за разбирането и интерпретирането както на инструкции на естествен език, така и на съдържание на изображението. Той притежава усъвършенствани мултимодални възможности за семантично разбиране, което му позволява да анализира сложни изисквания за редактиране в действени латентни контролни сигнали. Този процес включва анализиране на лингвистичната структура на инструкциите, идентифициране на ключовите елементи, които трябва да бъдат модифицирани, и разбиране на връзките между различните части на изображението.
MLLM модулът използва сложни алгоритми за картографиране на инструкциите за редактиране към представяне, което Diffusion модулът може да разбере. Това представяне кодира желаните промени по начин, който запазва семантичното значение на инструкциите и гарантира, че получените редакции са в съответствие с намерението на потребителя. Например, ако потребител поиска ‘да добави залез към фона’, MLLM модулът идентифицира фона, разпознава концепцията за залез и генерира контролен сигнал, който инструктира Diffusion модула да създаде реалистичен залез в посочената област.
Обяснение на Diffusion модула
Diffusion модулът действа като художник, като приема латентните контролни сигнали, генерирани от MLLM модула, и ги използва за реконструиране или модифициране на изображението с висока точност. Този модул използва процес, наречен дифузия, който включва постепенно добавяне на шум към изображението и след това научаване да обърне този процес, за да генерира нови изображения или да модифицира съществуващи. Diffusion модулът е обучен на огромен набор от данни от изображения, което му позволява да генерира реалистични и визуално привлекателни резултати.
Diffusion модулът гарантира, че модифицираното изображение поддържа детайлите, текстурите и светлинните ефекти на оригиналното изображение, като слива промените безпроблемно със съществуващото съдържание. Той може също така да адаптира стила на редакциите, за да съответства на цялостната естетика на изображението, създавайки съгласуван и хармоничен резултат. Например, ако потребител иска ‘да направи изображението да изглежда като картина’, Diffusion модулът може да приложи артистични филтри и текстури, за да трансформира изображението в убедителна картина, като запази оригиналната композиция и съдържание.
Синергия: Силата на разделянето
Разделената архитектура на Step1X-Edit адресира основно ограничение на традиционните модели за редактиране на изображения, където ‘разбирането’ и ‘генерирането’ често са преплетени и не са оптимизирани за съответните им задачи. Чрез разделяне на тези функции на отделни модули, Step1X-Edit постига по-висока точност и контрол при изпълнение на сложни инструкции за редактиране. MLLM модулът може да се фокусира върху точното интерпретиране на намерението на потребителя, докато Diffusion модулът може да се концентрира върху генерирането на висококачествени изображения, които отговарят на посочените изисквания.
Тази синергия между MLLM и Diffusion модулите позволява на Step1X-Edit да се справя с широка гама от задачи за редактиране със забележителна прецизност и последователност. Независимо дали става въпрос за извършване на фини настройки на изображение или извършване на сложни трансформации, Step1X-Edit може да достави резултати, които са едновременно визуално привлекателни и семантично точни. Разделената архитектура също така прави модела по-модулен и по-лесен за актуализиране, позволявайки на разработчиците непрекъснато да подобряват неговата производителност и възможности.
Инженеринг на набора от данни: Основата на производителността
За да поддържа разнообразните и сложни задачи за редактиране на изображения, с които Step1X-Edit може да се справи, разработчиците изградиха водещ в индустрията набор от данни за обучение за редактиране на изображения. Този набор от данни се състои от огромна колекция от троен елемент от инструкции за изображение-текст, които се използват за обучение на модела да разбира и изпълнява широка гама от команди за редактиране. Наборът от данни включва 20 милиона троен елемент, от които повече от 1 милион са висококачествени проби, които са внимателно подбрани, за да се гарантира точност и последователност.
Данните обхващат 11 основни типа задачи, обхващащи често искани функции като замяна на текст, генериране на действие, прехвърляне на стил и регулиране на фона. Тези типове задачи са равномерно разпределени в целия набор от данни, като гарантират, че моделът получава балансирано обучение и може да се представя добре в различни сценарии за редактиране. Езикът на инструкциите, използван в набора от данни, е естествен и реалистичен, отразявайки начина, по който хората комуникират, когато искат редакции на изображения.
Наборът от данни също така включва примери за сложни и нюансирани инструкции за редактиране, като например ‘направете изображението да изглежда по-винтидж’ или ‘добавете чувство за драма към сцената’. Тези инструкции изискват моделът да разбира абстрактни концепции и да ги прилага към изображението по творчески и визуално привлекателен начин. Разнообразието и богатството на набора от данни са от решаващо значение за производителността на Step1X-Edit, което му позволява да се справя с широка гама от задачи за редактиране със забележителна точност и гъвкавост.
Еталон за високи постижения: GEdit-Bench
За да оцени стриктно производителността на Step1X-Edit, разработчиците създадоха самостоятелно разработен еталон, наречен GEdit-Bench. Този еталон е проектиран да предостави цялостна оценка на възможностите на модела в различни сценарии за редактиране на изображения. За разлика от ръчно синтезираните колекции от задачи, GEdit-Bench черпи своите задачи от реални заявки за редактиране на общността, което го прави по-реалистична и подходяща мярка за производителността на модела в реални приложения.
Задачите в GEdit-Bench обхващат широка гама от операции за редактиране, включително замяна на текст, премахване на обект, прехвърляне на стил и регулиране на фона. Еталонът също така включва задачи, които изискват моделът да разбира и изпълнява сложни и нюансирани инструкции, като например ‘направете изображението да изглежда по-професионално’ или ‘добавете чувство за топлина към сцената’. GEdit-Bench предоставя по-точна и надеждна оценка на производителността на модела в реални сценарии.
Step1X-Edit постигна забележителни резултати в GEdit-Bench, надминавайки съществуващите модели с отворен код във всичките три основни индикатора: семантична последователност, качество на изображението и общ резултат. Производителността на модела е близо до тази на GPT-4o, демонстрирайки способността му да постигне идеален баланс между разбирането на езика и реконструкцията на изображението.
В заключение, Step1X-Edit представлява значителен напредък в технологията за редактиране на изображения с отворен код. Неговата разделена архитектура, огромният набор от данни за обучение и стриктното еталониране го правят мощен и гъвкав инструмент за широк спектър от задачи за редактиране. Независимо дали сте професионален фотограф, ентусиаст в социалните медии или просто някой, който иска да подобри своите изображения, Step1X-Edit може да ви помогне да постигнете целите си със забележителна точност и лекота.